Готов к работе
2025 / 2026

2473 Разработка модуля анализа паттернов использования оперативной памяти для расширения системы мониторинга HPC TaskMaster суперкомпьютера cHARISMa
Заявка создана
19.01.2026
Контроль ПО
19.01.2026
Отправлен на комиссию
19.01.2026
Одобрен
23.01.2026
Паспорт проекта
Аннотация
Проект направлен на разработку модуля анализа поведения вычислительных задач по метрикам памяти для системы HPC Taskmaster, интегрированной в кластер cHARISMa. Основная цель — обнаруживать аномалии в потреблении оперативной памяти, такие как утечки и интенсивные выделения/освобождения памяти, чтобы улучшить устойчивость инфраструктуры и оптимизировать распределение задач. Ожидаемые результаты включают программный модуль, алгоритмы анализа, интеграцию в мониторинг и методические рекомендации...
Отрасль
Информатика
Теги
HPC TaskMaster
Мониторинг
Суперкомпьютеры
Цель
Целью проекта является разработка и внедрение модуля автоматического обнаружения вычислительных задач с аномальным поведением использования оперативной памяти в суперкомпьютерной среде на основе анализа временных рядов метрик, а также классификация таких задач по степени риска переполнения памяти вычислительных узлов при совместном выполнении.
Ожидаемые результаты
- Разработан программный модуль анализа временного поведения использования оперативной памяти задач в среде мониторинга задач HPC Taskmaster
- Реализованы алгоритмы обнаружения утечек памяти и задач с интенсивным колебательным потреблением памяти
- Выполнена интеграция разработанных алгоритмов в существующую систему мониторинга и анализа заданий суперкомпьютера
- Обеспечена возможность фильтрации и визуального представления выявленных аномалий для администраторов вычислительного комплекса
Форма и способы промежуточного контроля
Промежуточный контроль выполнения проекта предполагается осуществлять в форме поэтапной проверки результатов разработки и тестирования программного модуля.
Форма представления результатов
Результаты проекта будут представлены в виде:
• программного модуля, интегрированного в систему мониторинга суперкомпьютера;
• отчётной документации с описанием архитектуры, алгоритмов и результатов тестирования;
• аналитических отчётов с примерами выявленных аномальных задач и визуализацией поведения метрик памяти;
презентационных материалов для демонстрации полученных результатов и возможностей системы.
Ресурсное обеспечение
Для реализации проекта предполагается использование следующих ресурсов:
• вычислительные ресурсы суперкомпьютера cHARISMa для сбора и анализа метрик выполнения задач;
• существующая система мониторинга вычислительных заданий HPC Taskmaster;
• программные средства разработки на базе языка Python и фреймворка Django;
• системы хранения и обработки временных рядов (InfluxDB) и реляционных данных;
• доступ к историческим данным выполнения задач для проведения анализа и валидации результатов.
Имеющийся задел
На момент начала проекта имеется функционирующая система мониторинга и анализа выполнения вычислительных задач в суперкомпьютерной среде HPC Taskmaster, включающая сбор метрик использования ресурсов, визуализацию и базовые механизмы выявления неэффективного использования вычислительных ресурсов. Также разработана архитектура модульного анализа проблем выполнения задач, что позволяет расширять систему новыми алгоритмами без изменения существующих компонентов. Наличие накопленных исторических...
Заказчик
НИУ ВШЭ / Отдел суперкомпьютерного моделирования