Рабочий
2025 / 2026

2297 Обработка аудио и разделение музыкальных треков на базе методов Искусственного Интеллекта
Старт
29.09.2025
Представление
05.11.2025 – 19.11.2025
Постерная сессия
26.01.2026 – 06.02.2026
Защита
06.04.2026 – 17.04.2026
Паспорт проекта
Аннотация
В рамках проекта предстоит разрабатывать элементы веб-сервиса для разделения музыкальных треков на составные части, такие как вокал, барабаны, бас, гитара, пианино и т.д. Это активно развивающаяся сфера в обработке аудиоданных с активным использованием нейронных сетей.
Отрасль
Автоматика. Вычислительная техника
Теги
Аудио
Машинное обучение
Нейронные сети
Оптимизация
Музыка
Цель
В рамках проекта будет решаться множество разнообразных задач. Главные цели: подготовка новых моделей для разделенная треков на составные части, в частности нужны модели для редких отдельных инструментов: орган, флейта, гобой, арфа и т.д. Улучшение существующих моделей, в частности вокальных. Подготовка моделей убирающих эффект реверберации. Модели, разделяющие исполнителей, если они поют вместе. Интеграция открытых моделей на веб-сайт и оценка их метрик качества. Подготовка валидационных и...
Ожидаемые результаты
- Набор нейросетевых моделей для решения задачи разделения треков для различных инструментов, в том числе редких
- Набор программ для оптимизации скорости работы нейросетевых моделей, а также сами веса для оптимизированных моделей
- Подготовленные датасеты для тренировки нейросетевых моделей разделения музыкальных треков, а также валидационные наборы данных для тестирования.
- Внешние открытые модели с посчитанными метриками качества, интегрированные на веб-сайт.
Форма и способы промежуточного контроля
Проведение еженедельных видеоконференций. Ревью готового кода, интеграция моделей на вебсайт, проверка качества подготовленных моделей. Ежеквартальные защиты работ от исполнителей.
Форма представления результатов
Доступ к подготовленным моделям через вебсайт для всех пользователей, публикация научных статей (если будут научные результаты), публикация метрик качества для разработанных моделей, публикация отдельных частей кода в открытый доступ.
Ресурсное обеспечение
Для работы в проекте потребуется PC с видеокартой NVIDIA с не менее чем 12 ГБ памяти. Так же нужен большой SSD/HDD диск для хранения датасетов (1+ ТБ). В проекте мы подадим заявку на использование суперкомпьютера ВШЭ: https://hpc.hse.ru для тренировки наиболее ресурсоемких моделей.
Имеющийся задел
В рамках проекта уже был реализован вебсайт mvsep.com на котором собрано большое число нейросетевых моделей для работы с аудио, был подготовлен репозиторий на github.com с открытым кодом для тренировки и инференса подобных моделей: https://github.com/ZFTurbo/Music-Source-Separation-Training
Этот проект уже стартовал один год назад и был успешно защищен командой. В рамках первого года проекта было сделано:
* Добавлено/изменено 5 491 строка кода, выполнено 40 коммитов в основной репозиторий...
Заказчик
МИЭМ / ДКИ