Завершен
2024 / 2025

2097 Разделение музыкальных треков на базе методов Искусственного Интеллекта
Старт
28.10.2024
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
13.05.2025 – 19.05.2025
Паспорт проекта
Аннотация
В рамках проекта предстоит разрабатывать элементы веб-сервиса для разделения музыкальных треков на составные части, такие как вокал, барабаны, бас, гитара, пианино и т.д. Это активно развивающаяся сфера в обработке аудиоданных с активным использованием нейронных сетей.
Отрасль
Автоматика. Вычислительная техника
Теги
аудио
Машинное обучение
нейронные сети
оптимизация
Цель
В рамках проекта будет решаться множество разнообразных задач. Главные цели: подготовка новых моделей для разделенная треков на составные части, в частности нужны модели для редких отдельных инструментов: орган, флейта, гобой, арфа и т.д. Улучшение существующих моделей, в частности вокальных. Подготовка моделей убирающих эффект реверберации. Модели, разделяющие исполнителей, если они поют вместе. Интеграция открытых моделей на веб-сайт и оценка их метрик качества. Подготовка валидационных...
Ожидаемые результаты
- 1) Набор нейросетевых моделей для решения задачи разделения треков для различных инструментов, в том числе редких
- 2) Набор программ для оптимизации скорости работы нейросетевых моделей, а также сами веса для оптимизированных моделей
- 3) Подготовленные датасеты для тренировки нейросетевых моделей разделения музыкальных треков, а также валидационные наборы данных для тестирования.
- 4) Внешние открытые модели с посчитанными метриками качества, интегрированные на веб-сайт.
Форма и способы промежуточного контроля
Проведение еженедельных видеоконференций. Ревью готового кода, интеграция моделей на вебсайт, проверка качества подготовленных моделей. Ежеквартальные защиты работ от исполнителей.
Форма представления результатов
Доступ к подготовленным моделям через вебсайт для всех пользователей, публикация научных статей (если будут научные результаты), публикация метрик качества для разработанных моделей, публикация каких-то отдельных частей кода в открытый доступ.
Ресурсное обеспечение
Для работы в проекте потребуется PC с видеокартой NVIDIA с не менее чем 12 ГБ памяти. Так же нужен большой SSD/HDD диск для хранения датасетов (1+ ТБ). В проекте мы подадим заявку на использование суперкомпьютера ВШЭ: https://hpc.hse.ru для тренировки наиболее ресурсоемких моделей.
Имеющийся задел
В рамках проекта уже был реализован вебсайт mvsep.com на котором собрано большое число нейросетевых моделей для работы с аудио, был подготовлен репозиторий на github.com с открытым кодом для тренировки и инференса подобных моделей: https://github.com/ZFTurbo/Music-Source-Separation-Training
Так же был выигран конкурс по этой тематике на площадке AICrowd:
https://www.aicrowd.com/challenges/sound-demixing-challenge-2023
Заказчик
МИЭМ / ДКИ