Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Разделение музыкальных треков на базе методов Искусственного Интеллекта

    2097 Разделение музыкальных треков на базе методов Искусственного Интеллекта

    Старт
    28.10.2024
    Представление
    27.01.2025 – 07.02.2025
    Постерная сессия
    14.04.2025 – 25.04.2025
    Защита
    13.05.2025 – 19.05.2025

    Паспорт проекта

    Аннотация

    В рамках проекта предстоит разрабатывать элементы веб-сервиса для разделения музыкальных треков на составные части, такие как вокал, барабаны, бас, гитара, пианино и т.д. Это активно развивающаяся сфера в обработке аудиоданных с активным использованием нейронных сетей.

    Отрасль

    Автоматика. Вычислительная техника

    Теги

    аудио
    Машинное обучение
    нейронные сети
    оптимизация

    Цель

    В рамках проекта будет решаться множество разнообразных задач. Главные цели: подготовка новых моделей для разделенная треков на составные части, в частности нужны модели для редких отдельных инструментов: орган, флейта, гобой, арфа и т.д. Улучшение существующих моделей, в частности вокальных. Подготовка моделей убирающих эффект реверберации. Модели, разделяющие исполнителей, если они поют вместе. Интеграция открытых моделей на веб-сайт и оценка их метрик качества. Подготовка валидационных...

    Ожидаемые результаты

    • 1) Набор нейросетевых моделей для решения задачи разделения треков для различных инструментов, в том числе редких
      • 2) Набор программ для оптимизации скорости работы нейросетевых моделей, а также сами веса для оптимизированных моделей
        • 3) Подготовленные датасеты для тренировки нейросетевых моделей разделения музыкальных треков, а также валидационные наборы данных для тестирования.
          • 4) Внешние открытые модели с посчитанными метриками качества, интегрированные на веб-сайт.

            Форма и способы промежуточного контроля

            Проведение еженедельных видеоконференций. Ревью готового кода, интеграция моделей на вебсайт, проверка качества подготовленных моделей. Ежеквартальные защиты работ от исполнителей.

            Форма представления результатов

            Доступ к подготовленным моделям через вебсайт для всех пользователей, публикация научных статей (если будут научные результаты), публикация метрик качества для разработанных моделей, публикация каких-то отдельных частей кода в открытый доступ.

            Ресурсное обеспечение

            Для работы в проекте потребуется PC с видеокартой NVIDIA с не менее чем 12 ГБ памяти. Так же нужен большой SSD/HDD диск для хранения датасетов (1+ ТБ). В проекте мы подадим заявку на использование суперкомпьютера ВШЭ: https://hpc.hse.ru для тренировки наиболее ресурсоемких моделей.

            Имеющийся задел

            В рамках проекта уже был реализован вебсайт mvsep.com на котором собрано большое число нейросетевых моделей для работы с аудио, был подготовлен репозиторий на github.com с открытым кодом для тренировки и инференса подобных моделей: https://github.com/ZFTurbo/Music-Source-Separation-Training Так же был выигран конкурс по этой тематике на площадке AICrowd: https://www.aicrowd.com/challenges/sound-demixing-challenge-2023

            Заказчик

            МИЭМ / ДКИ