Логотип МИЭМ НИУ ВШЭ
Рабочий
Логотип типа проекта Программный
Программный
2025 / 2026
Логотип проекта Обработка аудио и разделение музыкальных треков на базе методов Искусственного Интеллекта

    2297 Обработка аудио и разделение музыкальных треков на базе методов Искусственного Интеллекта

    Старт
    29.09.2025
    Представление
    05.11.2025 – 19.11.2025
    Постерная сессия
    26.01.2026 – 06.02.2026
    Защита
    06.04.2026 – 17.04.2026

    Паспорт проекта

    Аннотация

    В рамках проекта предстоит разрабатывать элементы веб-сервиса для разделения музыкальных треков на составные части, такие как вокал, барабаны, бас, гитара, пианино и т.д. Это активно развивающаяся сфера в обработке аудиоданных с активным использованием нейронных сетей.

    Отрасль

    Автоматика. Вычислительная техника

    Теги

    Аудио
    Машинное обучение
    Нейронные сети
    Оптимизация
    Музыка

    Цель

    В рамках проекта будет решаться множество разнообразных задач. Главные цели: подготовка новых моделей для разделенная треков на составные части, в частности нужны модели для редких отдельных инструментов: орган, флейта, гобой, арфа и т.д. Улучшение существующих моделей, в частности вокальных. Подготовка моделей убирающих эффект реверберации. Модели, разделяющие исполнителей, если они поют вместе. Интеграция открытых моделей на веб-сайт и оценка их метрик качества. Подготовка валидационных и...

    Ожидаемые результаты

    • Набор нейросетевых моделей для решения задачи разделения треков для различных инструментов, в том числе редких
      • Набор программ для оптимизации скорости работы нейросетевых моделей, а также сами веса для оптимизированных моделей
        • Подготовленные датасеты для тренировки нейросетевых моделей разделения музыкальных треков, а также валидационные наборы данных для тестирования.
          • Внешние открытые модели с посчитанными метриками качества, интегрированные на веб-сайт.

            Форма и способы промежуточного контроля

            Проведение еженедельных видеоконференций. Ревью готового кода, интеграция моделей на вебсайт, проверка качества подготовленных моделей. Ежеквартальные защиты работ от исполнителей.

            Форма представления результатов

            Доступ к подготовленным моделям через вебсайт для всех пользователей, публикация научных статей (если будут научные результаты), публикация метрик качества для разработанных моделей, публикация отдельных частей кода в открытый доступ.

            Ресурсное обеспечение

            Для работы в проекте потребуется PC с видеокартой NVIDIA с не менее чем 12 ГБ памяти. Так же нужен большой SSD/HDD диск для хранения датасетов (1+ ТБ). В проекте мы подадим заявку на использование суперкомпьютера ВШЭ: https://hpc.hse.ru для тренировки наиболее ресурсоемких моделей.

            Имеющийся задел

            В рамках проекта уже был реализован вебсайт mvsep.com на котором собрано большое число нейросетевых моделей для работы с аудио, был подготовлен репозиторий на github.com с открытым кодом для тренировки и инференса подобных моделей: https://github.com/ZFTurbo/Music-Source-Separation-Training Этот проект уже стартовал один год назад и был успешно защищен командой. В рамках первого года проекта было сделано: * Добавлено/изменено 5 491 строка кода, выполнено 40 коммитов в основной репозиторий...

            Заказчик

            МИЭМ / ДКИ