Завершен
2024 / 2025

2140 Синтез речи на больших данных
Старт
18.01.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
06.06.2025 – 17.06.2025
Паспорт проекта
Аннотация
Одно из активно развивающихся направления - zero shot tts, генерация нового спикера по нескольким секундам аудио референса, без дообучения модели. Основной компонент таких систем - предобучение на большом объеме данных. Второй частый компонент - квантизованные энкодинги для аудио (audio codes). Примеры - VALL-E, Soundstorm, Voicebox. Существенная часть задачи - сбор и разметка сопоставимого по размерам русскоязычного датасета.
Отрасль
Информатика
Теги
Машинное обучение
Цель
Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи melle
Ожидаемые результаты
- Обучить модель melle
Форма и способы промежуточного контроля
Трекер, контроль от представителей VK
Форма представления результатов
Постер сессия, презентация, гит с кодом , описание и документация
Ресурсное обеспечение
Кластер вшэ
Имеющийся задел
Https://cabinet.miem.hse.ru/project/1808/0/passport
Заказчик
Организация / VK