Завершен
2023 / 2024

1808 Синтез речи на больших данных
Старт
21.11.2023
Представление
27.01.2024 – 07.02.2024
Постерная сессия
14.04.2024 – 25.04.2024
Защита
02.06.2024 – 13.06.2024
Паспорт проекта
Аннотация
Одно из активно развивающихся направления - zero shot tts, генерация нового спикера по нескольким секундам аудио референса, без дообучения модели. Основной компонент таких систем - предобучение на большом объеме данных. Второй частый компонент - квантизованные энкодинги для аудио (audio codes). Примеры - VALL-E, Soundstorm, Voicebox. Существенная часть задачи - сбор и разметка сопоставимого по размерам русскоязычного датасета.
Отрасль
Информатика
Теги
Информатика
Цель
Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи
Ожидаемые результаты
- Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи
Форма и способы промежуточного контроля
Трекер, контроль от представителей VK
Форма представления результатов
Файлы с датасетом, отчет по модели, раз в неделю устный рассказ
Ресурсное обеспечение
Кластер вшэ
Имеющийся задел
Нет
Заказчик
Организация / VK