Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2023 / 2024
Логотип проекта Синтез речи на больших данных
    От компании

1808 Синтез речи на больших данных

Старт
21.11.2023
Представление
27.01.2024 – 07.02.2024
Постерная сессия
14.04.2024 – 25.04.2024
Защита
02.06.2024 – 13.06.2024

Паспорт проекта

Аннотация

Одно из активно развивающихся направления - zero shot tts, генерация нового спикера по нескольким секундам аудио референса, без дообучения модели. Основной компонент таких систем - предобучение на большом объеме данных. Второй частый компонент - квантизованные энкодинги для аудио (audio codes). Примеры - VALL-E, Soundstorm, Voicebox. Существенная часть задачи - сбор и разметка сопоставимого по размерам русскоязычного датасета.

Отрасль

Информатика

Теги

Информатика

Цель

Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи

Ожидаемые результаты

  • Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи

    Форма и способы промежуточного контроля

    Трекер, контроль от представителей VK

    Форма представления результатов

    Файлы с датасетом, отчет по модели, раз в неделю устный рассказ

    Ресурсное обеспечение

    Кластер вшэ

    Имеющийся задел

    Нет

    Заказчик

    Организация / VK