Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Синтез речи на больших данных
    От компании

2140 Синтез речи на больших данных

Старт
18.01.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
06.06.2025 – 17.06.2025

Паспорт проекта

Аннотация

Одно из активно развивающихся направления - zero shot tts, генерация нового спикера по нескольким секундам аудио референса, без дообучения модели. Основной компонент таких систем - предобучение на большом объеме данных. Второй частый компонент - квантизованные энкодинги для аудио (audio codes). Примеры - VALL-E, Soundstorm, Voicebox. Существенная часть задачи - сбор и разметка сопоставимого по размерам русскоязычного датасета.

Отрасль

Информатика

Теги

Машинное обучение

Цель

Собрать датасет с рускоязычной речью, обработать, обучить модель синтеза речи melle

Ожидаемые результаты

  • Обучить модель melle

    Форма и способы промежуточного контроля

    Трекер, контроль от представителей VK

    Форма представления результатов

    Постер сессия, презентация, гит с кодом , описание и документация

    Ресурсное обеспечение

    Кластер вшэ

    Имеющийся задел

    Https://cabinet.miem.hse.ru/project/1808/0/passport

    Заказчик

    Организация / VK