Завершен
2024 / 2025

2150 Модель оценки Text2Speech метрик
Старт
11.02.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
06.06.2025 – 17.06.2025
Паспорт проекта
Аннотация
Нейронная генерация речи оценивается с помощью таких метрик, как SBS, MOS. Эти метрики вычисляются на основе субъективных оценок специальных людей — асессоров. Требуется создать модели глубокого обучения для оценки этих метрик без участия человека. Проблема в том, что в уже существующих подходах оценка производится по аудио без соответствующего текста. Такие модели плохо работают с пунктуацией, вопросительными интонациями, контекстами. Необходимо создать модель, которая проивзодит оценку метрик...
Отрасль
Информатика
Теги
Машинное обучение
Генерация речи
TTS
Глубокое обучение
Text2Speech
Цель
Создание моделей глубокого обучения для оценки метрик SBS, MOS
Ожидаемые результаты
- Исследование существующих решений и наборов данных
- Модель оценки метрики SBS
- Модель оценки метрики MOS
- Веб-сервис с моделями
Форма и способы промежуточного контроля
Еженедельные онлайн-встречи
Встречи с куратором проекта от ВК (действующий специалист в области TTS)
Форма представления результатов
Результаты проекта будут представлены в виде сервиса. На вход: текст и аудио сгенерированной речи, на выходе оценка метрик.
Ресурсное обеспечение
Доступ к суперкомпьютеру CHARISMA
Имеющийся задел
Исследование существующих решений
Синтетический набор данных
Заказчик
Организация / ИМШ ВШЭ и ВК