Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Модель оценки Text2Speech метрик
    От компании

2150 Модель оценки Text2Speech метрик

Старт
11.02.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
06.06.2025 – 17.06.2025

Паспорт проекта

Аннотация

Нейронная генерация речи оценивается с помощью таких метрик, как SBS, MOS. Эти метрики вычисляются на основе субъективных оценок специальных людей — асессоров. Требуется создать модели глубокого обучения для оценки этих метрик без участия человека. Проблема в том, что в уже существующих подходах оценка производится по аудио без соответствующего текста. Такие модели плохо работают с пунктуацией, вопросительными интонациями, контекстами. Необходимо создать модель, которая проивзодит оценку метрик...

Отрасль

Информатика

Теги

Машинное обучение
Генерация речи
TTS
Глубокое обучение
Text2Speech

Цель

Создание моделей глубокого обучения для оценки метрик SBS, MOS

Ожидаемые результаты

  • Исследование существующих решений и наборов данных
    • Модель оценки метрики SBS
      • Модель оценки метрики MOS
        • Веб-сервис с моделями

          Форма и способы промежуточного контроля

          Еженедельные онлайн-встречи Встречи с куратором проекта от ВК (действующий специалист в области TTS)

          Форма представления результатов

          Результаты проекта будут представлены в виде сервиса. На вход: текст и аудио сгенерированной речи, на выходе оценка метрик.

          Ресурсное обеспечение

          Доступ к суперкомпьютеру CHARISMA

          Имеющийся задел

          Исследование существующих решений Синтетический набор данных

          Заказчик

          Организация / ИМШ ВШЭ и ВК