Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2020 / 2021
Логотип проекта Распознавание голоса в записях лекций
    От компании

594 Распознавание голоса в записях лекций

Старт
02.10.2020

Паспорт проекта

Аннотация

Медиапроизводство (как ручное в студии, так и автоматическое -- при автозаписи лекций) порождает видеоматериалы, которые хранятся в архивах. При этом искать по этим материалам можно только по введенным вручную или автоматически описаниям. Задача этого проекта -- дополнить метаданные записей распознанным в текст голосовым содержанием записей. При этом, не стоит задача распознавания речи в текст, достаточно получить ключевые слова и их таймкоды для поиска. Есть ранее созданный (на Ruby on...

Отрасль

Информатика

Теги

Информатика

Цель

Распознавание слитной речи на выступлениях / интервью и других записях разговорного содержания для поисковой индексации в медиаархиве.

Ожидаемые результаты

  • Модуль для распознавания голоса из записей, сохраняемых в Google Drive. Работа тесно связана с проектами 244, 593, 595 и может иметь общие механизмы доступа к файлам и базе данных.

    Форма и способы промежуточного контроля

    * Работа и отчетность по циклам * Выступления на отчетных мероприятиях по графику проектной работы МИЭМ * Документация в Wiki.

    Форма представления результатов

    Действующий модуль, поставляющий распознанные данные в базу данных Облачного медиаархива (проект 244). Если с проектом 244 будут накладки, продемонстрировать результаты на собственном демо-сайте.

    Ресурсное обеспечение

    От лаборатории Сетевых видеотехнологий 520: серверы, исходные данные и координация с соседними проектами

    Имеющийся задел

    Заполнено автоматически

    Заказчик

    Организация / Медиацентр МИЭМ