Завершен
2023 / 2024

1616 Генератор видеолекций
Старт
03.10.2023
Представление
10.11.2023
Постерная сессия
27.01.2024 – 07.02.2024
Защита
02.06.2024 – 13.06.2024
Паспорт проекта
Аннотация
Данный проект направлен на разработку системы, способной генерировать недостающий видео и аудио материал на основе имеющихся данных, включающих в себя фотографию преподавателя, аудиозапись голоса человека (полной записи недостающего материала или семпла) и конспекта необходимого занятия.
Система будет способна генерировать новый контент, соответствующий контексту и стилю исходных данных.
В рамках данного проекта предусмотрено использование системы в образовательной сфере. Применение такой...
Отрасль
Информатика
Теги
Информатика
Цель
Разработка программного комплекса для генерации видеолекций.
Ожидаемые результаты
- Ожидаемые результаты проекта - программный комплекс, состоящий из следующих компонентов:
- * Программа для персонализированного дообучения голосовых моделей, используемых для генерации аудиодорожки видеолекции;
- * Программа для генерации аудиодорожки с использованием персонализированных моделей;
- * Программа для генерации видеоряда лекции с использованием персональных входных данных (фото-/видеоизображения);
- * Программа для синхронизации движения губ лектора с аудиодорожкой.
Форма и способы промежуточного контроля
Еженедельные встречи
Документирование недельных результатов
Канбан доски
Плановые точки контроля МИЭМ НИУ ВШЭ
Форма представления результатов
Демонстрация работы программного обеспечения и пользовательского интерфейса – в форме видеоролика.
Разработанное программное обеспечение.
Руководство пользователя.
Руководство разработчика.
Ресурсное обеспечение
* Компьютеры Медиацентра МИЭМ, оборудованные оснащённые GPU Nvidia для тестовой генерации видеолекций и промежуточных данных;
* Суперкомпьютер НИУ ВШЭ для дообучения генеративных моделей;
* Помощь сотрудников Медиацентра МИЭМ в записи дополнительных аудио- и видео-данных для дообучения моделей.
Имеющийся задел
Анализ и тестовое использование моделей и инструментов Vid2Vid, PixelGAN, DeepFaceLab, Wav2Lip, X2Face, Monkey-net
Заказчик
МИЭМ / ДКИ