Завершен
2022 / 2023

1407 Автоматическая генерация аннотации к научным статьям
Старт
21.10.2022
Представление
22.10.2022
Постерная сессия
23.01.2023
Защита
02.11.2023
Паспорт проекта
Аннотация
Проблема генерации аннотаций к научным текстам до сих пор полностью не решена. При этом разработка таких генераторов имеет высокое научное и практическое значение. Данный проект позволит автоматически генерировать аннотации, а в перспективе и краткий обзор, по одной или нескольким статьям.
Существует большой объем наработок, в том числе имеются массивы текстов большого объема и обученные на научных текстах модели (в т.ч. по технологии трансформер).
По выбору студентов классификатор может быть...
Отрасль
Информатика
Теги
Информатика
Цель
Разработка и обучение языковых моделей для генерации научных статей на основе массива материалов из открытых баз научных статей. Создание сервиса по автоматической генерации аннотации к тексту научной статьи.
Ожидаемые результаты
- На 2022/2023 год:
- * Подготовлена языковая модель для генерации, обученная на научных текстах.
- * Реализован автоматизированный генератор аннотаций с использованием разработанной языковой модели.
- * Результаты тестов качества аннотирования полученного генератора.
- * Оптимизировано автоматизированное аннотирование для промышленного использования.
Форма и способы промежуточного контроля
Описание структуры программного кода.
Описание вносимых изменений в имеющееся программное обеспечение.
Описание процесса развертывания генератора аннотаций.
Форма представления результатов
Демонстрация работы программного обеспечения – в форме видеоролика.
Разработанное программное обеспечение.
Руководство пользователя.
Руководство разработчика.
Ресурсное обеспечение
Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).
Имеющийся задел
Работа с корпусами текстов в УЛ САПР ведется уже много лет. Есть опыт успешного сотрудничества с ВИНИТИ РАН. В настоящее время в лаборатории имеются большие корпуса научных текстов, включающих в себя аннотации, ключевые слова и заголовки к научным статьям. Также уже имеются обученный по данным текстам трансформеры. Эти корпуса текстов и обученные языковые модели могут быть основой для построения различных генераторов текстов, в том числе и генерации обзоров статей.
В данном проекте планируется...
Заказчик
Организация / УЛ САПР