Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2022 / 2023
Логотип проекта Автоматическая генерация аннотации к научным статьям
    От компании

1407 Автоматическая генерация аннотации к научным статьям

Старт
21.10.2022
Представление
22.10.2022
Постерная сессия
23.01.2023
Защита
02.11.2023

Паспорт проекта

Аннотация

Проблема генерации аннотаций к научным текстам до сих пор полностью не решена. При этом разработка таких генераторов имеет высокое научное и практическое значение. Данный проект позволит автоматически генерировать аннотации, а в перспективе и краткий обзор, по одной или нескольким статьям. Существует большой объем наработок, в том числе имеются массивы текстов большого объема и обученные на научных текстах модели (в т.ч. по технологии трансформер). По выбору студентов классификатор может быть...

Отрасль

Информатика

Теги

Информатика

Цель

Разработка и обучение языковых моделей для генерации научных статей на основе массива материалов из открытых баз научных статей. Создание сервиса по автоматической генерации аннотации к тексту научной статьи.

Ожидаемые результаты

  • На 2022/2023 год:
    • * Подготовлена языковая модель для генерации, обученная на научных текстах.
      • * Реализован автоматизированный генератор аннотаций с использованием разработанной языковой модели.
        • * Результаты тестов качества аннотирования полученного генератора.
          • * Оптимизировано автоматизированное аннотирование для промышленного использования.

            Форма и способы промежуточного контроля

            Описание структуры программного кода. Описание вносимых изменений в имеющееся программное обеспечение. Описание процесса развертывания генератора аннотаций.

            Форма представления результатов

            Демонстрация работы программного обеспечения – в форме видеоролика. Разработанное программное обеспечение. Руководство пользователя. Руководство разработчика.

            Ресурсное обеспечение

            Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).

            Имеющийся задел

            Работа с корпусами текстов в УЛ САПР ведется уже много лет. Есть опыт успешного сотрудничества с ВИНИТИ РАН. В настоящее время в лаборатории имеются большие корпуса научных текстов, включающих в себя аннотации, ключевые слова и заголовки к научным статьям. Также уже имеются обученный по данным текстам трансформеры. Эти корпуса текстов и обученные языковые модели могут быть основой для построения различных генераторов текстов, в том числе и генерации обзоров статей. В данном проекте планируется...

            Заказчик

            Организация / УЛ САПР