Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Научно-исследовательская работа
Научно-исследовательская работа
2021 / 2022
Логотип проекта Разработка и обучение языковой модели для автоматизированной классификации научных статей по кодам ГРНТИ

371 Разработка и обучение языковой модели для автоматизированной классификации научных статей по кодам ГРНТИ

Старт
01.09.2021
Представление
11.11.2021
Постерная сессия
16.02.2022
Защита
06.06.2022

Паспорт проекта

Аннотация

Существует большой объем наработок и функционирующий (внедренный на реальном предприятии) прототип классификатора для научных статей (аннотаций) по областям знаний (классификатор ВИНИТИ). Пример статьи на эту тему: https://datascience.codata.org/articles/10.5334/dsj-2019-037/. По выбору студентов классификатор может быть как для текстов на английском, так и на русском. В данном проекте существует несколько проблемных направлений: • Разработка системы автоматизированного тестирования текстовых...

Отрасль

Информатика

Теги

Информатика

Цель

Разработать и обучить языковую модель, основанную на архитектуре трансформер, для получения качественных представлений научных текстов с целью последующей их классификации.

Ожидаемые результаты

  • * Подготовлена языковая модель, обученная на домене научных текстов
    • * Реализован автоматизированный классификатор по кодам ГРНТИ с использованием языковой модели
      • * Проведены тесты качества классификации полученного классификатора
        • * Оптимизация автоматизированного классификатора для промышленного использования в ВИНИТИ РАН

          Форма и способы промежуточного контроля

          1. Описание структуры программного кода. 2. Описание вносимых изменений в имеющееся программное обеспечение. 3. Описание процесса развертывания классификатора.

          Форма представления результатов

          1. Демонстрация работы программного обеспечения – в форме видеоролика. 2. Разработанное программное обеспечение. 3. Руководство пользователя. 4. Руководство разработчика.

          Ресурсное обеспечение

          Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).

          Имеющийся задел

          ВИНИТИ РАН обладает большим корпусом научных текстов, включающих в себя аннотации, ключевые слова и заголовки к научным статьям. На основе данного корпуса текста планируется реализовать и обучить языковую модель архитектуры Transformer для последующего создания сильного классификатора аннотаций научных статей по кодам ГРНТИ. Данная языковая модель сможет быть основой для построения различных классификаторов русских текстов в различных областях применения, не только для ВИНИТИ РАН. В...

          Заказчик

          Организация / УЛ САПР, ВИНИТИ РАН