Завершен
Научно-исследовательская работа
2021 / 2022
371 Разработка и обучение языковой модели для автоматизированной классификации научных статей по кодам ГРНТИ
Старт
01.09.2021
Представление
11.11.2021
Постерная сессия
16.02.2022
Защита
06.06.2022
Паспорт проекта
Аннотация
Существует большой объем наработок и функционирующий (внедренный на реальном предприятии) прототип классификатора для научных статей (аннотаций) по областям знаний (классификатор ВИНИТИ). Пример статьи на эту тему: https://datascience.codata.org/articles/10.5334/dsj-2019-037/. По выбору студентов классификатор может быть как для текстов на английском, так и на русском.
В данном проекте существует несколько проблемных направлений:
• Разработка системы автоматизированного тестирования текстовых...
Отрасль
Информатика
Теги
Информатика
Цель
Разработать и обучить языковую модель, основанную на архитектуре трансформер, для получения качественных представлений научных текстов с целью последующей их классификации.
Ожидаемые результаты
- * Подготовлена языковая модель, обученная на домене научных текстов
- * Реализован автоматизированный классификатор по кодам ГРНТИ с использованием языковой модели
- * Проведены тесты качества классификации полученного классификатора
- * Оптимизация автоматизированного классификатора для промышленного использования в ВИНИТИ РАН
Форма и способы промежуточного контроля
1. Описание структуры программного кода.
2. Описание вносимых изменений в имеющееся программное обеспечение.
3. Описание процесса развертывания классификатора.
Форма представления результатов
1. Демонстрация работы программного обеспечения – в форме видеоролика.
2. Разработанное программное обеспечение.
3. Руководство пользователя.
4. Руководство разработчика.
Ресурсное обеспечение
Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).
Имеющийся задел
ВИНИТИ РАН обладает большим корпусом научных текстов, включающих в себя аннотации, ключевые слова и заголовки к научным статьям. На основе данного корпуса текста планируется реализовать и обучить языковую модель архитектуры Transformer для последующего создания сильного классификатора аннотаций научных статей по кодам ГРНТИ. Данная языковая модель сможет быть основой для построения различных классификаторов русских текстов в различных областях применения, не только для ВИНИТИ РАН.
В...
Заказчик
Организация / УЛ САПР, ВИНИТИ РАН