Завершен
2024 / 2025

2050 Проект ВИНИТИ РАН: Разработка программного обеспечения для классификации текстов
Старт
21.10.2024
Представление
05.11.2024 – 15.11.2024
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
13.05.2025 – 19.05.2025
Паспорт проекта
Аннотация
В библиотечном деле требуется разработка автоматических классификаторов научных текстов для улучшения и упрощения поиска и организации знаний.
В рамках данного проекта требуется провести разработку интегрированной программной среды для обработки и классификации научных текстов по кодам ГРНТИ всех трех уровней. Программное обеспечение должно содержать: обработку текстов, обучение нейронных сетей, получение результатов классификации и генерацию статистических отчетов с заданными критериями...
Отрасль
Информатика
Теги
Python
ML
Цель
Разработка программного обеспечения конвейерного типа для обучения моделей машинного обучения и последующей классификации текстов по рубрикам ГРНТИ.
Вступление в проект только после посещения лаборатории УЛ САПР (712/714) лично. Договориться о встрече можно написав письмо на почту vzunin@hse.ru или в ВК (https://vk.com/vvzunin).
При отсутствии работы в проекте без согласования с руководителем более 2х недель выносится предупреждение. После получения двух предупреждений участник проекта будет...
Ожидаемые результаты
- Программное обеспечение для обучения и классификации текстов по всем уровням ГРНТИ со следующими возможностями:
- Классификация текстов как в виде набора файлов, так и с использованием программного интерфейса;
- Выбор различных обученных моделей нейронных сетей на этапе классификации;
- Интерфейс командной строки поддерживает возможность классификации текстов и выбор моделей для классификации.
Форма и способы промежуточного контроля
1. Структура программного обеспечения для классификации текстов.
2. Еженедельные отчеты.
Форма представления результатов
1. Демонстрация работы программы;
2. Исходные коды;
3. Отчет;
4. Руководство пользователя;
5. Руководство разработчика.
Ресурсное обеспечение
Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).
Имеющийся задел
Имеется датасет русско- и англоязычных текстов, состоящий из названий текстов, аннотаций, ключевых слов и списка рубрик ГРНТИ. Сами аннотации могут содержать в себе формулы в формате LaTeX, сокращения и другие специализированные символы.
Также имеется ряд наработок в области классификации текстов по уровням ГРНТИ с использованием методов машинного обучения: обученная модель нейронной сети для предсказания первого уровня ГРНТИ; ряд наработок с использованием word2vec для классификации первого...
Заказчик
МИЭМ / ДКИ