Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Проект ВИНИТИ РАН: Разработка программного обеспечения для классификации текстов

    2050 Проект ВИНИТИ РАН: Разработка программного обеспечения для классификации текстов

    Старт
    21.10.2024
    Представление
    05.11.2024 – 15.11.2024
    Представление
    27.01.2025 – 07.02.2025
    Постерная сессия
    14.04.2025 – 25.04.2025
    Защита
    13.05.2025 – 19.05.2025

    Паспорт проекта

    Аннотация

    В библиотечном деле требуется разработка автоматических классификаторов научных текстов для улучшения и упрощения поиска и организации знаний. В рамках данного проекта требуется провести разработку интегрированной программной среды для обработки и классификации научных текстов по кодам ГРНТИ всех трех уровней. Программное обеспечение должно содержать: обработку текстов, обучение нейронных сетей, получение результатов классификации и генерацию статистических отчетов с заданными критериями...

    Отрасль

    Информатика

    Теги

    Python
    ML

    Цель

    Разработка программного обеспечения конвейерного типа для обучения моделей машинного обучения и последующей классификации текстов по рубрикам ГРНТИ. Вступление в проект только после посещения лаборатории УЛ САПР (712/714) лично. Договориться о встрече можно написав письмо на почту vzunin@hse.ru или в ВК (https://vk.com/vvzunin). При отсутствии работы в проекте без согласования с руководителем более 2х недель выносится предупреждение. После получения двух предупреждений участник проекта будет...

    Ожидаемые результаты

    • Программное обеспечение для обучения и классификации текстов по всем уровням ГРНТИ со следующими возможностями:
      • Классификация текстов как в виде набора файлов, так и с использованием программного интерфейса;
      • Выбор различных обученных моделей нейронных сетей на этапе классификации;
      • Интерфейс командной строки поддерживает возможность классификации текстов и выбор моделей для классификации.

    Форма и способы промежуточного контроля

    1. Структура программного обеспечения для классификации текстов. 2. Еженедельные отчеты.

    Форма представления результатов

    1. Демонстрация работы программы; 2. Исходные коды; 3. Отчет; 4. Руководство пользователя; 5. Руководство разработчика.

    Ресурсное обеспечение

    Материалы и оборудование УЛ САПР МИЭМ НИУ ВШЭ (712/714 каб.).

    Имеющийся задел

    Имеется датасет русско- и англоязычных текстов, состоящий из названий текстов, аннотаций, ключевых слов и списка рубрик ГРНТИ. Сами аннотации могут содержать в себе формулы в формате LaTeX, сокращения и другие специализированные символы. Также имеется ряд наработок в области классификации текстов по уровням ГРНТИ с использованием методов машинного обучения: обученная модель нейронной сети для предсказания первого уровня ГРНТИ; ряд наработок с использованием word2vec для классификации первого...

    Заказчик

    МИЭМ / ДКИ