Логотип МИЭМ НИУ ВШЭ
Рабочий
Логотип типа проекта Программный
Программный
2025 / 2026
Логотип проекта Распознавание рукописного текста с помощью VLM

    2292 Распознавание рукописного текста с помощью VLM

    Старт
    13.10.2025
    Представление
    05.11.2025 – 19.11.2025
    Постерная сессия
    26.01.2026 – 06.02.2026
    Защита
    06.04.2026 – 17.04.2026

    Паспорт проекта

    Аннотация

    В настоящее время активно развиваются визуально-текстовые модели(VLM), позволяющие решать задачу оптического распознавания символов (OCR). В ряде работ (https://arxiv.org/pdf/2502.06445 https://arxiv.org/pdf/2501.11623) показано, что в ряде случаев VLM превосходят традиционные алгоритмы OCR в задаче распознавания рукописного текста. Для упрощения работы студентов и преподавателей актуально распознавание текстов и формул на маркерных досках, используемых в учебных заведениях. В данной работе...

    Отрасль

    Информатика

    Теги

    ML
    VLM
    Python
    OCR
    Компьютерное зрение

    Цель

    Создание программного обеспечения, решающего задачу распознавания с помощью VLM рукописных текстов и формул на изображениях маркерных досок.

    Ожидаемые результаты

    • Программа на языке Python
      • Интеграция скрипта с локальной моделью VLM
      • Возвращение распознанных данных в формате CSV
      • Обработка входных данных в формате JPG/PNG
    • Набор изображений надписей на белых маркерных досках с разметкой в виде текста надписей.
      • Дообученная визуально-языковая модель, развёрнутая локально в контуре МИЭМ
        • Оценка качества полученной модели по метрикам CER и WER.

          Форма и способы промежуточного контроля

          * Еженедельные созвоны * Трекинг задач проекта в системе Wekan

          Форма представления результатов

          Отчёт перед проектной комиссией МИЭМ с демонстрацией работы ПО в режиме реального времени.

          Ресурсное обеспечение

          Аппаратные ресурсы УЛ сетевых видеотехнологий.

          Имеющийся задел

          * Ранее проведённый обзор существующих методов OCR и оценка их качества работы в задаче распознавания надписей на белых маркерных досках. * Обзор актуальных публикаций о дообучении VLM для конкретных задач.

          Заказчик

          МИЭМ / ДКИ