Рабочий
2025 / 2026

2292 Распознавание рукописного текста с помощью VLM
Старт
13.10.2025
Представление
05.11.2025 – 19.11.2025
Постерная сессия
26.01.2026 – 06.02.2026
Защита
06.04.2026 – 17.04.2026
Паспорт проекта
Аннотация
В настоящее время активно развиваются визуально-текстовые модели(VLM), позволяющие решать задачу оптического распознавания символов (OCR). В ряде работ (https://arxiv.org/pdf/2502.06445 https://arxiv.org/pdf/2501.11623) показано, что в ряде случаев VLM превосходят традиционные алгоритмы OCR в задаче распознавания рукописного текста. Для упрощения работы студентов и преподавателей актуально распознавание текстов и формул на маркерных досках, используемых в учебных заведениях. В данной работе...
Отрасль
Информатика
Теги
ML
VLM
Python
OCR
Компьютерное зрение
Цель
Создание программного обеспечения, решающего задачу распознавания с помощью VLM рукописных текстов и формул на изображениях маркерных досок.
Ожидаемые результаты
- Программа на языке Python
- Интеграция скрипта с локальной моделью VLM
- Возвращение распознанных данных в формате CSV
- Обработка входных данных в формате JPG/PNG
- Набор изображений надписей на белых маркерных досках с разметкой в виде текста надписей.
- Дообученная визуально-языковая модель, развёрнутая локально в контуре МИЭМ
- Оценка качества полученной модели по метрикам CER и WER.
Форма и способы промежуточного контроля
* Еженедельные созвоны
* Трекинг задач проекта в системе Wekan
Форма представления результатов
Отчёт перед проектной комиссией МИЭМ с демонстрацией работы ПО в режиме реального времени.
Ресурсное обеспечение
Аппаратные ресурсы УЛ сетевых видеотехнологий.
Имеющийся задел
* Ранее проведённый обзор существующих методов OCR и оценка их качества работы в задаче распознавания надписей на белых маркерных досках.
* Обзор актуальных публикаций о дообучении VLM для конкретных задач.
Заказчик
МИЭМ / ДКИ