Рабочий
2025 / 2026

2294 Распознавание сканов финансовых документов с помощью VLM
Старт
10.10.2025
Представление
05.11.2025 – 19.11.2025
Постерная сессия
26.01.2026 – 06.02.2026
Защита
06.04.2026 – 17.04.2026
Паспорт проекта
Аннотация
В настоящее время активно развиваются визуально-текстовые модели (VLM), позволяющие решать задачу оптического распознавания символов (OCR). В МИЭМ в настоящий момент реализуется проект по распознаванию документации финансовой дирекции НИУ ВШЭ с помощью VLM GigaChat. Перспективным направлением развития проекта является переход с использования SaaS на локально развёртываемую модель. В данной работе предлагается провести работу по дообучению такой модели. В качестве наиболее перспективной техники...
Отрасль
Информатика
Теги
ML
VLM
OCR
Python
Компьютерное зрение
Цель
Создание программного обеспечения, решающего с помощью локальной VLM малого размера (до 7 миллиардов параметров) задачу распознавания текстов и таблиц на изображениях финансовых документов.
Ожидаемые результаты
- Программа на языке Python
- Обеспечение корректной обработки входных документов в формате PDF/JPG/PNG
- Интеграция скрипта с локальной моделью VLM
- Возвращение распознанных данных в формате CSV
- Дообученная визуально-языковая модель малого размера (до 8 миллиардов параметров), развёрнутая локально в контуре МИЭМ
- Набор изображений надписей на белых маркерных досках с разметкой в виде текста надписей.
- Оценка качества полученной модели по метрикам CER и WER.
Форма и способы промежуточного контроля
* Еженедельные созвоны
* Трекинг задач проекта в системе Wekan
Форма представления результатов
Отчёт перед проектной комиссией МИЭМ с демонстрацией работы ПО в режиме реального времени.
Ресурсное обеспечение
Аппаратные ресурсы УЛ сетевых видеотехнологий.
Имеющийся задел
* Существующее ПО для распознаваний финансовых документов на основе GigaChat.
* Обзор актуальных публикаций о дообучении VLM для конкретных задач.
Заказчик
МИЭМ / ДКИ