Логотип МИЭМ НИУ ВШЭ
Рабочий
Логотип типа проекта Программный
Программный
2025 / 2026
Логотип проекта Распознавание сканов финансовых документов с помощью VLM

    2294 Распознавание сканов финансовых документов с помощью VLM

    Старт
    10.10.2025
    Представление
    05.11.2025 – 19.11.2025
    Постерная сессия
    26.01.2026 – 06.02.2026
    Защита
    06.04.2026 – 17.04.2026

    Паспорт проекта

    Аннотация

    В настоящее время активно развиваются визуально-текстовые модели (VLM), позволяющие решать задачу оптического распознавания символов (OCR). В МИЭМ в настоящий момент реализуется проект по распознаванию документации финансовой дирекции НИУ ВШЭ с помощью VLM GigaChat. Перспективным направлением развития проекта является переход с использования SaaS на локально развёртываемую модель. В данной работе предлагается провести работу по дообучению такой модели. В качестве наиболее перспективной техники...

    Отрасль

    Информатика

    Теги

    ML
    VLM
    OCR
    Python
    Компьютерное зрение

    Цель

    Создание программного обеспечения, решающего с помощью локальной VLM малого размера (до 7 миллиардов параметров) задачу распознавания текстов и таблиц на изображениях финансовых документов.

    Ожидаемые результаты

    • Программа на языке Python
      • Обеспечение корректной обработки входных документов в формате PDF/JPG/PNG
      • Интеграция скрипта с локальной моделью VLM
      • Возвращение распознанных данных в формате CSV
    • Дообученная визуально-языковая модель малого размера (до 8 миллиардов параметров), развёрнутая локально в контуре МИЭМ
      • Набор изображений надписей на белых маркерных досках с разметкой в виде текста надписей.
        • Оценка качества полученной модели по метрикам CER и WER.

          Форма и способы промежуточного контроля

          * Еженедельные созвоны * Трекинг задач проекта в системе Wekan

          Форма представления результатов

          Отчёт перед проектной комиссией МИЭМ с демонстрацией работы ПО в режиме реального времени.

          Ресурсное обеспечение

          Аппаратные ресурсы УЛ сетевых видеотехнологий.

          Имеющийся задел

          * Существующее ПО для распознаваний финансовых документов на основе GigaChat. * Обзор актуальных публикаций о дообучении VLM для конкретных задач.

          Заказчик

          МИЭМ / ДКИ