Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2023 / 2024
Логотип проекта Нейросетевой спелл-чекер для оцифровки русского романа

    1722 Нейросетевой спелл-чекер для оцифровки русского романа

    Старт
    19.12.2023
    Представление
    26.04.2024
    Постерная сессия
    11.06.2024
    Защита
    05.11.2024 – 15.11.2024

    Паспорт проекта

    Аннотация

    Проект предполагает тренировку нейросетевых моделей, которые справлялись бы с задачей исправления ошибок OCR в специфических текстовых данных. Оцифровка русского романа очень важна для современных гуманитарных исследований, но его реализация тормозится из-за плохого качества OCR. Предполагается использование существующих OCR-систем. Требуется разработать систему исправления текстов после OCR. Проблема осложняется тем, что цифруемые тексты в дореформенной орфографии, поэтому к ним не применимы...

    Отрасль

    Информатика

    Теги

    Информатика

    Цель

    Создать программную систему автоматической коррекции ошибок OCR для оцифровки русского романа XIX века

    Ожидаемые результаты

    • Программная система, включающая в себя интерфейс пользователя и нейросетевые модели, позволяющие с высокой точностью проводить коррекцию ошибок распознавания текстов в дореволюционной орфографии

      Форма и способы промежуточного контроля

      * Подобранная архитектура нейросетевой модели * Промежуточная версия программного обеспечения для коррекции ошибок * Обученная нейросетевая модель * Пользовательский интерфейс для разработанной нейросетевой модели * Написание отчета и защита проекта

      Форма представления результатов

      Репозиторий, содержащий программное обеспечение, файлы обученных нейросетевых моделей и набор тестов. Отчет по проекту

      Ресурсное обеспечение

      Вычислительные мощности, включая GPU, позволяющие обучать нейросетевые модели

      Имеющийся задел

      Датасет текстов, распознанных программой OCR и вычитанных людьми

      Заказчик

      НИУ ВШЭ / Школа лингвистики