Завершен
2023 / 2024

1722 Нейросетевой спелл-чекер для оцифровки русского романа
Старт
19.12.2023
Представление
26.04.2024
Постерная сессия
11.06.2024
Защита
05.11.2024 – 15.11.2024
Паспорт проекта
Аннотация
Проект предполагает тренировку нейросетевых моделей, которые справлялись бы с задачей исправления ошибок OCR в специфических текстовых данных. Оцифровка русского романа очень важна для современных гуманитарных исследований, но его реализация тормозится из-за плохого качества OCR. Предполагается использование существующих OCR-систем. Требуется разработать систему исправления текстов после OCR. Проблема осложняется тем, что цифруемые тексты в дореформенной орфографии, поэтому к ним не применимы...
Отрасль
Информатика
Теги
Информатика
Цель
Создать программную систему автоматической коррекции ошибок OCR для оцифровки русского романа XIX века
Ожидаемые результаты
- Программная система, включающая в себя интерфейс пользователя и нейросетевые модели, позволяющие с высокой точностью проводить коррекцию ошибок распознавания текстов в дореволюционной орфографии
Форма и способы промежуточного контроля
* Подобранная архитектура нейросетевой модели
* Промежуточная версия программного обеспечения для коррекции ошибок
* Обученная нейросетевая модель
* Пользовательский интерфейс для разработанной нейросетевой модели
* Написание отчета и защита проекта
Форма представления результатов
Репозиторий, содержащий программное обеспечение, файлы обученных нейросетевых моделей и набор тестов.
Отчет по проекту
Ресурсное обеспечение
Вычислительные мощности, включая GPU, позволяющие обучать нейросетевые модели
Имеющийся задел
Датасет текстов, распознанных программой OCR и вычитанных людьми
Заказчик
НИУ ВШЭ / Школа лингвистики