Завершен
2020 / 2021

338 Исследование информационных характеристик естественных языков
Старт
30.06.2020
Паспорт проекта
Аннотация
Проект направлен на сравнительное исследование информационных характеристик художественных произведений на русском и английском языках. В рамках проекта планируется выяснить, как меняются информационные характеристики художественного текста, такие как энтропия, при переводе, жанре, различном авторстве и т.д. В процессе исследования планируем ответить на вопросы, к каким изменениям в тексте чувствительна информационная энтропия и исследовать область применения энтропийного подхода в различных...
Отрасль
Информатика
Теги
Информатика
Цель
Сравнительное исследование информационных характеристик художественных произведений на русском и английском языках. Исследование энтропии текстов реализуется с помощью теоретико-информационного подхода Шеннона (марковская модель представления осмысленного текста).
[Проект №338. Ролик](https://youtu.be/VV7yjWupqKw)
Задачи:
1) Исследовать характеристики художественных текстов на русском и английском языках. Сравнить языки
2) Оценить энтропию художественного русского и английского языка...
Ожидаемые результаты
- Создание сравнительных текстовых корпусов художественных оригиналов и переводов на различных языках (русский, английский и др.). Генерация лексических и энграмных словарей. Исследование энтропии энграм, шаговой энтропии, энтропии на знак и энтропии слов. Применение разных подходов к оценке энтропии. Влияние флективности на объем словарей и энтропию языка. Исследование энтропии текстов больших длин с помощью экстраполяции данных.
- Энтропийные характеристики следующих групп текстов:
Форма и способы промежуточного контроля
Отчет о проделанной работе, включающий результаты теоретических и экспериментальных исследований, а также соответствующее ПО.
Форма представления результатов
Созданные языковые корпуса (в виде текстовых файлов *.txt).
Отдельные исследуемые тексты (в виде текстовых файлов *.txt).
Исходные коды собственных программ для обработки текстовой информации.
Аналитический отчет, содержащий результаты числовых измерений и статистического анализа (структурно-вероятностная модель текста, информационная энтропия, покрытие текста, лексическое разнообразие, экстраполяция данных).
Большая презентация, включающая подробное представление всех полученных результатов.
Ресурсное обеспечение
Язык программирования для разработки ПО.
ПО для составления собственных языковых корпусов (н., BootCat).
ПО для статистического исследования текстов (MyStem, Antconc).
Microsoft Excel.
Математический пакет для анализа полученных характеристик, таких как экстраполяция данных (н., Wolfram Mathematica).
Имеющийся задел
Заполнено автоматически
Заказчик
Организация / Заполнено автоматически