Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Научно-исследовательская работа
Научно-исследовательская работа
2020 / 2021
Логотип проекта Исследование информационных характеристик естественных языков
    От компании

338 Исследование информационных характеристик естественных языков

Старт
30.06.2020

Паспорт проекта

Аннотация

Проект направлен на сравнительное исследование информационных характеристик художественных произведений на русском и английском языках. В рамках проекта планируется выяснить, как меняются информационные характеристики художественного текста, такие как энтропия, при переводе, жанре, различном авторстве и т.д. В процессе исследования планируем ответить на вопросы, к каким изменениям в тексте чувствительна информационная энтропия и исследовать область применения энтропийного подхода в различных...

Отрасль

Информатика

Теги

Информатика

Цель

Сравнительное исследование информационных характеристик художественных произведений на русском и английском языках. Исследование энтропии текстов реализуется с помощью теоретико-информационного подхода Шеннона (марковская модель представления осмысленного текста). [Проект №338. Ролик](https://youtu.be/VV7yjWupqKw) Задачи: 1) Исследовать характеристики художественных текстов на русском и английском языках. Сравнить языки 2) Оценить энтропию художественного русского и английского языка...

Ожидаемые результаты

  • Создание сравнительных текстовых корпусов художественных оригиналов и переводов на различных языках (русский, английский и др.). Генерация лексических и энграмных словарей. Исследование энтропии энграм, шаговой энтропии, энтропии на знак и энтропии слов. Применение разных подходов к оценке энтропии. Влияние флективности на объем словарей и энтропию языка. Исследование энтропии текстов больших длин с помощью экстраполяции данных.
    • Энтропийные характеристики следующих групп текстов:

      Форма и способы промежуточного контроля

      Отчет о проделанной работе, включающий результаты теоретических и экспериментальных исследований, а также соответствующее ПО.

      Форма представления результатов

      Созданные языковые корпуса (в виде текстовых файлов *.txt). Отдельные исследуемые тексты (в виде текстовых файлов *.txt). Исходные коды собственных программ для обработки текстовой информации. Аналитический отчет, содержащий результаты числовых измерений и статистического анализа (структурно-вероятностная модель текста, информационная энтропия, покрытие текста, лексическое разнообразие, экстраполяция данных). Большая презентация, включающая подробное представление всех полученных результатов.

      Ресурсное обеспечение

      Язык программирования для разработки ПО. ПО для составления собственных языковых корпусов (н., BootCat). ПО для статистического исследования текстов (MyStem, Antconc). Microsoft Excel. Математический пакет для анализа полученных характеристик, таких как экстраполяция данных (н., Wolfram Mathematica).

      Имеющийся задел

      Заполнено автоматически

      Заказчик