Завершен
Научно-исследовательская работа
2021 / 2022
1055 Современные методы анализа лингвистических данных: сетевые методы и корпусная лингвистика
Старт
15.03.2022
Представление
10.06.2022
Постерная сессия
03.11.2022
Защита
02.02.2023
Паспорт проекта
Аннотация
По мере развития вычислительных возможностей, в разных областях науки появляются все более и более масштабные датасеты. В частности, в лингвистике получили большое применение корпусы языка. Для анализа встречаемости словоформ в корпусах развито большое количество статистических методов. Большое значение при их применении имеет вопрос контроля смещения выборки. Также большое применение получили методы анализа данных, основанные на идеях теории сложных сетей. В рамках настоящего проекта студенту...
Отрасль
Информатика
Теги
Информатика
Цель
Освоение современных методов анализа данных в лингвистике, в частности методов, основанных на применении теории сложных сетей и статистических методов корпусной лингвистики.
Ожидаемые результаты
- 1. Программные продукты для статистического анализа эволюции встречаемости словоформ в корпусе.
- 2. Сравнение локальных и макроскопических структурных характеристик сетей ассоциаций русского и английского языка.
- 3. Анализ данных психолингвистических экспериментов о сложности тестов Медника.
Форма и способы промежуточного контроля
По регламенту проектной деятельности МИЭМ НИУ ВШЭ
Форма представления результатов
По регламенту проектной деятельности МИЭМ НИУ ВШЭ
Ресурсное обеспечение
Google Colab
Имеющийся задел
В нашей группе ранее проводились исследования структуры сетей ассоциаций русского и английского языка, а также связи сети ассоциаций английского языка и сложности психолингвистических тестов креативности (тестов Медника). В настоящее время институтом психологии РАН готовится эксперимент по измерению сложности тестов Медника на русском языке.
Заказчик
МИЭМ / ДПМ