Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Научно-исследовательская работа
Научно-исследовательская работа
2022 / 2023
Логотип проекта Исследование использования визуального представления текстов в NLP-задачах

    1374 Исследование использования визуального представления текстов в NLP-задачах

    Старт
    03.11.2022
    Представление
    23.01.2023
    Постерная сессия
    17.04.2023
    Защита
    07.06.2023

    Паспорт проекта

    Аннотация

    В 2021 году вышла статья, в которой предлагается модель для решения задачи переводов, которая более устойчива к опечаткам и прочим шумам в текстах. В классических моделях, использующих обучаемые эмбеддинги токенов, с ростом количества шумов в текстах, качество перевода деградирует. Это связано с работой алгоритма subword токенизации. Если в слове заменить хотя бы один символ, то оно будет разбито на непредвиденную последовательность токенов, которая не будет передавать исходный смысл. Если...

    Отрасль

    Информатика

    Теги

    Информатика

    Цель

    В рамках задачи предполагается последующее усовершенствование модели визуального представления: * Эксперименты по применению модели в разных задачах на русском языке (POS,  NER, Простая классификация, LM и т.д.); * Эксперименты по усовершенствованию архитектуры: добавление дополнительной головы, решающей задачу OCR; добавление головы, которая, подобно автоэнкодеру, сжимала бы изображения в вектор и затем восстанавливала из него исходное изображение. Подобные трюки позволяют сделать обучение...

    Ожидаемые результаты

    • - подготовка выступления на конференции (уровень не ниже В) и\или текста для публикации (на английском языке)
      • - проверка гипотез по аугментации визуальных токенов с помощью популярных CV подходов относительно простого маскирования
        • - проверка гипотез по определению динамического размера окна при построении визуального представления токена
          • - исследование зависимости эффективности токенизации от выбора шрифта

            Форма и способы промежуточного контроля

            - представление и обсуждение текущих результатов с заказчиком не реже, чем 1 раз в 2 недели - выступление на научных семинарах на площадках заказчика и в НИУ ВШЭ

            Форма представления результатов

            - отчет НИР - репозиторий проекта и комплект документации - текст в формате статьи на английском языке

            Ресурсное обеспечение

            Доступ к необходимым вычислительным ресурсам может быть предоставлен заказчиком проекта по запросу.

            Имеющийся задел

            https://arxiv.org/pdf/2104.08211.pdf - визуальные представления в задаче переводов https://arxiv.org/pdf/2207.06991.pdf - PIXEL https://vk.com/doc137898199_646384141?hash=WAQx6Vh5WLHoEUF1T2BSF5ZqIPGzOz9UUFPKL54A5J0&dl=GVT0S17jd9ZlkUDZtyj0quYFeQTcNLvZkPbnJIT1tdL - модель, разработанная Вконтакте

            Заказчик

            МИЭМ / ВШЭ/МИЭМ