Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Разработка RAG-системы с использованием алгоритмов семантического поиска

    1834 Разработка RAG-системы с использованием алгоритмов семантического поиска

    Старт
    30.11.2024
    Представление
    27.01.2025 – 07.02.2025
    Постерная сессия
    14.04.2025 – 25.04.2025
    Защита
    06.06.2025 – 17.06.2025

    Паспорт проекта

    Аннотация

    Проект посвящен разработке поисковой системы с возможностью суммаризации информации по топ N документам из поисковой выдачи. Примеры того, что должно получится: Яндекс.Нейро. Системы должна уметь определять является ли информация, запрашиваемая пользователем, критической. В таком случае выдавать генеративный ответ небезопасно. В случае, если запрос пользователя критический, планируется показывать поисковую выдачу, в противном случае - генеративный ответ со ссылками на источники. Планируется...

    Отрасль

    Информатика

    Теги

    Информатика

    Цель

    Предлагается разработать систему, реализующую функционал поисковой системы для различным приложений с возможностью формирования генеративного ответа в случае отсутствия критической информации в поисковом запросе. Для внешнего пользователя система будет представлять собой веб-сервер, который будет инкапсулировать в себе все необходимые действия, связанные с поиском в приложении: персонализация, поиск, кэширование, индексирование и прочие.

    Ожидаемые результаты

    • Классификатор критичности документов
      • Дообученные генеративные модели (T5, Bert)
        • Алгоритм автоматического аннотирования текста
          • Веб-сервис использования генеративной модели с учетом поисковой выдачи, классификаторов запросов и документов на наличие критической информации

            Форма и способы промежуточного контроля

            Представление текущих результатов руководителю проекта не реже, чем раз в две недели.

            Форма представления результатов

            Защита в проектной комиссии МИЭМ

            Ресурсное обеспечение

            Сервер с ОС Linux (Ubuntu 18.04+), 2 ядра ЦПУ, 8 ГБ ОЗУ, 256 ГБ ПЗУ

            Имеющийся задел

            В 2023/2024 году разработан прототип системы семантического поиска информации по базе документов пользователя.

            Заказчик

            МИЭМ / ДПМ