Логотип МИЭМ НИУ ВШЭ
Рабочий
Логотип типа проекта Программный
Программный
2025 / 2026
Логотип проекта Разработка интеллектуальной поисковой системы с использованием RAG подхода для LLM моделей на основе корпоративной базы знаний

2343 Разработка интеллектуальной поисковой системы с использованием RAG подхода для LLM моделей на основе корпоративной базы знаний

Старт
24.10.2025
Представление
05.11.2025 – 19.11.2025
Постерная сессия
26.01.2026 – 06.02.2026
Защита
06.04.2026 – 17.04.2026

Паспорт проекта

Аннотация

Данный проект направлен на создание системы интеллектуального поиска и анализа информации с использованием технологии Retrieval-Augmented Generation (RAG) и современных языковых моделей для корпоративной базы знаний Скала^P.

Отрасль

Информатика

Теги

LLM
RAG
FAISS

Цель

Разработка системы, способной • анализировать и обрабатывать информацию корпоративной базы знаний (источники информации: веб-сайт компании https://www.skala-r.ru/products и вики-система Confluence), • формировать релевантные ответы на естественном языке на запросы пользователей касательно информации корпоративной базы знаний, • предоставлять точные сведения о продуктах компании, их технических характеристиках, назначении, комплектации с указанием источников.

Ожидаемые результаты

  • Специализированный парсера для сайта Скала^р
    • Бот для демонстрации работы системы
      • Набор промптов для улучшения точности ответов
        • Механизм валидации качества генерируемых ответов
          • Сравнительный анализ эффективности моделей LLaMa и QWEN

            Форма и способы промежуточного контроля

            Отчеты перед Заказчиком. Контрольные точки проектной модели МИЭМ.

            Форма представления результатов

            Демонстрация системы Заказчику. Отчет о тестировании.

            Ресурсное обеспечение

            Предоставляется Заказчиком при необходимости.

            Имеющийся задел

            Технические характеристики исходных данных • Обработка текстовых страниц сайта (статьи, wiki-страницы, документация) • Обработка различных форматов документов (.pdf, .docx, .xlsx, .pptx, .txt и др.) • Внешние ресурсы (ссылки на другие сайты, PDF-файлы) Технологический стек • Векторная база данных (FAISS, Milvus или аналоги) для хранения и поиска • Векторизация текста с использованием энкодера, совместимого с LLM • Языковые модели: LLaMa и QWEN для генерации ответов • Архитектура RAG...

            Заказчик

            Организация / Скала^P