Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Платформа мониторинга безопасности LLM

    2165 Платформа мониторинга безопасности LLM

    Старт
    22.01.2025
    Представление
    27.01.2025 – 07.02.2025
    Постерная сессия
    14.04.2025 – 25.04.2025
    Защита
    13.05.2025 – 19.05.2025

    Паспорт проекта

    Аннотация

    Современные LLM-системы уязвимы к атакам с использованием промпт-инъектирущих запросов, позволяющих злоумышленникам манипулировать моделью для выполнения непредусмотренных действий (генерация токсичного или опасного контента). Такое поведение может быть задектировано нейросетевым анализом ответа модели. Текущие методы защиты ИТ-инфраструктуры не приспособлены для предотвращения атак на LLM-системы из-за их уникальной архитектуры.

    Отрасль

    Информационная безопасность

    Теги

    LLM
    AI security
    SaaS
    Стартап

    Цель

    Разработать платформу для мониторинга безопасности большой языковой модели и обнаружение промпт-инъектирующих атак (через запрос от пользователя). Формирование датасета будет осуществляться по средствам доступных датасетов, информации о проведенных атаках, автоматической генерации и ручной разметки. Реализация алгоритма проверки входного промпта на наличие подозрительного текста нейросетью. Разработка системы логирования входных и выходных данных.

    Ожидаемые результаты

    • Механизм классификации запросов нейросетью
      • Облачная платформа
        • Система логирования
          • Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов
            • Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов (SAFE/UNSAFE)

              Форма и способы промежуточного контроля

              Еженедельные встречи

              Форма представления результатов

              Репозиторий с исходным кодом (frontend, backend, ML-модели) и инструкциями по развертыванию; Документация: подробное техническое описание архитектуры решения, схемы взаимодействия компонентов, примеры использования API

              Ресурсное обеспечение

              Личные компьютеры

              Имеющийся задел

              Базовая система логирования, демо блокировки подозрительных промптов на Gigachat

              Заказчик

              МИЭМ / ДЭИ