Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Платформа мониторинга безопасности LLM

2165 Платформа мониторинга безопасности LLM

Старт
22.01.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
13.05.2025 – 19.05.2025

Паспорт проекта

Аннотация

Современные LLM-системы уязвимы к атакам с использованием промпт-инъектирущих запросов, позволяющих злоумышленникам манипулировать моделью для выполнения непредусмотренных действий (генерация токсичного или опасного контента). Такое поведение может быть задектировано нейросетевым анализом ответа модели. Текущие методы защиты ИТ-инфраструктуры не приспособлены для предотвращения атак на LLM-системы из-за их уникальной архитектуры.

Отрасль

Информационная безопасность

Теги

LLM
AI security
SaaS
Стартап

Цель

Разработать платформу для мониторинга безопасности большой языковой модели и обнаружение промпт-инъектирующих атак (через запрос от пользователя). Формирование датасета будет осуществляться по средствам доступных датасетов, информации о проведенных атаках, автоматической генерации и ручной разметки. Реализация алгоритма проверки входного промпта на наличие подозрительного текста нейросетью. Разработка системы логирования входных и выходных данных.

Ожидаемые результаты

  • Механизм классификации запросов нейросетью
    • Облачная платформа
      • Система логирования
        • Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов
          • Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов (SAFE/UNSAFE)

            Форма и способы промежуточного контроля

            Еженедельные встречи

            Форма представления результатов

            Репозиторий с исходным кодом (frontend, backend, ML-модели) и инструкциями по развертыванию; Документация: подробное техническое описание архитектуры решения, схемы взаимодействия компонентов, примеры использования API

            Ресурсное обеспечение

            Личные компьютеры

            Имеющийся задел

            Базовая система логирования, демо блокировки подозрительных промптов на Gigachat

            Заказчик

            МИЭМ / ДЭИ