Завершен
2024 / 2025

2165 Платформа мониторинга безопасности LLM
Старт
22.01.2025
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
13.05.2025 – 19.05.2025
Паспорт проекта
Аннотация
Современные LLM-системы уязвимы к атакам с использованием промпт-инъектирущих запросов, позволяющих злоумышленникам манипулировать моделью для выполнения непредусмотренных действий (генерация токсичного или опасного контента). Такое поведение может быть задектировано нейросетевым анализом ответа модели. Текущие методы защиты ИТ-инфраструктуры не приспособлены для предотвращения атак на LLM-системы из-за их уникальной архитектуры.
Отрасль
Информационная безопасность
Теги
LLM
AI security
SaaS
Стартап
Цель
Разработать платформу для мониторинга безопасности большой языковой модели и обнаружение промпт-инъектирующих атак (через запрос от пользователя). Формирование датасета будет осуществляться по средствам доступных датасетов, информации о проведенных атаках, автоматической генерации и ручной разметки. Реализация алгоритма проверки входного промпта на наличие подозрительного текста нейросетью. Разработка системы логирования входных и выходных данных.
Ожидаемые результаты
- Механизм классификации запросов нейросетью
- Облачная платформа
- Система логирования
- Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов
- Развёрнутый сервис с базовым функционалом мониторинга и классификации запросов (SAFE/UNSAFE)
Форма и способы промежуточного контроля
Еженедельные встречи
Форма представления результатов
Репозиторий с исходным кодом (frontend, backend, ML-модели) и инструкциями по развертыванию;
Документация: подробное техническое описание архитектуры решения, схемы взаимодействия компонентов, примеры использования API
Ресурсное обеспечение
Личные компьютеры
Имеющийся задел
Базовая система логирования, демо блокировки подозрительных промптов на Gigachat
Заказчик
МИЭМ / ДЭИ