Рабочий
2025 / 2026

2560 Исследование методов оценки устойчивости LLM моделей и агентских систем на их основе к некорректным входным воздействиям
Старт
13.05.2026
Представление
08.06.2026 – 19.06.2026
Постерная сессия
22.10.2026 – 03.11.2026
Защита
23.01.2027 – 02.02.2027
Паспорт проекта
Аннотация
Проект направлен на исследование методов оценки устойчивости агентских систем и больших языковых моделей к некорректным, противоречивым и состязательным входным воздействиям. В рамках работы предполагается формализация типов некорректных запросов, разработка критериев поведенческой устойчивости и проведение сравнительного экспериментального анализа поведения моделей и агентных архитектур в условиях варьируемого входного контекста. Будет проведен комплексный анализ факторов, влияющих на...
Отрасль
Информационная безопасность
Теги
Машинное обучение
ИБ
LLM security
Безопасность ИИ
Цель
Исследование и экспериментальное обоснование методов количественной оценки устойчивости агентских систем и больших языковых моделей к некорректным входным воздействиям.
Ожидаемые результаты
- Формализована классификация некорректных входных воздействий с критериями отнесения запросов к определённым типам и описанием их характеристик
- Выполнение сравнительного анализа существующих метрик оценки устойчивости моделей LLM и агентских систем.
- Проведен комплексный анализ открытых платформ для тестирования LLM-моделей и агентских систем и методов их защиты
Форма и способы промежуточного контроля
Онлайн встречи с руководителем каждую неделю. Очные и онлайн встречи с куратором из VK минимум раз в месяц.
Форма представления результатов
• Исходный программный код
• Отчет о проекте
Ресурсное обеспечение
ПК с установленным интерпретатором Python 3.8 и выше, ресурсы суперкомпьютерного кластера с графическими ускорителями
Имеющийся задел
Частично проведен анализ литературы и инструментов
Заказчик
Организация / ВК