Новый
2025 / 2026

2567 Эффективный бенчмаркинг русскоязычных LLM
Заявка создана
05.05.2026
На доработке
07.05.2026
Исправлено
07.05.2026
Контроль ПО
08.05.2026
Отправлен на комиссию
08.05.2026
На доработке
12.05.2026
Исправлено
30.05.2026
На доработке
02.06.2026
Исправлено
02.06.2026
Одобрен
Паспорт проекта
Аннотация
Оценка LLM на полных бенчмарках может занимать существенное время и требовать крупных затрат электроэнергии, при этом для примерного понимания возможностей модели может хватать и совсем небольшого, хорошо составленного набора тестов.
Проблема эффективной оценки LLM далеко не нова в области машинного обучения, и разные команды предлагали разные подходы к ее решению. Мы хотим масштабировать эти подходы, где-то использовать свои, и создать достаточно крупный набор собственных бенчмарков под...
Отрасль
Кибернетика
Теги
Информатика
LLM
Кибернетика
Цель
Создать набор мини-бенчмарков, позволяющих пользователю быстро оценить возможности LLM в той или иной области знания и выбрать подходящую
Ожидаемые результаты
- Разработанные и хорошо описанные методики создания датасетов, или методики семплирования из уже существующих датасетов
- Набор мини-бенчмарков
- Приложение для самостоятельной оценки LLM на наших бенчмарках
Форма и способы промежуточного контроля
Отчет о каждом выполненном этапе проекта
Представление промежуточных результатов между этапами
Форма представления результатов
Репозиторий со всеми файлами проекта, отчеты, итоговая презентация
Ресурсное обеспечение
Используются ресурсы ДКИ
Имеющийся задел
На данный момент разработаны и проверены (на основе прогонов 15 моделей) 3 методики семплирования для бенчмарка MERA (Fenogenova et al., ACL 2024), из них выбрана одна лучшая. На ней был проведен еще один, более крупный, сравнительный анализ на основе прогонов 31 модели, и получен первый результат с корреляцией Пирсона и Спирмена примерно 93%
Имеется кодовая база для семплирования и прогона всех трех вариантов выше
Заказчик
МИЭМ / ДКИ