2567 Эффективный бенчмаркинг русскоязычных LLM

Кацнельсон Артём Игоревич

руководитель проекта

Заявка создана

05.05.2026

На доработке

07.05.2026

Исправлено

07.05.2026

Контроль ПО

08.05.2026

Отправлен на комиссию

08.05.2026

На доработке

12.05.2026

Исправлено

30.05.2026

На доработке

02.06.2026

Исправлено

02.06.2026

Одобрен

Паспорт проекта

Аннотация

Оценка LLM на полных бенчмарках может занимать существенное время и требовать крупных затрат электроэнергии, при этом для примерного понимания возможностей модели может хватать и совсем небольшого, хорошо составленного набора тестов. Проблема эффективной оценки LLM далеко не нова в области машинного обучения, и разные команды предлагали разные подходы к ее решению. Мы хотим масштабировать эти подходы, где-то использовать свои, и создать достаточно крупный набор собственных бенчмарков под...

Отрасль

Кибернетика

Цель

Создать набор мини-бенчмарков, позволяющих пользователю быстро оценить возможности LLM в той или иной области знания и выбрать подходящую

Ожидаемые результаты

Разработанные и хорошо описанные методики создания датасетов, или методики семплирования из уже существующих датасетов
Набор мини-бенчмарков
Приложение для самостоятельной оценки LLM на наших бенчмарках

Форма и способы промежуточного контроля

Отчет о каждом выполненном этапе проекта Представление промежуточных результатов между этапами

Форма представления результатов

Репозиторий со всеми файлами проекта, отчеты, итоговая презентация

Ресурсное обеспечение

Используются ресурсы ДКИ

Имеющийся задел

На данный момент разработаны и проверены (на основе прогонов 15 моделей) 3 методики семплирования для бенчмарка MERA (Fenogenova et al., ACL 2024), из них выбрана одна лучшая. На ней был проведен еще один, более крупный, сравнительный анализ на основе прогонов 31 модели, и получен первый результат с корреляцией Пирсона и Спирмена примерно 93% Имеется кодовая база для семплирования и прогона всех трех вариантов выше