Логотип МИЭМ НИУ ВШЭ
Новый
Логотип типа проекта Программный
Программный
2025 / 2026
Логотип проекта Эффективный бенчмаркинг русскоязычных LLM

    2567 Эффективный бенчмаркинг русскоязычных LLM

    Заявка создана
    05.05.2026
    На доработке
    07.05.2026
    Исправлено
    07.05.2026
    Контроль ПО
    08.05.2026
    Отправлен на комиссию
    08.05.2026
    На доработке
    12.05.2026
    Исправлено
    30.05.2026
    На доработке
    02.06.2026
    Исправлено
    02.06.2026
    Одобрен

    Паспорт проекта

    Аннотация

    Оценка LLM на полных бенчмарках может занимать существенное время и требовать крупных затрат электроэнергии, при этом для примерного понимания возможностей модели может хватать и совсем небольшого, хорошо составленного набора тестов. Проблема эффективной оценки LLM далеко не нова в области машинного обучения, и разные команды предлагали разные подходы к ее решению. Мы хотим масштабировать эти подходы, где-то использовать свои, и создать достаточно крупный набор собственных бенчмарков под...

    Отрасль

    Кибернетика

    Теги

    Информатика
    LLM
    Кибернетика

    Цель

    Создать набор мини-бенчмарков, позволяющих пользователю быстро оценить возможности LLM в той или иной области знания и выбрать подходящую

    Ожидаемые результаты

    • Разработанные и хорошо описанные методики создания датасетов, или методики семплирования из уже существующих датасетов
      • Набор мини-бенчмарков
        • Приложение для самостоятельной оценки LLM на наших бенчмарках

          Форма и способы промежуточного контроля

          Отчет о каждом выполненном этапе проекта Представление промежуточных результатов между этапами

          Форма представления результатов

          Репозиторий со всеми файлами проекта, отчеты, итоговая презентация

          Ресурсное обеспечение

          Используются ресурсы ДКИ

          Имеющийся задел

          На данный момент разработаны и проверены (на основе прогонов 15 моделей) 3 методики семплирования для бенчмарка MERA (Fenogenova et al., ACL 2024), из них выбрана одна лучшая. На ней был проведен еще один, более крупный, сравнительный анализ на основе прогонов 31 модели, и получен первый результат с корреляцией Пирсона и Спирмена примерно 93% Имеется кодовая база для семплирования и прогона всех трех вариантов выше

          Заказчик

          МИЭМ / ДКИ