Логотип МИЭМ НИУ ВШЭ
Готов к работе
Логотип типа проекта Научно-исследовательская работа
Научно-исследовательская работа
2025 / 2026
Логотип проекта Автоматическая разметка релевантности авторов для поиска VK Video с использованием Vision-Language Models
    Оплачиваемый
    От компании

2491 Автоматическая разметка релевантности авторов для поиска VK Video с использованием Vision-Language Models

Заявка создана
16.02.2026
Контроль ПО
17.02.2026
Одобрен
17.02.2026

Паспорт проекта

Аннотация

Проект направлен на разработку метода автоматической разметки релевантности авторов для задач поиска в VK Video с использованием Vision-Language Models (VLM). В настоящее время для подготовки обучающих данных используется ручная разметка асессорами, получение которой требует значительных временных и финансовых затрат. В рамках проекта предполагается проверка гипотезы о применимости Vision‑Language Models для автоматической разметки релевантности авторов по пользовательским запросам...

Отрасль

Информатика

Теги

VLM
Разметка данных
Поиск
Machine Learning
VK Video

Цель

Целью проекта является разработка и экспериментальная проверка подхода автоматической разметки авторов для поиска VK Video с использованием Vision-Language Models, обеспечивающего качество, сопоставимое с асессорской разметкой, при существенно меньших затратах времени и ресурсов.

Ожидаемые результаты

  • Описанный pipeline подготовки обучающих данных для автоматической разметки авторов.
    • Обученные экспериментальные VLM‑модели, использующие различные источники признаков (название, описание, визуальные признаки, нейро‑признаки)
      • Результаты оценки качества на независимой golden‑выборке (accuracy, F1‑score, confusion matrix)
        • Сравнение качества автоматической разметки с асессорской
          • Прототип модели, готовый к интеграции в процесс разметки данных для поиска VK Video

            Форма и способы промежуточного контроля

            Промежуточный контроль будет осуществляться в формате регулярных рабочих созвонов (до трёх раз в неделю) с руководителем проекта, на которых обсуждаются текущие задачи, прогресс по проекту и возникающие технические трудности. Дополнительно предполагается демонстрация промежуточных результатов по ключевым этапам проекта: подготовка данных, обучение моделей и оценка качества.

            Форма представления результатов

            Итоговые результаты проекта будут представлены в виде технического отчёта с описанием используемых данных, архитектуры модели, проведённых экспериментов и анализа качества. Дополнительно будет предоставлен pipeline подготовки данных и презентация с основными результатами проекта.

            Ресурсное обеспечение

            Для выполнения проекта планируется использовать инфраструктуру обработки данных VK, внутренние датасеты пользовательских запросов и мета‑информации об авторах, а также вычислительные ресурсы компании для обучения моделей, включая GPU‑серверы уровня NVIDIA A100/H100. Разработка будет вестись на Python с использованием библиотек машинного обучения и инструментов обработки данных.

            Имеющийся задел

            На данный момент получены необходимые доступы к данным, которые планируется использовать для обучения и валидации моделей: пользовательские поисковые запросы, мета-информация об авторах и данные асессорской разметки.

            Заказчик

            Организация / VK