Готов к работе
2025 / 2026

2491 Автоматическая разметка релевантности авторов для поиска VK Video с использованием Vision-Language Models
Заявка создана
16.02.2026
Контроль ПО
17.02.2026
Одобрен
17.02.2026
Паспорт проекта
Аннотация
Проект направлен на разработку метода автоматической разметки релевантности авторов для задач поиска в VK Video с использованием Vision-Language Models (VLM). В настоящее время для подготовки обучающих данных используется ручная разметка асессорами, получение которой требует значительных временных и финансовых затрат.
В рамках проекта предполагается проверка гипотезы о применимости Vision‑Language Models для автоматической разметки релевантности авторов по пользовательским запросам...
Отрасль
Информатика
Теги
VLM
Разметка данных
Поиск
Machine Learning
VK Video
Цель
Целью проекта является разработка и экспериментальная проверка подхода автоматической разметки авторов для поиска VK Video с использованием Vision-Language Models, обеспечивающего качество, сопоставимое с асессорской разметкой, при существенно меньших затратах времени и ресурсов.
Ожидаемые результаты
- Описанный pipeline подготовки обучающих данных для автоматической разметки авторов.
- Обученные экспериментальные VLM‑модели, использующие различные источники признаков (название, описание, визуальные признаки, нейро‑признаки)
- Результаты оценки качества на независимой golden‑выборке (accuracy, F1‑score, confusion matrix)
- Сравнение качества автоматической разметки с асессорской
- Прототип модели, готовый к интеграции в процесс разметки данных для поиска VK Video
Форма и способы промежуточного контроля
Промежуточный контроль будет осуществляться в формате регулярных рабочих созвонов (до трёх раз в неделю) с руководителем проекта, на которых обсуждаются текущие задачи, прогресс по проекту и возникающие технические трудности. Дополнительно предполагается демонстрация промежуточных результатов по ключевым этапам проекта: подготовка данных, обучение моделей и оценка качества.
Форма представления результатов
Итоговые результаты проекта будут представлены в виде технического отчёта с описанием используемых данных, архитектуры модели, проведённых экспериментов и анализа качества. Дополнительно будет предоставлен pipeline подготовки данных и презентация с основными результатами проекта.
Ресурсное обеспечение
Для выполнения проекта планируется использовать инфраструктуру обработки данных VK, внутренние датасеты пользовательских запросов и мета‑информации об авторах, а также вычислительные ресурсы компании для обучения моделей, включая GPU‑серверы уровня NVIDIA A100/H100. Разработка будет вестись на Python с использованием библиотек машинного обучения и инструментов обработки данных.
Имеющийся задел
На данный момент получены необходимые доступы к данным, которые планируется использовать для обучения и валидации моделей: пользовательские поисковые запросы, мета-информация об авторах и данные асессорской разметки.
Заказчик
Организация / VK