Логотип МИЭМ НИУ ВШЭ
Рабочий
Логотип типа проекта Научно-исследовательская работа
Научно-исследовательская работа
2025 / 2026
Логотип проекта Сравнительный анализ генеративных моделей GAN и диффузионных моделей для автоматической генерации исходного кода

    2263 Сравнительный анализ генеративных моделей GAN и диффузионных моделей для автоматической генерации исходного кода

    Старт
    28.09.2025
    Представление
    05.11.2025 – 19.11.2025
    Постерная сессия
    26.01.2026 – 06.02.2026
    Защита
    06.04.2026 – 17.04.2026

    Паспорт проекта

    Аннотация

    В последние годы генеративные модели искусственного интеллекта активно применяются для автоматической генерации исходного кода, что способствует ускорению разработки программного обеспечения и снижению затрат. В данном проекте проводится сравнительный анализ двух современных подходов — генеративно-состязательных сетей (GAN) и диффузионных моделей — в контексте синтеза программного кода.

    Отрасль

    Информатика

    Теги

    GAN
    DiffusionModels
    CodeGeneration
    ComparativeAnalysis

    Цель

    Цель исследования — оценить эффективность этих методов по ключевым метрикам, включая синтаксическую корректность, семантическую адекватность, разнообразие генерируемых решений и скорость работы. В работе используются публичные датасеты (GitHub Python Corpus, Stack Overflow Code Snippets) и специализированные метрики (CodeBLEU, компиляционная валидность).

    Ожидаемые результаты

    • Анализ существующих генеративных моделей для генерации кода
      • Изучить архитектурные особенности GAN и диффузионных моделей в контексте генерации программного кода.
      • Провести обзор современных решений (CodeGAN, CodeDiffusion и др.).
      • Обзор существующих моделей генерации кода: CodeT5, Codex, CodeGen, AlphaCode, SantaCoder
    • Выбор и подготовка датасетов
      • Определить подходящие датасеты программного кода для обучения и оценки моделей (например: CodeSearchNet, HumanEval, MBPP)

    Форма и способы промежуточного контроля

    1. Этапные отчеты (письменные и устные) Форма: Презентации, технические отчеты, документация Сроки: Каждые 2–3 недели 2. Проверка кода и экспериментов Форма: Code Review, воспроизводимые эксперименты (Jupyter Notebook, Colab) 3. Демонстрация работы моделей Форма: Интерактивные примеры генерации кода 4. Внутренние обсуждения и коллаборации Форма: Митинги раз в неделю, обсуждения вTelegram

    Форма представления результатов

    Защита проекта с презентацией результатов Публикация кода и данных (Open Source) Написание финального отчета и статьи

    Ресурсное обеспечение

    Вычислительные ресурсы Графические процессоры (GPU/TPU): Облачные решения: Google Colab Pro, AWS (p3.2xlarge), Yandex DataSphere Оперативная память: 32GB+ RAM для обработки больших датасетов Хранение данных: 500GB+ SSD (кеширование датасетов, логов) Программное обеспечение Фреймворки для ML: PyTorch / TensorFlow + CUDA HuggingFace Transformers (для NLP-компонентов) Diffusers (для диффузионных моделей) Инструменты: DVC (управление данными) Weights & Biases / MLflow (трекинг экспериментов) Docker...

    Имеющийся задел

    Результаты проекта "Разработка платформы для статического анализа кода посредством методов глубинного обучения" в суперкомпьютерном центре МИЭМ

    Заказчик

    МИЭМ / ДКИ