Рабочий
2025 / 2026

2263 Сравнительный анализ генеративных моделей GAN и диффузионных моделей для автоматической генерации исходного кода
Старт
28.09.2025
Представление
05.11.2025 – 19.11.2025
Постерная сессия
26.01.2026 – 06.02.2026
Защита
06.04.2026 – 17.04.2026
Паспорт проекта
Аннотация
В последние годы генеративные модели искусственного интеллекта активно применяются для автоматической генерации исходного кода, что способствует ускорению разработки программного обеспечения и снижению затрат. В данном проекте проводится сравнительный анализ двух современных подходов — генеративно-состязательных сетей (GAN) и диффузионных моделей — в контексте синтеза программного кода.
Отрасль
Информатика
Теги
GAN
DiffusionModels
CodeGeneration
ComparativeAnalysis
Цель
Цель исследования — оценить эффективность этих методов по ключевым метрикам, включая синтаксическую корректность, семантическую адекватность, разнообразие генерируемых решений и скорость работы. В работе используются публичные датасеты (GitHub Python Corpus, Stack Overflow Code Snippets) и специализированные метрики (CodeBLEU, компиляционная валидность).
Ожидаемые результаты
- Анализ существующих генеративных моделей для генерации кода
- Изучить архитектурные особенности GAN и диффузионных моделей в контексте генерации программного кода.
- Провести обзор современных решений (CodeGAN, CodeDiffusion и др.).
- Обзор существующих моделей генерации кода: CodeT5, Codex, CodeGen, AlphaCode, SantaCoder
- Выбор и подготовка датасетов
- Определить подходящие датасеты программного кода для обучения и оценки моделей (например: CodeSearchNet, HumanEval, MBPP)
Форма и способы промежуточного контроля
1. Этапные отчеты (письменные и устные)
Форма: Презентации, технические отчеты, документация
Сроки: Каждые 2–3 недели
2. Проверка кода и экспериментов
Форма: Code Review, воспроизводимые эксперименты (Jupyter Notebook, Colab)
3. Демонстрация работы моделей
Форма: Интерактивные примеры генерации кода
4. Внутренние обсуждения и коллаборации
Форма: Митинги раз в неделю, обсуждения вTelegram
Форма представления результатов
Защита проекта с презентацией результатов
Публикация кода и данных (Open Source)
Написание финального отчета и статьи
Ресурсное обеспечение
Вычислительные ресурсы
Графические процессоры (GPU/TPU):
Облачные решения: Google Colab Pro, AWS (p3.2xlarge), Yandex DataSphere
Оперативная память: 32GB+ RAM для обработки больших датасетов
Хранение данных: 500GB+ SSD (кеширование датасетов, логов)
Программное обеспечение
Фреймворки для ML:
PyTorch / TensorFlow + CUDA
HuggingFace Transformers (для NLP-компонентов)
Diffusers (для диффузионных моделей)
Инструменты:
DVC (управление данными)
Weights & Biases / MLflow (трекинг экспериментов)
Docker...
Имеющийся задел
Результаты проекта "Разработка платформы для статического анализа кода посредством методов глубинного обучения" в суперкомпьютерном центре МИЭМ
Заказчик
МИЭМ / ДКИ