Завершен
2024 / 2025

1582 Разработка типовой модели данных для хранения данных из открытых источников в сети интернет
Старт
24.12.2024
Представление
27.01.2025 – 07.02.2025
Представление
14.04.2025 – 25.04.2025
Представление
06.06.2025 – 17.06.2025
Постерная сессия
05.11.2025 – 19.11.2025
Защита
26.01.2026 – 06.02.2026
Паспорт проекта
Аннотация
Задача сбора данных из открытых источников в сети Интернет является актуальной во многих областях экономики: торговля, деятельность правоохранительных органов, действия государственных регуляторов, интернет-маркетинг. Для решения задач сбора пишется специальное программное обеспечение - краулеры. Хотя для каждой конкретной задачи и отрасли состав конечных данных является уникальным, модель первичных данных собираемых краулерами может быть типовой. Если рассмотреть классическую схему хранилищ...
Отрасль
Информатика
Теги
Информатика
Web-Scraping
Хранилище данных
Цель
Исследовать источники данных в сети интернет. Разработать классификацию источников данных в сети интернет.
Разработать модель данных для хранения данных из источников одного класса.
Разработать прототип системы сбора и хранения данных из открытых источников в сети интернет в разработанной модели данных.
Ожидаемые результаты
- Классификация источников данных
- Выделение и описание типовых категорий источников (например, новостные сайты, социальные сети, маркетплейсы)
- Составление формализованного перечня критериев для отнесения источника к тому или иному классу
- Разработка требований к модели данных
- Описание структуры и типов собираемых данных
- Определение необходимых атрибутов, связей и ограничений целостности данных
- Учёт механизмов версионности и исторического хранения информации
Форма и способы промежуточного контроля
Еженедельные встречи, письменные отчеты о выполненной работе, демонстрация результатов, отслеживание выполнения задач в Wecan.
Форма представления результатов
Форма представления промежуточных результатов: проектные дни – отчеты и собрания по задачам проекта, точки контроля – представление проектов, постерная сессия.
Форма представления итоговых результатов: стенд-демонстратор, репозиторий с программным кодом, отчет по проекту, документация, презентация и защита проекта.
Ресурсное обеспечение
Рабочее место, сервера будут предоставлены кафедрой
Имеющийся задел
Кафедра предоставит продукт для управления группировкой краулеров - https://eclsoft.ru/products/data-hunter Возможно предоставлению готовых краулеров для определенных источниковю.
Заказчик
МИЭМ / ДКИ