Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Разработка типовой модели данных для хранения данных из открытых источников в сети интернет

    1582 Разработка типовой модели данных для хранения данных из открытых источников в сети интернет

    Старт
    24.12.2024
    Представление
    27.01.2025 – 07.02.2025
    Представление
    14.04.2025 – 25.04.2025
    Представление
    06.06.2025 – 17.06.2025
    Постерная сессия
    05.11.2025 – 19.11.2025
    Защита
    26.01.2026 – 06.02.2026

    Паспорт проекта

    Аннотация

    Задача сбора данных из открытых источников в сети Интернет является актуальной во многих областях экономики: торговля, деятельность правоохранительных органов, действия государственных регуляторов, интернет-маркетинг. Для решения задач сбора пишется специальное программное обеспечение - краулеры. Хотя для каждой конкретной задачи и отрасли состав конечных данных является уникальным, модель первичных данных собираемых краулерами может быть типовой. Если рассмотреть классическую схему хранилищ...

    Отрасль

    Информатика

    Теги

    Информатика
    Web-Scraping
    Хранилище данных

    Цель

    Исследовать источники данных в сети интернет. Разработать классификацию источников данных в сети интернет. Разработать модель данных для хранения данных из источников одного класса. Разработать прототип системы сбора и хранения данных из открытых источников в сети интернет в разработанной модели данных.

    Ожидаемые результаты

    • Классификация источников данных
      • Выделение и описание типовых категорий источников (например, новостные сайты, социальные сети, маркетплейсы)
      • Составление формализованного перечня критериев для отнесения источника к тому или иному классу
    • Разработка требований к модели данных
      • Описание структуры и типов собираемых данных
      • Определение необходимых атрибутов, связей и ограничений целостности данных
      • Учёт механизмов версионности и исторического хранения информации

    Форма и способы промежуточного контроля

    Еженедельные встречи, письменные отчеты о выполненной работе, демонстрация результатов, отслеживание выполнения задач в Wecan.

    Форма представления результатов

    Форма представления промежуточных результатов: проектные дни – отчеты и собрания по задачам проекта, точки контроля – представление проектов, постерная сессия. Форма представления итоговых результатов: стенд-демонстратор, репозиторий с программным кодом, отчет по проекту, документация, презентация и защита проекта.

    Ресурсное обеспечение

    Рабочее место, сервера будут предоставлены кафедрой

    Имеющийся задел

    Кафедра предоставит продукт для управления группировкой краулеров - https://eclsoft.ru/products/data-hunter Возможно предоставлению готовых краулеров для определенных источниковю.

    Заказчик

    МИЭМ / ДКИ