Логотип МИЭМ НИУ ВШЭ
Завершен
Логотип типа проекта Программный
Программный
2024 / 2025
Логотип проекта Разработка настраиваемого краулера для сбора данных с интернет страниц

    1990 Разработка настраиваемого краулера для сбора данных с интернет страниц

    Старт
    02.11.2024
    Представление
    27.01.2025 – 07.02.2025
    Постерная сессия
    14.04.2025 – 25.04.2025
    Защита
    06.06.2025 – 17.06.2025

    Паспорт проекта

    Аннотация

    На текущий момент существует много типовых задач по сбору данных с сайтов из интернет-пространства. Зачастую такие задачи решаются с помощью написание краулеров с применением специальных библиотек. Алгоритмы обхода сайта, поиска и сбора данных при этому пишутся программистами с использованием различных механизмов (например Scrapy, Apache Nutch). Идея проекта в создании типового краулера с использованием библиотеки Scrapy, который сможет принимать на вход стандартное описание алгоритма обхода...

    Отрасль

    Информатика

    Теги

    Информатика

    Цель

    Разработать и апробировать краулер для сбора данных из интернет пространства с возможностью настройки алгоритмов сбора через пользовательский интерфейс.

    Ожидаемые результаты

    • Исходный код краулера
      • Исходный код web-приложения для настройки краулера
        • Руководство пользователя краулером

          Форма и способы промежуточного контроля

          Еженедельные встречи, письменные отчеты о выполненной работе, демонстрация результатов, отслеживание выполнения задач в Wecan.

          Форма представления результатов

          Форма представления промежуточных результатов: проектные дни – отчеты и собрания по задачам проекта, точки контроля – представление проектов, постерная сессия. Форма представления итоговых результатов: стенд-демонстратор, репозиторий с программным кодом, отчет по проекту, документация, презентация и защита проекта.

          Ресурсное обеспечение

          Рабочее место, сервера при необходимости будут предоставлены кафедрой

          Имеющийся задел

          Кафедра предоставляет готовые инструменты автоматизации управления краулерами (продукт DataHunter - https://eclsoft.ru/products/data-hunter) данных из сети Интернет

          Заказчик

          МИЭМ / ДКИ