Завершен
2024 / 2025

1990 Разработка настраиваемого краулера для сбора данных с интернет страниц
Старт
02.11.2024
Представление
27.01.2025 – 07.02.2025
Постерная сессия
14.04.2025 – 25.04.2025
Защита
06.06.2025 – 17.06.2025
Паспорт проекта
Аннотация
На текущий момент существует много типовых задач по сбору данных с сайтов из интернет-пространства. Зачастую такие задачи решаются с помощью написание краулеров с применением специальных библиотек. Алгоритмы обхода сайта, поиска и сбора данных при этому пишутся программистами с использованием различных механизмов (например Scrapy, Apache Nutch). Идея проекта в создании типового краулера с использованием библиотеки Scrapy, который сможет принимать на вход стандартное описание алгоритма обхода...
Отрасль
Информатика
Теги
Информатика
Цель
Разработать и апробировать краулер для сбора данных из интернет пространства с возможностью настройки алгоритмов сбора через пользовательский интерфейс.
Ожидаемые результаты
- Исходный код краулера
- Исходный код web-приложения для настройки краулера
- Руководство пользователя краулером
Форма и способы промежуточного контроля
Еженедельные встречи, письменные отчеты о выполненной работе, демонстрация результатов, отслеживание выполнения задач в Wecan.
Форма представления результатов
Форма представления промежуточных результатов: проектные дни – отчеты и собрания по задачам проекта, точки контроля – представление проектов, постерная сессия.
Форма представления итоговых результатов: стенд-демонстратор, репозиторий с программным кодом, отчет по проекту, документация, презентация и защита проекта.
Ресурсное обеспечение
Рабочее место, сервера при необходимости будут предоставлены кафедрой
Имеющийся задел
Кафедра предоставляет готовые инструменты автоматизации управления краулерами (продукт DataHunter - https://eclsoft.ru/products/data-hunter) данных из сети Интернет
Заказчик
МИЭМ / ДКИ