Перейти к основному содержимому

Введение

Crawlee - это комплексное решение для веб-скрапинга, которое поможет вам создавать надёжные скраперы. Быстро.

Даже с настройками по умолчанию ваши краулеры будут работать как обычные пользователи, обходя современные системы защиты от ботов. Crawlee предоставляет инструменты для сбора ссылок, извлечения данных и их сохранения в удобных машиночитаемых форматах - и всё это без необходимости погружаться в технические детали. А благодаря широким возможностям настройки, вы можете адаптировать практически любой аспект Crawlee под потребности вашего проекта.

Чему вы научитесь

Это введение представляет собой пошаговое руководство по основным возможностям Crawlee. Мы начнем с создания простейшего краулера, который только выводит текст в консоль, и закончим полнофункциональным скрапером, который собирает ссылки с сайта и извлекает данные.

🛠 Возможности

  • Единый интерфейс для работы с HTTP и браузером
  • Постоянная очередь URL-адресов для обхода (в ширину и глубину)
  • Подключаемое хранилище для табличных данных и файлов
  • Автоматическое масштабирование с учетом доступных системных ресурсов
  • Встроенная ротация прокси и управление сессиями
  • Настраиваемые жизненные циклы с помощью хуков
  • CLI для быстрого старта проектов
  • Настраиваемая маршрутизация, обработка ошибок и повторные попытки
  • Готовые к развертыванию Dockerfiles
  • Написано на TypeScript с поддержкой обобщений

👾 HTTP-скрапинг

  • HTTP2 поддержка из коробки, даже для прокси
  • Автоматическая генерация браузероподобных заголовков
  • Имитация браузерных TLS-отпечатков
  • Встроенные быстрые HTML-парсеры: Cheerio и JSDOM
  • Конечно, вы можете собирать данные и из JSON API

💻 Скрапинг через браузер

  • Рендеринг JavaScript и создание скриншотов
  • Поддержка headless и headful режимов
  • Автоматическая генерация человекоподобных отпечатков
  • Автоматическое управление браузером
  • Используйте Playwright и Puppeteer через единый интерфейс
  • Поддержка Chrome, Firefox, Webkit и других браузеров

Следующие шаги

Далее вы установите Crawlee и научитесь создавать проекты с помощью Crawlee CLI.