Введение
Crawlee - это комплексное решение для веб-скрапинга, которое поможет вам создавать надёжные скраперы. Быстро.
Даже с настройками по умолчанию ваши краулеры будут работать как обычные пользователи, обходя современные системы защиты от ботов. Crawlee предоставляет инструменты для сбора ссылок, извлечения данных и их сохранения в удобных машиночитаемых форматах - и всё это без необходимости погружаться в технические детали. А благодаря широким возможностям настройки, вы можете адаптировать практически любой аспект Crawlee под потребности вашего проекта.
Чему вы научитесь
Это введение представляет собой пошаговое руководство по основным возможностям Crawlee. Мы начнем с создания простейшего краулера, который только выводит текст в консоль, и закончим полнофункциональным скрапером, который собирает ссылки с сайта и извлекает данные.
🛠 Возможности
- Единый интерфейс для работы с HTTP и браузером
- Постоянная очередь URL-адресов для обхода (в ширину и глубину)
- Подключаемое хранилище для табличных данных и файлов
- Автоматическое масштабирование с учетом доступных системных ресурсов
- Встроенная ротация прокси и управление сессиями
- Настраиваемые жизненные циклы с помощью хуков
- CLI для быстрого старта проектов
- Настраиваемая маршрутизация, обработка ошибок и повторные попытки
- Готовые к развертыванию Dockerfiles
- Написано на TypeScript с поддержкой обобщений
👾 HTTP-скрапинг
- HTTP2 поддержка из коробки, даже для прокси
- Автоматическая генерация браузероподобных заголовков
- Имитация браузерных TLS-отпечатков
- Встроенные быстрые HTML-парсеры: Cheerio и JSDOM
- Конечно, вы можете собирать данные и из JSON API
💻 Скрапинг через браузер
- Рендеринг JavaScript и создание скриншотов
- Поддержка headless и headful режимов
- Автоматическая генерация человекоподобных отпечатков
- Автоматическое управление браузером
- Используйте Playwright и Puppeteer через единый интерфейс
- Поддержка Chrome, Firefox, Webkit и других браузеров
Следующие шаги
Далее вы установите Crawlee и научитесь создавать проекты с помощью Crawlee CLI.