Crawlee - библиотека для веб-скрапинга и автоматизации браузера
Создавайте надежные краулеры. Быстро.

npx crawlee create my-crawler
Надежный краулинг 🏗️
Crawlee не исправит сломанные селекторы за вас (пока), но поможет быстрее создавать и поддерживать ваши краулеры.
Когда сайт добавляет JavaScript-рендеринг, вам не нужно переписывать всё заново - просто переключитесь на один из браузерных краулеров. А когда найдете хороший API для ускорения работы, переключитесь обратно.
Crawlee поддерживает здоровье ваших прокси, умно ротируя их с хорошими отпечатками, делая ваши краулеры похожими на человека. Это не делает их неблокируемыми, но сэкономит ваши деньги в долгосрочной перспективе.
Crawlee создан людьми, которые занимаются скрапингом профессионально и ежедневно используют его для сбора миллионов страниц.Присоединяйтесь к нашему сообществу в Discord
JavaScript и TypeScript
Мы считаем, что сайты лучше всего скрапить на том языке, на котором они написаны. Crawlee {b|работает на Node.js и} написан на TypeScript, что улучшает автодополнение кода в вашей IDE, даже если вы сами не используете TypeScript. Crawlee поддерживает как TypeScript, так и JavaScript.
HTTP скрапинг
Crawlee делает HTTP запросы, которые имитирует заголовки браузера и TLS отпечатки. Они автоматически ротируются на основе данных о реальном трафике. Популярные HTML парсеры Cheerio и JSDOM уже включены.
Безголовые браузеры
Переключите ваши краулеры с HTTP на безголовые браузеры всего в 3 строки кода. Crawlee построен на основе Puppeteer и Playwright и добавляет свои функции антиблокировки и человекоподобные отпечатки. Chrome, Firefox и другие.
Автоматическое масштабирование и управление прокси
Crawlee автоматически управляет параллельностью на основе доступных системных ресурсов и умно ротирует прокси. Прокси, которые часто выдают таймауты, сетевые ошибки или плохие HTTP коды вроде 401 или 403, отбрасываются.
Очередь и хранилище
Вы можете сохранять файлы, скриншоты и JSON результаты на диск одной строкой кода или подключить адаптер для вашей БД. Ваши URL-адреса хранятся в очереди, которая обеспечивает их уникальность и сохранение прогресса при сбоях.
Полезные утилиты и гибкая настройка
Crawlee включает инструменты для извлечения социальных аккаунтов и телефонных номеров, бесконечной прокрутки, блокировки нежелательных ресурсов и многое другое. Он отлично работает из коробки, но также предоставляет широкие возможности настройки.