Перейти к основному содержимому

Начало работы

Для работы с Crawlee на вашем компьютере необходимо соблюдение следующих требований:

  1. Установленная версия Node.js 16.0 или выше (Скачайте с официального сайта Node.js или используйте fnm)
  2. Установленный NPM или любой другой пакетный менеджер на ваш выбор

Чтобы проверить наличие необходимых компонентов, выполните следующие команды:

node -v
npm -v

Создание нового проекта

Самый быстрый и удобный способ создать новый проект с Crawlee - использовать Crawlee CLI. Вы можете использовать утилиту npx, которая встроена в пакет crawlee:

npx crawlee create my-crawler

Появится диалоговое окно с выбором шаблона. Crawlee написан на TypeScript, поэтому если вы знакомы с ним, выбор шаблона TypeScript даст вам преимущества автодополнения кода и проверки типов. Но можно использовать и JavaScript - функционально они идентичны.

Давайте выберем первый шаблон Getting started example. Команда создаст новую директорию my-crawler в текущей рабочей папке, добавит файл package.json и установит все необходимые зависимости. Также будет добавлен пример кода, который можно сразу запустить.

Попробуем запустить:

cd my-crawler
npm start

В терминале появятся сообщения о запуске Crawlee и начале сканирования сайта Crawlee.

INFO  PlaywrightCrawler: Starting the crawl
INFO PlaywrightCrawler: Title of https://crawlee.dev/ is 'Crawlee · Build reliable crawlers. Fast. | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/examples is 'Examples | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core is '@crawlee/core | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core/changelog is 'Changelog | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/quick-start is 'Quick Start | Crawlee'

Вы всегда можете остановить процесс сканирования, нажав в терминале:

CTRL+C

Запуск браузера в видимом режиме

По умолчанию браузеры, управляемые Playwright, запускаются в фоновом режиме (без видимого окна). Вы можете переключиться в видимый режим, раскомментировав опцию headless: false в конструкторе краулера. Это полезно на этапе разработки, когда нужно видеть, что происходит в браузере.

// Раскомментируйте эту опцию, чтобы увидеть окно браузера
headless: false

После повторного запуска примера через секунду откроется окно браузера Chromium. В окне вы увидите быстро меняющиеся страницы в процессе работы краулера.

примечание

Для демонстрации мы замедлили работу краулера, но в реальном использовании он работает намного быстрее.

Демонстрация работы Crawlee при сканировании сайта Crawlee с использованием Puppeteer/Playwright и ChromiumДемонстрация работы Crawlee при сканировании сайта Crawlee с использованием Puppeteer/Playwright и Chromium

Следующие шаги

Далее мы рассмотрим создание простого краулера и объясним компоненты Crawlee в процессе его построения.