Начало работы
Для работы с Crawlee на вашем компьютере необходимо соблюдение следующих требований:
- Установленная версия Node.js 16.0 или выше (Скачайте с официального сайта Node.js или используйте fnm)
- Установленный NPM или любой другой пакетный менеджер на ваш выбор
Чтобы проверить наличие необходимых компонентов, выполните следующие команды:
node -v
npm -v
Создание нового проекта
Самый быстрый и удобный способ создать новый проект с Crawlee - использовать Crawlee CLI. Вы можете использовать утилиту npx
, которая встроена в пакет crawlee
:
npx crawlee create my-crawler
Появится диалоговое окно с выбором шаблона. Crawlee написан на TypeScript, поэтому если вы знакомы с ним, выбор шаблона TypeScript даст вам преимущества автодополнения кода и проверки типов. Но можно использовать и JavaScript - функционально они идентичны.
Давайте выберем первый шаблон Getting started example. Команда создаст новую директорию my-crawler в текущей рабочей папке, добавит файл package.json и установит все необходимые зависимости. Также будет добавлен пример кода, который можно сразу запустить.
Попробуем запустить:
cd my-crawler
npm start
В терминале появятся сообщения о запуске Crawlee и начале сканирования сайта Crawlee.
INFO PlaywrightCrawler: Starting the crawl
INFO PlaywrightCrawler: Title of https://crawlee.dev/ is 'Crawlee · Build reliable crawlers. Fast. | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/examples is 'Examples | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core is '@crawlee/core | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core/changelog is 'Changelog | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/quick-start is 'Quick Start | Crawlee'
Вы всегда можете остановить процесс сканирования, нажав в терминале:
CTRL+C
Запуск браузера в видимом режиме
По умолчанию браузеры, управляемые Playwright, запускаются в фоновом режиме (без видимого окна). Вы можете переключиться в видимый режим, раскомментировав опцию headless: false
в конструкторе краулера. Это полезно на этапе разработки, когда нужно видеть, что происходит в браузере.
// Раскомментируйте эту опцию, чтобы увидеть окно браузера
headless: false
После повторного запуска примера через секунду откроется окно браузера Chromium. В окне вы увидите быстро меняющиеся страницы в процессе работы краулера.
Для демонстрации мы замедлили работу краулера, но в реальном использовании он работает намного быстрее.


Следующие шаги
Далее мы рассмотрим создание простого краулера и объясним компоненты Crawlee в процессе его построения.