Сканирование нескольких URL-адресов
В этом примере показано, как сканировать заданный список URL-адресов.
- Cheerio Crawler
- Puppeteer Crawler
- Playwright Crawler
Run on
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
// Функция, вызываемая для каждого URL
async requestHandler({ request, $, log }) {
const title = $('title').text();
log.info(`URL: ${request.url}\nTITLE: ${title}`);
},
});
// Запускаем краулер с начальным запросом
await crawler.run(['http://www.example.com/page-1', 'http://www.example.com/page-2', 'http://www.example.com/page-3']);
подсказка
Для запуска этого примера на платформе Apify выберите образ apify/actor-node-puppeteer-chrome
для вашего Dockerfile.
Run on
import { PuppeteerCrawler } from 'crawlee';
const crawler = new PuppeteerCrawler({
// Функция, вызываемая для каждого URL
async requestHandler({ request, page, log }) {
const title = await page.title();
log.info(`URL: ${request.url}\nTITLE: ${title}`);
},
});
// Запускаем краулер с начальным запросом
await crawler.run(['http://www.example.com/page-1', 'http://www.example.com/page-2', 'http://www.example.com/page-3']);
подсказка
Для запуска этого примера на платформе Apify выберите образ apify/actor-node-playwright-chrome
для вашего Dockerfile.
Run on
import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({
// Функция, вызываемая для каждого URL
async requestHandler({ request, page, log }) {
const title = await page.title();
log.info(`URL: ${request.url}\nTITLE: ${title}`);
},
});
// Запускаем краулер с начальным запросом
await crawler.run(['http://www.example.com/page-1', 'http://www.example.com/page-2', 'http://www.example.com/page-3']);