Перейти к основному содержимому

Как сканировать ссылки на веб-сайте

В этом примере CheerioCrawler используется свойство globs в методе enqueueLinks(), чтобы добавлять в очередь RequestQueue только те ссылки, которые соответствуют заданному шаблону.

Run on
import { CheerioCrawler } from 'crawlee';

// Создаем CheerioCrawler
const crawler = new CheerioCrawler({
// Ограничивает краулер на 10 запросов (не используйте, если хотите краулить все ссылки)
maxRequestsPerCrawl: 10,
// Функция, вызываемая для каждого URL
async requestHandler({ request, enqueueLinks, log }) {
log.info(request.url);
// Добавляем некоторые ссылки из страницы в очередь запросов краулера
await enqueueLinks({
globs: ['http?(s)://crawlee.dev/*/*'],
});
},
});

// Определяем начальный URL
await crawler.addRequests(['https://crawlee.dev']);

// Запускаем краулер
await crawler.run();