웹사이트에서 특정 링크 크롤링하기
이 예제에서는 CheerioCrawler
의 enqueueLinks()
메서드에서 globs
속성을 사용하여 지정된 패턴과 일치하는 링크만 RequestQueue
에 추가하는 방법을 보여줍니다.
Run on
import { CheerioCrawler } from 'crawlee';
// CheerioCrawler 생성
const crawler = new CheerioCrawler({
// 최대 10개의 요청 제한 (모든 링크를 크롤링하려면 사용하지 않음)
maxRequestsPerCrawl: 10,
// 각 URL에 대해 호출되는 함수
async requestHandler({ request, enqueueLinks, log }) {
log.info(request.url);
// 페이지에서 크롤러의 RequestQueue에 링크 추가
await enqueueLinks({
globs: ['http?(s)://crawlee.dev/*/*'],
});
},
});
// 시작 URL 정의
await crawler.addRequests(['https://crawlee.dev']);
// 크롤러 실행
await crawler.run();