📄️ 사용자 입력 처리하기
다음은 사용자 입력을 받아서 로그로 출력하는 예제입니다:
📄️ 데이터셋에 데이터 추가하기
기본 데이터셋에 데이터를 저장하는 예제입니다. 데이터셋이 존재하지 않는 경우 자동으로 생성됩니다.
📄️ 기본 크롤러
이것은 BasicCrawler와 같은 Crawlee의 기본 구성 요소를 보여주는 가장 기본적인 예제입니다. 하지만 이렇게 깊이 들어갈 필요는 없으며, CheerioCrawler 또는 PlaywrightCrawler와 같은 기능이 완벽한 크롤러로 시작하는 것이 더 좋습니다.
📄️ Cheerio 크롤러
이 예제는 CheerioCrawler를 사용하여 외부 파일에서 URL 목록을 크롤링하는 방법을 보여줍니다. 일반 HTTP 요청을 사용하여 각 URL을 로드하고, Cheerio 라이브러리를 사용하여 HTML을 파싱한 다음 페이지 제목과 모든 h1 태그와 같은 데이터를 추출합니다.
📄️ 웹사이트의 모든 링크 크롤링하기
이 예제에서는 enqueueLinks() 메서드를 사용하여 크롤러가 페이지를 탐색할 때마다 새로운 링크를 RequestQueue에 추가합니다. maxRequestsPerCrawl 옵션을 제거하면 도메인의 모든 URL을 찾는 데에도 활용할 수 있습니다.
📄️ 여러 URL 크롤링하기
여러 URL을 크롤링하는 예제입니다.
📄️ 상대 링크가 있는 웹사이트 크롤링
웹사이트를 크롤링할 때 크롤링하고자 하는 다양한 유형의 링크를 만날 수 있습니다.
📄️ 단일 URL 크롤링하기
이 예제에서는 got-scraping npm 패키지를 사용하여
📄️ 사이트맵 크롤링하기
사이트맵은 검색 엔진에게 웹사이트의 중요한 페이지와 파일을 알려주는 역할을 합니다. 이 예제에서는 @crawlee/utils 모듈에서 제공하는 Sitemap 유틸리티 클래스를 사용하여 사이트맵에서 URL을 다운로드하고 크롤링하는 방법을 보여드립니다.
📄️ 웹사이트에서 특정 링크 크롤링하기
이 예제에서는 CheerioCrawler의 enqueueLinks() 메서드에서 globs 속성을 사용하여 지정된 패턴과 일치하는 링크만 RequestQueue에 추가하는 방법을 보여줍니다.
📄️ Puppeteer Stealth 플러그인과 playwright-extra 사용하기
puppeteer-extra와 playwright-extra는 커뮤니티에서 개발한 라이브러리로, puppeteer와 playwright에 플러그인 시스템을 추가하여 기능을 확장할 수 있게 해줍니다. 예를 들어, Puppeteer Stealth 플러그인(puppeteer-extra-plugin-stealth)을 사용하면 봇 탐지를 우회하는 데 도움이 됩니다.
📄️ 전체 데이터셋을 하나의 파일로 내보내기
이 Dataset 예제는 exportToValue 함수를 사용하여 기본 데이터셋 전체를 하나의 CSV 파일로 기본 키-값 스토어에 내보냅니다.
📄️ 파일 다운로드
웹 크롤링을 하다 보면 이미지, PDF 또는 기타 바이너리 파일을 다운로드해야 하는 경우가 있습니다. 이 예제에서는 Crawlee를 사용하여 파일을 다운로드하고 기본 키-값 저장소에 저장하는 방법을 보여드립니다.
📄️ Node.js 스트림으로 파일 다운로드하기
용량이 큰 파일의 경우 Node.js 스트림을 사용하여 파일을 다운로드하고 전송하는 것이 더 효율적입니다. 이 예제에서는 스트림을 사용하여 파일을 다운로드하는 방법을 설명합니다.
📄️ Puppeteer를 사용한 양식 작성 및 제출
이 예제는 PuppeteerCrawler를 사용하여
📄️ HTTP 크롤러
이 예제는 HttpCrawler를 사용하여 HTML 크롤러를 구축하는 방법을 보여줍니다. 외부 파일에서 URL 목록을 크롤링하고, 일반 HTTP 요청을 사용하여 각 URL을 로드한 다음 HTML을 저장하는 방법을 설명합니다.
📄️ JSDOM 크롤러
이 예제는 jsdom DOM 구현을 사용하여 웹사이트와 상호 작용하는 JSDOMCrawler의 사용법을 보여줍니다.
📄️ Dataset의 Map과 Reduce 메서드
이 예제에서는 Dataset의 map과
📄️ Playwright 크롤러
이 예제는 PlaywrightCrawler와 RequestQueue를 함께 사용하여 헤드리스 Chrome/Playwright로 해커 뉴스 웹사이트를 재귀적으로 스크래핑하는 방법을 보여줍니다.
📄️ Playwright 크롤러에서 Firefox 브라우저 사용하기
이 예제는 헤드리스 Firefox 브라우저와 함께 PlaywrightCrawler를 사용하는 방법을 보여줍니다.
📄️ Puppeteer를 사용한 스크린샷 캡처
Puppeteer 직접 사용하기
📄️ Puppeteer 크롤러
이 예제는 PuppeteerCrawler와
📄️ Puppeteer를 사용한 재귀적 크롤링
PuppeteerCrawler를 사용하여 웹사이트를 재귀적으로 크롤링하는 예제를 실행해보세요.
📄️ 특정 요청에 대한 탐색 건너뛰기
웹사이트를 크롤링하다 보면 CDN을 통해 제공되는 이미지와 같이 크롤러의 모든 기능을 사용할 필요는 없지만 저장하고 싶은 리소스를 만날 수 있습니다.