소개
Crawlee는 크롤링과 스크래핑을 처음부터 끝까지 지원하며, 빠르고 안정적인 스크래퍼를 구축하는 데 도움을 줍니다.
기본 설정만으로도 크롤러가 사람과 같은 방식으로 동작하여 현대적인 봇 차단을 우회할 수 있습니다. Crawlee를 사용하면 기술적인 세부사항을 걱정할 필요 없이, 웹에서 링크를 수집하고 데이터를 추출하여 기계가 읽을 수 있는 형식으로 저장할 수 있습니다. 또한 기본 설정이 충분하지 않은 경우, 풍부한 설정 옵션을 통해 프로젝트 요구사항에 맞게 Crawlee의 거의 모든 측면을 조정할 수 있습니다.
학습 내용
이 소개에서는 Crawlee의 가장 중요한 기능들을 단계별로 안내합니다. 콘솔에 텍스트만 출력하는 가장 간단한 크롤러부터 시작하여, 웹사이트에서 링크를 수집하고 데이터를 추출하는 완전한 기능을 갖춘 스크래퍼를 만드는 방법까지 배우게 됩니다.
🛠 주요 기능
- HTTP와 헤드리스 브라우저 크롤링을 위한 단일 인터페이스
- 크롤링할 URL을 위한 영구 대기열(너비 우선 & 깊이 우선)
- 표 형식 데이터와 파일을 위한 플러그형 스토리지
- 시스템 리소스에 따른 자동 확장
- 통합된 프록시 로테이션과 세션 관리
- 훅으로 커스터마이징 가능한 라이프사이클
- 프로젝트 부트스트랩을 위한 CLI
- 설정 가능한 라우팅, 오류 처리, 재시도
- 배포 준비된 도커파일
- 제네릭을 지원하는 타입스크립트로 작성
👾 HTTP 크롤링
- 프록시에도 적용되는 제로 설정 HTTP2 지원
- 브라우저와 유사한 헤더 자동 생성
- 브라우저 TLS 지문 복제
- 통합된 고속 HTML 파서 (Cheerio와 JSDOM)
- JSON API 스크래핑도 가능
💻 실제 브라우저 크롤링
- 자바스크립트 렌더링과 스크린샷
- 헤드리스와 헤드풀 지원
- 사람과 유사한 지문 자동 생성
- 자동 브라우저 관리
- 동일한 인터페이스로 Playwright와 Puppeteer 사용
- Chrome, Firefox, Webkit 등 다양한 브라우저 지원
다음 단계
다음으로, Crawlee를 설치하고 Crawlee CLI를 사용하여 프로젝트를 시작하는 방법을 배워보겠습니다.