본문으로 건너뛰기

소개

Crawlee는 크롤링과 스크래핑을 처음부터 끝까지 지원하며, 빠르고 안정적인 스크래퍼를 구축하는 데 도움을 줍니다.

기본 설정만으로도 크롤러가 사람과 같은 방식으로 동작하여 현대적인 봇 차단을 우회할 수 있습니다. Crawlee를 사용하면 기술적인 세부사항을 걱정할 필요 없이, 웹에서 링크를 수집하고 데이터를 추출하여 기계가 읽을 수 있는 형식으로 저장할 수 있습니다. 또한 기본 설정이 충분하지 않은 경우, 풍부한 설정 옵션을 통해 프로젝트 요구사항에 맞게 Crawlee의 거의 모든 측면을 조정할 수 있습니다.

학습 내용

이 소개에서는 Crawlee의 가장 중요한 기능들을 단계별로 안내합니다. 콘솔에 텍스트만 출력하는 가장 간단한 크롤러부터 시작하여, 웹사이트에서 링크를 수집하고 데이터를 추출하는 완전한 기능을 갖춘 스크래퍼를 만드는 방법까지 배우게 됩니다.

🛠 주요 기능

  • HTTP와 헤드리스 브라우저 크롤링을 위한 단일 인터페이스
  • 크롤링할 URL을 위한 영구 대기열(너비 우선 & 깊이 우선)
  • 표 형식 데이터와 파일을 위한 플러그형 스토리지
  • 시스템 리소스에 따른 자동 확장
  • 통합된 프록시 로테이션과 세션 관리
  • 으로 커스터마이징 가능한 라이프사이클
  • 프로젝트 부트스트랩을 위한 CLI
  • 설정 가능한 라우팅, 오류 처리, 재시도
  • 배포 준비된 도커파일
  • 제네릭을 지원하는 타입스크립트로 작성

👾 HTTP 크롤링

  • 프록시에도 적용되는 제로 설정 HTTP2 지원
  • 브라우저와 유사한 헤더 자동 생성
  • 브라우저 TLS 지문 복제
  • 통합된 고속 HTML 파서 (Cheerio와 JSDOM)
  • JSON API 스크래핑도 가능

💻 실제 브라우저 크롤링

  • 자바스크립트 렌더링스크린샷
  • 헤드리스헤드풀 지원
  • 사람과 유사한 지문 자동 생성
  • 자동 브라우저 관리
  • 동일한 인터페이스로 PlaywrightPuppeteer 사용
  • Chrome, Firefox, Webkit 등 다양한 브라우저 지원

다음 단계

다음으로, Crawlee를 설치하고 Crawlee CLI를 사용하여 프로젝트를 시작하는 방법을 배워보겠습니다.