소개

Crawlee는 크롤링과 스크래핑을 처음부터 끝까지 지원하며, 빠르고 안정적인 스크래퍼를 구축하는 데 도움을 줍니다.

기본 설정만으로도 크롤러가 사람과 같은 방식으로 동작하여 현대적인 봇 차단을 우회할 수 있습니다. Crawlee를 사용하면 기술적인 세부사항을 걱정할 필요 없이, 웹에서 링크를 수집하고 데이터를 추출하여 기계가 읽을 수 있는 형식으로 저장할 수 있습니다. 또한 기본 설정이 충분하지 않은 경우, 풍부한 설정 옵션을 통해 프로젝트 요구사항에 맞게 Crawlee의 거의 모든 측면을 조정할 수 있습니다.

학습 내용

이 소개에서는 Crawlee의 가장 중요한 기능들을 단계별로 안내합니다. 콘솔에 텍스트만 출력하는 가장 간단한 크롤러부터 시작하여, 웹사이트에서 링크를 수집하고 데이터를 추출하는 완전한 기능을 갖춘 스크래퍼를 만드는 방법까지 배우게 됩니다.

🛠 주요 기능

HTTP와 헤드리스 브라우저 크롤링을 위한 단일 인터페이스
크롤링할 URL을 위한 영구 대기열(너비 우선 & 깊이 우선)
표 형식 데이터와 파일을 위한 플러그형 스토리지
시스템 리소스에 따른 자동 확장
통합된 프록시 로테이션과 세션 관리
훅으로 커스터마이징 가능한 라이프사이클
프로젝트 부트스트랩을 위한 CLI
설정 가능한 라우팅, 오류 처리, 재시도
배포 준비된 도커파일
제네릭을 지원하는 타입스크립트로 작성

👾 HTTP 크롤링

프록시에도 적용되는 제로 설정 HTTP2 지원
브라우저와 유사한 헤더 자동 생성
브라우저 TLS 지문 복제
통합된 고속 HTML 파서 (Cheerio와 JSDOM)
JSON API 스크래핑도 가능

💻 실제 브라우저 크롤링

자바스크립트 렌더링과 스크린샷
헤드리스와 헤드풀 지원
사람과 유사한 지문 자동 생성
자동 브라우저 관리
동일한 인터페이스로 Playwright와 Puppeteer 사용
Chrome, Firefox, Webkit 등 다양한 브라우저 지원

다음 단계

다음으로, Crawlee를 설치하고 Crawlee CLI를 사용하여 프로젝트를 시작하는 방법을 배워보겠습니다.

학습 내용​

🛠 주요 기능​

👾 HTTP 크롤링​

💻 실제 브라우저 크롤링​

다음 단계​

학습 내용

🛠 주요 기능

👾 HTTP 크롤링

💻 실제 브라우저 크롤링

다음 단계