
npx crawlee create my-crawler
신뢰할 수 있는 크롤링 🏗️
Crawlee는 깨진 선택자를 직접 수정하지는 않지만(아직), 크롤러를 더 빠르게 구축하고 유지보수할 수 있도록 도와줍니다.
웹사이트가 JavaScript 렌더링을 추가하더라도 모든 것을 다시 작성할 필요가 없습니다. 브라우저 크롤러로 전환하기만 하면 됩니다. 나중에 크롤링 속도를 높일 수 있는 API를 찾으면 다시 전환하면 됩니다.
프록시를 스마트하게 교체하고 실제 사용자처럼 보이는 지문을 사용하여 프록시를 건강하게 유지합니다. 완벽한 우회는 아니지만, 장기적으로 비용을 절약할 수 있습니다.
Crawlee는 매일 수백만 페이지를 스크래핑하는 전문가들이 만들고 사용하는 도구입니다.Discord에서 커뮤니티와 함께하세요
JavaScript 및 TypeScript
웹사이트는 해당 사이트가 작성된 언어로 스크래핑하는 것이 가장 좋다고 생각합니다. Crawlee는 {b|Node.js에서 실행되며} написан на TypeScript로 개발되어 TypeScript를 사용하지 않더라도 IDE에서 코드 자동 완성이 개선됩니다. Crawlee는 TypeScript와 JavaScript 모두를 지원합니다.
HTTP 스크래핑
Crawlee는 имитирует заголовки браузера и TLS отпечатки하는 HTTP 요청을 만듭니다. 실제 트래픽 데이터를 기반으로 자동으로 교체됩니다. 인기 있는 HTML 파서인 Cheerio와 JSDOM가 포함되어 있습니다.
헤드리스 브라우저
3줄의 코드로 크롤러를 HTTP에서 безголовые браузеры로 전환하세요. Crawlee는 Puppeteer와 Playwright를 기반으로 하며 자체 функции антиблокировки и человекоподобные отпечатки을 추가했습니다. Chrome, Firefox 등을 지원합니다.
자동 확장 및 프록시 관리
Crawlee는 доступных системных ресурсов에 기반하여 동시성을 자동으로 관리하고 умно ротирует прокси합니다. 시간 초과가 자주 발생하거나 네트워크 오류 또는 401, 403과 같은 잘못된 HTTP 코드를 반환하는 프록시는 제외됩니다.
큐 및 스토리지
한 줄의 코드로 сохранять файлы, скриншоты и JSON результаты하거나 DB용 어댑터를 연결할 수 있습니다. URL은 고유성을 보장하고 실패 시 진행 상황을 잃지 않도록 хранятся в очереди에 저장됩니다.
유용한 유틸리티 및 구성 가능성
Crawlee에는 извлечения социальных аккаунтов 또는 전화번호 추출, 무한 스크롤, 원하지 않는 자산 차단 и многое другое 등의 도구가 포함되어 있습니다. 기본적으로 잘 작동하지만 широкие возможности настройки도 제공합니다.