Crawlee 仓库中文介绍文档

Crawlee 是一个用于 Python 构建可靠爬虫的网络抓取和浏览器自动化库，由 Apify 提供，支持提取 AI、LLM、RAG 或 GPT 的数据。汇聚了 HTML、PDF、JPG、PNG 等文件下载功能，适用于 Parsel、BeautifulSoup、剧作家和原始 HTTP。

要点：

开头就要说清楚：这是什么工具、解决什么问题
包含Stars数（如有）、维护者信息
1-3句话，简洁有力

一、核心信息速览

维度	详情
:---	:---
仓库地址	[crawlee-python](https://github.com/apify/crawlee-python)
许可证	MIT License
核心定位	网络抓取和浏览器自动化库，用于构建可靠的爬虫
主要语言	Python
适用人群	爬虫开发者、数据采集工程师、Web 数据分析人员、自动化测试工程师
关键亮点	支持无头模式；内置代理旋转；兼容多种解析器；易于集成；适合大规模数据采集

二、核心功能

功能模块	描述	典型场景
:---	:---	:---
网络抓取	支持从网站下载 HTML、PDF、JPG、PNG 等文件	数据采集与内容下载
浏览器自动化	支持无头模式和有头模式，模拟人类操作	破解反爬机制、动态网页处理
代理旋转	自动切换 IP 代理，避免被封锁	大规模数据抓取与防封策略
多种解析器支持	支持 Parsel、BeautifulSoup、Playwright 等	适应不同数据提取需求
高度可配置	提供丰富的配置选项，便于定制化开发	适配复杂业务逻辑
数据持久化	支持将抓取的数据存储为机器可读格式	数据分析与后续处理
异步支持	支持异步请求，提升抓取效率	大规模并发任务处理
反反爬策略	内置模拟人类行为的功能，绕过现代反爬技术	避免被目标网站识别为机器人

三、快速上手

1. 环境准备

Python 3.7 或更高版本

2. 安装方式

pip install 'crawlee[all]'

3. 基础配置

无需额外配置，即可使用默认设置进行爬取。

4. 核心示例

from crawlee.playwright import PlaywrightCrawler

crawler = PlaywrightCrawler()

@crawler.page_function
async def scrape_page(page):
    await page.goto("https://example.com")
    print(await page.title())

crawler.run(["https://example.com"])

四、核心亮点

支持无头模式：可以在后台运行，不显示浏览器界面。
内置代理旋转：自动切换 IP 代理，防止被封锁。
兼容多种解析器：支持 Parsel、BeautifulSoup、Playwright 等。
高度可配置：提供丰富的配置选项，满足不同项目需求。

五、适用场景

大规模数据采集：适用于需要抓取大量网页数据的场景。
动态网页处理：可以处理 JavaScript 渲染的内容。
反反爬策略：适用于需要绕过现代反爬机制的场景。
多平台数据整合：支持多种数据格式输出，方便后续分析。

六、优缺点

优势

功能全面，覆盖抓取与自动化全流程
易于扩展，支持自定义配置
适配多种解析器，灵活性强

不足

学习曲线稍高，需了解爬虫原理
对资源消耗较大，尤其在大规模任务中

七、与同类工具对比（可选）

工具	类型	核心差异
:---	:---	:---
Crawlee	开源	免费开源、功能全、支持多种解析器
Scrapy	开源	更注重爬虫结构，但缺乏浏览器自动化能力
BeautifulSoup	开源	仅用于解析 HTML，不支持浏览器自动化