Crawlo: A high-performance asynchronous Python web crawling framework with distributed support.。
Project description
Crawlo
一个基于 asyncio 的现代化、高性能 Python 异步爬虫框架。
✨ 快速开始(3步上手)
1. 安装
pip install crawlo
2. 创建爬虫
crawlo startproject myproject
cd myproject
crawlo genspider example example.com
3. 运行
crawlo run example
🚀 核心特性
⚡ 高性能异步架构
- 基于 asyncio + aiohttp,充分利用异步 I/O
- 智能并发控制,自动优化吞吐量
🛡️ 强大的反反爬能力
- 智能混合下载器:自动切换协议/浏览器引擎
- Cloudflare 自动绕过:内置多种绕过策略
- 隐身浏览器集成:camoufox/playwright/drissionpage
- 自适应选择器:元素自愈,网站改版自动适配
🤖 AI 集成(MCP Server)
- Claude/Cursor 直接调用 Crawlo 抓取能力
- 智能抓取模式:basic/stealth/max-stealth
📊 智能调度系统
- 优先级队列、自动重试、智能限速
- 多维度自适应背压系统:实时调控,防止队列溢出
🔄 灵活的配置模式
| 模式 | 适用场景 | Redis要求 |
|---|---|---|
| Standalone | 单机开发测试 | 不需要 |
| Distributed | 多节点分布式 | 必需 |
| Auto ⭐ | 智能检测(推荐) | 可选 |
📚 文档
🎯 按角色阅读
| 你是? | 推荐阅读 |
|---|---|
| 新手 | 5分钟快速上手 → 安装指南 |
| 开发者 | 配置指南 → 调度指南 |
| 运维 | 配置模式详解 → 检查点系统 |
📖 完整文档导航
- 🚀 快速开始 - 安装、创建第一个爬虫
- 📚 教程系列 - 从基础到生产的完整教程
- 🎯 使用指南 - 按场景分类的深度指南
- 📖 核心概念 - 架构设计、生命周期、错误处理
- 🔧 API参考 - 完整的 API 文档
- 💡 实战案例 - 真实项目示例和最佳实践
- ❓ 常见问题 - FAQ 和故障排查
👉 浏览完整文档 →
💡 示例项目
查看 examples/ 目录:
- 基础示例 - 快速上手
- 高级示例 - 复杂场景
- 生产级示例 - 可直接用于生产
👉 查看所有示例 →
🤝 贡献
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 提交 Pull Request
📄 许可证
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。
⭐ 如果这个项目对你有帮助,请给我们一个 Star!
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
crawlo-1.6.5.tar.gz
(755.1 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file crawlo-1.6.5.tar.gz.
File metadata
- Download URL: crawlo-1.6.5.tar.gz
- Upload date:
- Size: 755.1 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.11
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
715a70d1d4c6e36a2ff02bde6357b41f493d8ff52061e46b80ad8a54ee4c6edc
|
|
| MD5 |
e5c350e16beeb4ad12401725279b5d79
|
|
| BLAKE2b-256 |
15ae4c79d3894099c72c7416e63a1f64ef35b99604c60c24b526c9948152c322
|
File details
Details for the file crawlo-1.6.5-py3-none-any.whl.
File metadata
- Download URL: crawlo-1.6.5-py3-none-any.whl
- Upload date:
- Size: 1.1 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.11
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
6f3453bd7fe901e709ec1e4c5686c53cee23bad2be4fb63125a9ff3c72eb6eef
|
|
| MD5 |
47cff5bceb73f006fb905668b7d55e51
|
|
| BLAKE2b-256 |
a034ed16dd22ca57fe1594b83c745e71d89027308beae2366d4f51a6fb0ea8a9
|