spider_hole
Project description
cobweb
通用爬虫框架: 1.单机模式采集框架;2.分布式采集框架
5部分
starter -- 启动器
scheduler -- 调度器
distributor -- 分发器
storer -- 存储器
utils -- 工具函数
need deal
- 队列优化完善,使用queue的机制wait()同步各模块执行?
- 日志功能完善,单机模式调度和保存数据写入文件,结构化输出各任务日志
- 去重过滤(布隆过滤器等)
- 防丢失(单机模式可以通过日志文件进行检查种子)
- 自定义数据库的功能
- excel、mysql、redis数据完善
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
cobweb-launcher-0.1.20.tar.gz
(19.4 kB
view hashes)
Built Distribution
Close
Hashes for cobweb_launcher-0.1.20-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 6099780d719fc3ed80ccd087abcdaad549871a5214dbee2c65ba4a87c68b62b5 |
|
MD5 | a536882f4275ab1a1053d6b6b57e1582 |
|
BLAKE2b-256 | 0c442d2e1cb7a3ca418e3de56a897de8b89fc9ca4a500a9e1b6a17ce7d6cf0e3 |