common spider
Project description
shino
简介
shino 是一个免费开源的无代码化分布式爬虫框架,项目使用到 mysql、rabbitmq、redis 分别作为数据存储、消息队列和缓存。利用 grpc 技术作解耦各个模块,实现多机灵活部署。灵活组合的拓展需求。
功能块
- 种子生成器
- 下载器
- 解析器
- 清洗器
- 存储器
准备
备注:请确保你所使用的环境和 resouces
中的配置一致
安装使用
- 版本要求
python >= 3.7.0
- 获取项目代码
git clone https://github.com/hacksman/shino
- 安装依赖
pip instal requirements.txt
- 运行服务
# 开启服务 / debug 表示在 debug 配置环境下运行
sh start.sh debug
# 关闭服务
sh stop.sh
# 重启服务
sh restart.sh debug
- 原理说明
- 使用教程
TODO-LIST
- seed modifier 中间件模式改写
- run.sh 运行启动脚本
- 支持 start、restart、stop
- 命令行模式支持更加丰富的功能
- debug 模式
- seed 运行时间修改为 10s 执行一次
- debug 以上级别日志输出
- debug 模式
- install 脚本编写,实现 start/restart/stop 功能
- 各个地方的参数配置化
- 各模块功能及原理说明文档
- 是什么
- 原理
- 使用说明
- 使用说明
- 基本 demo
- 链式调用 demo
- 动态 url demo
- 解析 xpath demo
- 解析内嵌结构 demo
- 去掉冗余的日志
- 支持多 headers 切换形式
- 数据支持 update 操作
支持仅本地抓取- 完善统计功能
- 后端接口暴露
- 前端界面
License
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
shino-0.0.1.tar.gz
(33.1 kB
view hashes)
Built Distribution
shino-0.0.1-py2.py3-none-any.whl
(54.3 kB
view hashes)
Close
Hashes for shino-0.0.1-py2.py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | acb7763efbb9c6abe913c765e0a2b787af4a0161a0a2ccded060e676d1d4bf03 |
|
MD5 | 7ef67e8b83a423e29b13d1d3a10b174f |
|
BLAKE2b-256 | 06e0f9c9727e86308993a2fa938ab536d9ec7ca39d35bf5649ab8b73f768e22e |