Skip to main content

spider framework for winndoo.

Project description

爬虫端部署说明

一、概述

  • 爬虫框架分三个部分:调度中心、爬虫端、ADSL端。调度中心负责调度任务,爬虫端将任务发送给调度中心,调度中心存储在Redis里面;
  • ADSL端向调度中心取任务,然后负责下载;
  • 下载完成后将任务结果送到调度中心,调度中心存储在Redis里面;
  • 最后爬虫端从调度中心获取结果。

二、爬虫端

爬虫端的部署主要是环境的搭建,具体分两步:

1.Python环境

用pip安装Twisted 18.9.0,treq 18.6.0以及别的依赖包 手动安装MySQL-python包

2.爬虫端框架代码

将dmhe目录下面的crawler和lib目录里面的代码放到服务器上,并将dmhe路径加入Python的根路径里面 如果使用virtualenv,可以把client_demo/.spider/dmhe目录放到指定的virtualenv下面。比如有一个spider的虚环境,把dmhe目录拷贝到~/.spider/下面

三、接口说明

1.添加用户接口,添加用户、分配爬虫:/adduser/

demo: curl -d 'user_id=testXXX&client_num=5' 'http://118.89.92.123:11010/adduser/'

  • 参数:

  • 名称 | 含义

  • user_id | 用户名

  • client_num | 爬虫数量

  • 返回值:json

  • 名称 | 值

  • success | true or false

  • message | 失败信息

2 .修改用户占用爬虫数量接口:/moduser/

  • 参数:

  • 名称 | 含义

  • user_id | 用户名

  • client_num | 爬虫数量

  • 返回值:json

  • 名称 | 值

  • success | true or false

  • message | 失败信息

3 .查询用户信息接口:/userinfo/

  • 参数:

  • 名称 | 含义

  • user_id | 用户名

  • 返回值:json

  • 名称 | 值

  • success | true or false

  • message | 失败信息

4.连接服务器:/connect/

5.断开服务器:/disconnect/

6.发送任务:/task/

四、参数说明

1.Crawler对象参数

名称 含义 user_id 用户名 name 任务名称 priority 任务优先级 1:低优先级 2:中优先级 3:高优先级 db_params 数据库参数 user_agent user_agent

2.Request对象参数

名称 含义

  • task_id 任务id
  • url 待抓取URL
  • headers 请求头(dict)
  • data 请求数据,POST请求有效
  • redirect 是否支持跳转,默认支持(1)
  • verify 是否做https验证,默认支持(1)
  • is_head 是否发送HEAD请求,默认不发送(0)
  • return_header 是否返回响应头,默认不返回(0)
  • encoding 页面编码,默认不指定
  • timeout 超时时间,默认30s
  • retry_times 抓取失败重试,默认3
  • extract_type 解析类型

0:不解析 (获取纯页面)

  • response 返回的主要内容: {'body': '', 'code': , 'url_real': '', 'uid': '', 'success': , 'url': '', 'tid': ''}

1:解析百度PC排名结果

  • response 返回的主要内容: {'domain': '', 'title': '', 'url': '', 'url_bd': '', 'rank': , 'id': , 'alading': }

2:解析百度移动排名结果

  • response 返回的主要内容: {'domain': '', 'title': '', 'url': '', 'url_bd': '', 'rank': , 'id': , 'alading': }

3:解析百度真实URL --- 说明: 获取百度百度真实url时,需设置 is_head=1

4:解析百度PC URL是否收录

5:解析360PC排名结果

6:解析360移动排名结果

7:解析搜狗PC排名结果

8:解析搜狗移动排名结果

9:解析网页TDK

  • response 返回的主要内容: {'keywords': '', 'keywords': '', 'title': ''}
  • priority: int, 请求优先级(只有页面抓取支持):

2:中优先级 3:高优先级

  • kwargs 其他参数 字典 resp会返回这个参数,如果需要根据不同页面做不同的解析处理,可以使用这个字段

参考脚本阅读: 1. sample 文件下 insert_sample.py 2. 主目录下的 demo.py demo2.py

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

wd-crawler-client-6.0.1.tar.gz (30.9 kB view details)

Uploaded Source

Built Distribution

wd_crawler_client-6.0.1-py2.py3-none-any.whl (31.6 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file wd-crawler-client-6.0.1.tar.gz.

File metadata

  • Download URL: wd-crawler-client-6.0.1.tar.gz
  • Upload date:
  • Size: 30.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/42.0.2 requests-toolbelt/0.9.1 tqdm/4.44.1 CPython/3.7.6

File hashes

Hashes for wd-crawler-client-6.0.1.tar.gz
Algorithm Hash digest
SHA256 03c025d2ebc07f65dc123ac329ac3819001832feb9fb58c5ffcf5719e5a4aa08
MD5 6ed04733ce035707512b78fa79264a67
BLAKE2b-256 92d2d0f77fac7506fa55e4eaf1cc1c23659d11ca968f1aacbd717fd9b85fa9ac

See more details on using hashes here.

File details

Details for the file wd_crawler_client-6.0.1-py2.py3-none-any.whl.

File metadata

  • Download URL: wd_crawler_client-6.0.1-py2.py3-none-any.whl
  • Upload date:
  • Size: 31.6 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/42.0.2 requests-toolbelt/0.9.1 tqdm/4.44.1 CPython/3.7.6

File hashes

Hashes for wd_crawler_client-6.0.1-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 23018b190fe8b64399a26f093091a4291b511174357c4ed381cd9851ddf5d6df
MD5 ef482802b6bd3b9c84afe8969a47d066
BLAKE2b-256 178e9ed7316bdc3c8380041f9f2c939f951e069a329a4721b2c02dfbc3b1a72f

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page