this is THe Crawler Frame
Project description
快速说明
==========
简介
-------
BaseCrawler是一个轻量级,简单快捷上手操作基础爬虫框架,对于爬虫开发者,有很多实用的功能已经进行了优化与完善。
API说明文档请访问:http://www.basecrawler.com(已经上线)
具体使用请查看文档
安装说明
----------
PIP 安装
``pip install basecrawler``
使用说明——方式一
-------------------
首先我们引入BaseCrawler ::
from basecrawler.basecrawler import BaseCrawler
声明一个url地址, 例如: ::
url = http://www.baidu.com
实例化一个BaseCrawler对象 ::
basecrawler = BaseCrawler()
通过basecrawler请求目标url ::
response = basecrawler.static_downloader_get(url)
``response`` 是requests.Response对象,输出返回的结果内容 ::
print response.text
使用说明——方式二
------------------
如果我们采用面创建类的方式实现,可以直接继承 ``BaseCrawler`` ::
from basecrawler.basecrawler import BaseCrawler
class Crawler(BaseCrawler):
# 定义你自己的类方法
def foo():
pass
if __name__ == "__main__":
crawler = Crawler()
url = http://www.baidu.com
crawler.static_downloader_get(url)
支持反反爬
----------
目前完成基础反反爬处理, 根据反反爬策略可以选择不同的处理方式
支持动态网页爬取
---------------
支持处理JS加载数据处理, 同时完成对 Phantomjs 性能优化
支持代理
---------
支持 ``requests`` 及 ``phantomjs`` 代理
支持翻页处理
------------
* 实现web网站翻页处理, 按API格式设置,可自动完成翻页处理
支持自动获取免费代理
-------------------
* basecrawler内含获取代理IP方法,单次调用提供99个免费IP, 因验证ip会加大代理负载,IP不做验证处理,即时即用
==========
简介
-------
BaseCrawler是一个轻量级,简单快捷上手操作基础爬虫框架,对于爬虫开发者,有很多实用的功能已经进行了优化与完善。
API说明文档请访问:http://www.basecrawler.com(已经上线)
具体使用请查看文档
安装说明
----------
PIP 安装
``pip install basecrawler``
使用说明——方式一
-------------------
首先我们引入BaseCrawler ::
from basecrawler.basecrawler import BaseCrawler
声明一个url地址, 例如: ::
url = http://www.baidu.com
实例化一个BaseCrawler对象 ::
basecrawler = BaseCrawler()
通过basecrawler请求目标url ::
response = basecrawler.static_downloader_get(url)
``response`` 是requests.Response对象,输出返回的结果内容 ::
print response.text
使用说明——方式二
------------------
如果我们采用面创建类的方式实现,可以直接继承 ``BaseCrawler`` ::
from basecrawler.basecrawler import BaseCrawler
class Crawler(BaseCrawler):
# 定义你自己的类方法
def foo():
pass
if __name__ == "__main__":
crawler = Crawler()
url = http://www.baidu.com
crawler.static_downloader_get(url)
支持反反爬
----------
目前完成基础反反爬处理, 根据反反爬策略可以选择不同的处理方式
支持动态网页爬取
---------------
支持处理JS加载数据处理, 同时完成对 Phantomjs 性能优化
支持代理
---------
支持 ``requests`` 及 ``phantomjs`` 代理
支持翻页处理
------------
* 实现web网站翻页处理, 按API格式设置,可自动完成翻页处理
支持自动获取免费代理
-------------------
* basecrawler内含获取代理IP方法,单次调用提供99个免费IP, 因验证ip会加大代理负载,IP不做验证处理,即时即用
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distributions
No source distribution files available for this release.See tutorial on generating distribution archives.
Built Distribution
File details
Details for the file basecrawler-0.0.4-py2-none-any.whl
.
File metadata
- Download URL: basecrawler-0.0.4-py2-none-any.whl
- Upload date:
- Size: 10.3 kB
- Tags: Python 2
- Uploaded using Trusted Publishing? No
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 3efac8d8479728da1b392a8562c3c9ed0ddda90e4eae0cdbfa2f0302696be080 |
|
MD5 | 0cb3c70884ecce44926294588018e238 |
|
BLAKE2b-256 | f4268f9db51cd8a85e95aef3d9a0718f39e171ea944665f655929c0acc93aa5f |