Skip to main content

A spider library of several data sources

Project description

DataSpider

CircleCI

让大家方便的使用各种数据

Install

pip install --upgrade --src="$HOME/.src" -e git+https://github.com/TsingJyujing/DataSpider.git#egg=TsingSpider

前言

数据获取最脏最累的活就是下载和清洗数据,其中下载各种各样的数据其实是很要命的事情。 这个爬虫系统所做的事情就是将肮脏的部分包裹起来,能通过代码获取干净的数据(至于怎么存储就不是在下关心的问题了)

说是爬虫系统,其实并不是传统意义上的爬虫,而是更加倾向于搜索和收集信息的一个接口。

希望大家能玩得开心。

有一些爬虫因为不可描述的原因我不会放文档,见谅。

财经爬虫

财新网爬虫

财新网爬虫与其说是爬虫,不如说是一个<搜索-下载>系统。 首先要获取所有的文章链接,请使用这个接口:

from tsing_spider.finance.caixin_news import query_urls
query_urls(from_date, to_date, query_words)

该函数的作用是搜索所有的含有query_words的文章超链接,其中: from_date和to_date是开始和结束时间,query_words是关键词。 时间格式:yyyy-mm-dd 使用样例:

query_urls('2016-09-01', '2016-09-30', '英镑')

社交网络爬虫

豆瓣爬虫(已经失效)

豆瓣爬虫使用了豆瓣的API,但是貌似获取的频次有限制,如果有豆瓣的API Key的希望能贡献一下。 目前仅仅支持书籍和电影。 API格式如下(以获取书籍的JSON结构体为例):

from tsing_spider.social_network import get_book_json
get_book_json(ID)

请直接查看文件的注释,函数命名的格式是:

get_[movie/book]_[json/info](id)

其它爬虫

DNC邮件泄露事件

这个文件可以下载2016年美国民主党邮件服务器泄露事件所泄露出的所有邮件,大约有两万多封,但是由于服务器比较特殊,需要翻墙才能下载。 其中包含get_mail_datasave_mail两个接口,一个仅仅读取为字符串,另一个仅仅保存到本地。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tsingspider-1.4.0.tar.gz (20.0 kB view details)

Uploaded Source

Built Distribution

tsingspider-1.4.0-py3-none-any.whl (37.1 kB view details)

Uploaded Python 3

File details

Details for the file tsingspider-1.4.0.tar.gz.

File metadata

  • Download URL: tsingspider-1.4.0.tar.gz
  • Upload date:
  • Size: 20.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.6.1 requests/2.24.0 setuptools/49.2.1 requests-toolbelt/0.9.1 tqdm/4.51.0 CPython/3.9.0

File hashes

Hashes for tsingspider-1.4.0.tar.gz
Algorithm Hash digest
SHA256 17309cd0e4be09097c6ed97a205bf8bd7856911a5fec4902218999fe456b5e61
MD5 238fbd7c62b2db7d5f904ff6d3b8248e
BLAKE2b-256 eae2bf13f3158b8cb78232ec80c281d4b2c49ba9da0c72b138844adc5f85d89e

See more details on using hashes here.

File details

Details for the file tsingspider-1.4.0-py3-none-any.whl.

File metadata

  • Download URL: tsingspider-1.4.0-py3-none-any.whl
  • Upload date:
  • Size: 37.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.6.1 requests/2.24.0 setuptools/49.2.1 requests-toolbelt/0.9.1 tqdm/4.51.0 CPython/3.9.0

File hashes

Hashes for tsingspider-1.4.0-py3-none-any.whl
Algorithm Hash digest
SHA256 8e846b9e8f2df37f480efea0221377033375f2e467b275ceb8827276d5dcfdd5
MD5 e7bbe3b62ab43381be88cf2b0ce7d955
BLAKE2b-256 581fe9c560c9de917110ef33c9dcf24dcdf121f989a79aa494ea81e141f7943a

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page