A collection of Crawlers

These details have not been verified by PyPI

Project links

Homepage

Project description

crawlers

介绍

爬虫集合

可获取的项目

huggingface 上的模型文件
无反爬的网站

项目示例

1. hugging face

from pycrawlers import huggingface

urls = ['https://huggingface.co/albert-base-v2/tree/main',
        'https://huggingface.co/dmis-lab/biosyn-sapbert-bc5cdr-disease/tree/main']

paths = ['./model_1/albert-base-v2', './model_2/']
# 实例化类
# 使用默认 base_url (https://huggingface.co)
hg = huggingface()
# 自定义 base_uel
# hg = huggingface('https://huggingface.co')

# 1. 单个获取
# 1.1 使用默认保存位置（'./'）
hg.get_data(urls[0])

# 1.2 自定义保存地址
# hg.get_data(urls[0], paths[0])

# 2.批量获取
# 2.1 使用默认保存位置（'./'）
hg.get_batch_data(urls)

# 2.2 自定义保存地址
# hg.get_batch_data(urls, paths)

2. 通用抓取网页

可以抓取那些反爬不厉害的网站。注意：需安装 mongodb，数据将会存储在 mongodb里

2.1 简单使用

from pycrawlers import crawl_website

mongo_host = ''
mongo_port = '27017'
db_name = 'huxiu'
id_collection_name = 'huxiu_id'
collection_name = 'huxiu'
base_url = 'https://www.huxiu.com'


crawl_website(mongo_host, mongo_port, db_name, id_collection_name, collection_name, base_url)

2.2 进阶使用

可以使用url filter 过滤不想抓取的网页，比如视频、图片

from pycrawlers import crawl_website
from pycrawlers.websites.url_filters import filter_video_photo

mongo_host = ''
mongo_port = '27017'
db_name = 'huxiu'
id_collection_name = 'huxiu_id'
collection_name = 'huxiu'
base_url = 'https://www.huxiu.com'

"""
url_filter 也可以自己定义
"""
# photo_type = ['bmp', 'jpg', 'png', 'tif', 'gif', 'pcx', 'tga', 'exif', 'fpx', 'svg', 'psd',
#               'cdr', 'pcd', 'dxf', 'ufo', 'eps', 'ai', 'raw', 'WMF', 'webp', 'avif', 'apng']
# 
# video_type = ['wmv', 'asf', 'asx', 'rm', 'rmvb', 'mp4', '3gp', 'mov', 'm4v', 'avi',
#               'dat', 'mkv', 'flv', 'vob', 'mpeg']
# 
# 
# def filter_video_photo(url: str):
#     all_types = photo_type + video_type
#     for i in all_types:
#         if url.endswith('.' + i):
#             return False
#     return True
  
crawl_website(mongo_host, mongo_port, db_name, id_collection_name, collection_name, base_url, url_filter=filter_video_photo)

Project details

These details have not been verified by PyPI

Project links

Homepage

Release history Release notifications | RSS feed

1.1.6

Dec 11, 2023

1.1.5

Dec 8, 2023

1.1.4

Nov 17, 2023

1.1.3

Nov 17, 2023

1.1.2

Nov 1, 2023

1.1.1

Sep 27, 2023

1.1.0

Sep 27, 2023

This version

1.0.4

Jul 11, 2023

1.0.3

Jul 6, 2023

1.0.2

Jul 6, 2023

1.0.1

Jul 6, 2023

1.0.0

Jul 5, 2023

0.1.4

Jun 30, 2023

0.1.3

Jun 30, 2023

0.1.2

Jun 30, 2023

0.1.1

Jun 25, 2023

0.0.5

Feb 16, 2023

0.0.4

Sep 14, 2022

0.0.3

Sep 13, 2022

0.0.2

Aug 17, 2022

0.0.1

Aug 17, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pycrawlers-1.0.4.tar.gz (13.5 kB view hashes)

Uploaded Jul 11, 2023 Source

Hashes for pycrawlers-1.0.4.tar.gz

Hashes for pycrawlers-1.0.4.tar.gz
Algorithm	Hash digest
SHA256	`115d1a0184ce0ae1f6e623f1b6608644465abdfc1ed06c7e4e899feeac3209e1`
MD5	`f196480cfaf4a9672d1bfe22a6cc2a56`
BLAKE2b-256	`301af21c495f66cd60926dc996456d9e95d9f347b90b66e2089f66c5404c6bb5`