Skip to main content

一个简单快速的异步爬虫框架

Project description

HSSP 爬虫框架

一个基于python asyncio开发的爬虫框架

作者

特性

  • 使用scrapy框架的选择器parsel作为内置网页选择器
  • 使用python async异步爬取
  • 基于tenacity的自动异常重试
  • 基于fake-useragent的可选随机UA
  • 支持爬取结束自动导出至json、xml、csv、xls文件
  • 内置pyppeteer框架支持动态爬取
  • 支持以Item方式爬取

安装

使用 pip 安装 hssp

  pip install hssp

路线图

  • 完善使用pyppeteer对网页内容进行下载(实现部分功能,但存在问题)

  • 增加基于apscheduler进行定时爬取

  • 爬取结束自动导出至数据库

  • 完善使用文档

  • 增加更多示例

支持

如需支持,请发送电子邮件至 xhrtxh@gmail.com

开发测试

项目使用pdm管理依赖,需先安装pdm

    pip install pdm
    pdm sync

技术栈

  • 异步网络请求 httpx
  • 网页选择器 parsel
  • 日志打印 loguru
  • 异常重试 tenacity
  • 随机UA fake-useragent>
  • 动态爬取 pyppeteer
  • 数据处理 pandas、orjson、aiofiles

致谢

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

hssp-0.3.4.tar.gz (20.9 kB view hashes)

Uploaded Source

Built Distribution

hssp-0.3.4-py3-none-any.whl (23.1 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page