一个爬虫框架

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

Project description

Palp 文档

简介

Palp 是一个爬虫框架
整体使用方式和 scrapy 类似，但有以下特点

同一个项目可以存放多个不同的 spider，spider 拥有各自的 settings
无感分布式，不需要内网，只需要 redis，分布式与非分布式仅继承的类不同
自动 cookiejar 仅需要使用 keep_cookie 即可
自带 requests、httpx 两种请求器，并可自定义请求器（同时需要自定义解析器）
自动 join url

但有以下注意点：

默认不对 item、request 进行去重
去重一般为普通去重（默认），也有严格去重（需开启），严格去重时，会有锁、分布式锁

安装

pip install palp

创建项目与爬虫

创建项目和爬虫都会去判断文件是否存在
创建爬虫时，会自动移动到 spiders 文件夹下（查找为 3 个深度）

palp create -p xxx
palp create -s xxx 1

spider

目前提供 2 个 spider

LocalSpider：本地爬虫
DistributiveSpider：分布式爬虫

LocalSpider

本地爬虫，不支持分布式

创建

【命令】

palp create -s baidu 1

【结构】

"""
Create on 2022-12-12 16:21:10.159221
----------
@summary:
----------
@author:
"""
import palp


class BaiduSpider(palp.LocalSpider):
    spider_name = "baidu"   # 自定义的名字
    spider_domains = []  # 允许通过的域名，默认不限制
    spider_settings = None  # 字典形式或导入形式的设置

    def start_requests(self) -> None:
        """
        起始函数

        :return:
        """
        for i in range(10):
            yield palp.RequestGet("https://www.baidu.com")

    def parse(self, request, response) -> None:
        """
        解析函数

        :param request:
        :param response:
        :return:
        """
        print(response)


if __name__ == '__main__':
    BaiduSpider(thread_count=1).start()

DistributiveSpider

分布式爬虫，需要在设置中增加 redis 连接【命令】

palp create -s baidu 2

【结构】
和普通的一毛一样，只是继承类不同，无成本切换

"""
Create on 2022-12-12 16:21:10.159221
----------
@summary:
----------
@author:
"""
import palp


class BaiduSpider(palp.DistributiveSpider):
    spider_name = "baidu"   # 自定义的名字
    spider_domains = []  # 允许通过的域名，默认不限制
    spider_settings = None  # 字典形式或导入形式的设置

    def start_requests(self) -> None:
        """
        起始函数

        :return:
        """
        for i in range(10):
            yield palp.RequestGet("https://www.baidu.com")

    def parse(self, request, response) -> None:
        """
        解析函数

        :param request:
        :param response:
        :return:
        """
        print(response)


if __name__ == '__main__':
    BaiduSpider(thread_count=1).start()

数据库连接

通过 quickdb 模块，内置了 redis、mongo、mysql、kafka、postgresql 的连接，引用方式如下：

from palp import conn
conn.redis_conn # 接原始命令
conn.pg_conn    # 基于 sqlalchemy 魔改版本
conn.mysql_conn # 基于 sqlalchemy 魔改版本
conn.mongo_conn # 基于 mongo_conn 添加了部分方法，如 iter
conn.kafka_conn # kafka_conn.send 即可

注意：内置了 SpiderRecycleMiddleware 中间件，创建的连接会自动关闭

具体的使用可以看 quickdb 模块，这里强烈推荐 quickdb 针对 sqlalchemy 的数据库模板导出功能：

from quickdb import PostgreSQLAlchemyEngine

pg_conn = PostgreSQLAlchemyEngine(
    host=settings.PG_HOST,
    port=settings.PG_PORT,
    db=settings.PG_DB,
    user=settings.PG_USER,
    pwd=settings.PG_PWD,
    **settings.PG_CONFIG
)
pg_conn.reverse_table_model(path='./models.py', tables=['xxx'])  # path 可以自动生成

Middleware

SpiderMiddleware

这是项目中间件，可通过 spider 访问到对应的属性

spider_start：爬虫启动时干什么
spider_error：爬虫出错时干什么
spider_close：爬虫结束时干什么（必定会执行）

【结构】

import palp
from loguru import logger


class SpiderMiddleware(palp.SpiderMiddleware):
    def spider_start(self, spider) -> None:
        """
        spider 开始时的操作

        :param spider:
        :return:
        """

    def spider_error(self, spider, exception: Exception) -> None:
        """
        spider 出错时的操作

        :param spider:
        :param exception: 错误的详细信息
        :return:
        """
        logger.exception(exception)

    def spider_close(self, spider) -> None:
        """
        spider 结束的操作

        :param spider:
        :return:
        """

【添加到设置中】注意：这里的 1 代表顺序

SPIDER_MIDDLEWARE = {
    1: 'middlewares.middleware.SpiderMiddleware',
}

RequestMiddleware

请求中间件

request_in：请求创建时干什么
request_error：请求出错时干什么（默认重试 3 次 settings.REQUEST_RETRY_TIMES）
request_failed：请求失败时干什么（3 次后还失败，走这里）
request_close：请求结束时干什么（执行完毕后走这里）

注意：

request_failed 和 request_close 只有走其中一个
不要的请求可直接抛出 DropRequestException 错误
请求可以原地修改
request_error 可以判断错误进行修改，或者直接 return 新的请求，旧请求自动丢弃
request_close 可以判断响应是否符合预期，或者直接 return 新的请求，旧请求自动丢弃

提示：分布式爬虫时，设置开启以下两个选项，即可自动保存错误请求，并存放 redis，下次请求自动继续

REQUEST_FAILED_SAVE = True # 分布式时保存失败的请求（重试之后仍然失败的）
REQUEST_RETRY_FAILED = True # 分布式时启动重试失败请求

【结构】

import palp
from typing import Union
from palp import settings
from loguru import logger
from palp.network.request import Request

class RequestMiddleware(palp.RequestMiddleware):
    def request_in(self, spider, request) -> None:
        """
        请求进入时的操作

        :param spider:
        :param request:
        :return:
        """
        if settings.REQUEST_PROXIES_TUNNEL_URL:
            request.proxies = {
                'http': settings.REQUEST_PROXIES_TUNNEL_URL,
                'https': settings.REQUEST_PROXIES_TUNNEL_URL,
            }

    def request_error(self, spider, request, exception: Exception) -> Union[Request, None]:
        """
        请求出错时的操作

        :param spider:
        :param request: 该参数可返回（用于放弃当前请求，并发起新请求）
        :param exception: 错误的详细信息
        :return: [Request, None]
        """
        logger.exception(exception)

        return

    def request_failed(self, spider, request) -> None:
        """
        超过最大重试次数时的操作

        :param spider:
        :param request:
        :return:
        """
        logger.warning(f"失败的请求：{request}")

    def request_close(self, spider, request, response) -> Union[Request, None]:
        """
        请求结束时的操作

        :param spider:
        :param request: 该参数可返回（用于放弃当前请求，并发起新请求）
        :param response:
        :return: [Request, None]
        """
        return

【添加到设置中】注意：这里的 1 代表顺序

REQUEST_MIDDLEWARE = {
    1: "middlewares.middleware.RequestMiddleware",
}

添加代理

注意：这里基于默认的 ResponseDownloaderByRequests 请求器（requests）

class RequestMiddleware(palp.RequestMiddleware):
    def request_in(self, spider, request) -> None:
        """
        请求进入时的操作

        :param spider:
        :param request:
        :return:
        """
        
        # 给所有 url 都添加代理
        if settings.REQUEST_PROXIES_TUNNEL_URL:
            request.proxies = {
                'http': settings.REQUEST_PROXIES_TUNNEL_URL,
                'https': settings.REQUEST_PROXIES_TUNNEL_URL,
            }
           
        # 指定域名添加代理
        allow_domains = ['xxx']
        
        if settings.REQUEST_PROXIES_TUNNEL_URL:
            if request.domain in allow_domains:
                request.proxies = {
                    'http': settings.REQUEST_PROXIES_TUNNEL_URL,
                    'https': settings.REQUEST_PROXIES_TUNNEL_URL,
                }

Pipeline

处理 item，清洗、入库，含有以下方法

pipeline_in：数据进入时，一般用作清洗
pipeline_save：数据保存方法，一种保存写一个清晰明了
pipeline_error：数据保存出错时，默认重试次数 3 ，可通过 settings.PIPELINE_RETRY_TIMES 设置
pipeline_failed：数据保存出错超过最大次数
pipeline_close：无数据时，整个 pipeline 结束时运行！！！

注意：

数据都是原地修改的，不需要传递
默认启动的数据处理线程是 5，可通过 settings.ITEM_THREADS 调整
默认是单条传递，有多条传递需求的可通过 PIPELINE_ITEM_BUFFER 调整，这样传递 item 的就是列表
不需要的 item 可以通过 DropItemException 进行丢弃，但如果是多条直接在 item 列表移除就行，丢弃的话整个都会被丢掉

【结构】

import palp
from loguru import logger


class Pipeline(palp.Pipeline):
    def pipeline_in(self, spider, item) -> None:
        """
        入库之前的操作，一般是清洗

        :param spider:
        :param item:
        :return:
        """

    def pipeline_save(self, spider, item) -> None:
        """
        入库

        :param spider:
        :param item: 启用 item_buffer 将会是 List[item] 反之为 item
        :return:
        """
        logger.info(item)

    def pipeline_error(self, spider, item, exception: Exception) -> None:
        """
        入库出错时的操作

        :param spider:
        :param item: 启用 item buffer 时是 List[item]
        :param exception: 错误的详细信息
        :return:
        """
        logger.exception(exception)

    def pipeline_failed(self, spider, item) -> None:
        """
        超过最大重试次数时的操作

        :param spider:
        :param item: 启用 item buffer 时是 List[item]
        :return:
        """
        logger.warning(f"失败的 item：{item}")

    def pipeline_close(self, spider) -> None:
        """
        spider 结束时的操作

        :param spider:
        :return:
        """

【添加到设置中】注意：这里的 1 代表顺序

PIPELINE = {
    1: "pipelines.pipeline.Pipeline",
}

Item

通过 yield item 将数据发送到 pipeline 进行保存
Item 提供了两种

Item
StrictItem

Item

懒人 item 不需要定义字段，但是最好有多个就写不同的名字做区分
【创建】

import palp


class Item(palp.Item):
    """
        通用、懒人 item
    """

【使用】

yield Item(**{'xxx':'yyy'})

StrictItem

严格 item，需要定义哪些字段被允许通过

import palp

class StrictItem(palp.StrictItem):
    """
        严格 item
    """
    # 此处需要定义数据库字段
    # name = palp.Field()

【使用】

yield StrictItem(**{'xxx':'yyy'})

Request

提供了以下方法

RequestGet
RequestPost
RequestDelete
RequestOptions
RequestHead
RequestPatch

除了 requests、httpx 参数常用外，还可以通过 command 指定其它参数，方便自定义请求器时使用

框架的参数如下

downloader：局部下载器（不需要实例化）
downloader_parser：局部下载解析器（不需要实例化）
filter_repeat：是否过滤请求（默认不过滤）
keep_session：是否保持 session 自动 cookie，tls 连接
keep_cookie：自动 cookieJar
new_session：创建新的 session
callback：回调函数（必须有）
cookie_jar：cookieJar（用户不需要手动操作，但是可以通过该参数获取值）
priority：使用优先级队列时的优先级（默认就是优先级队列，默认优先级 settings.DEFAULT_QUEUE_PRIORITY）
command：自定义请求器时的传参字典

注意：

请求过滤默认是不开启的，需要开启 settings.FILTER_REQUEST（普通过滤）
在开启普通过滤的情况下，可以选择开启 settings.STRICT_FILTER（严格过滤）加锁，严重影响性能，不推荐
keep_session 虽然可以提高部分效率，但不建议使用，因为既然是爬虫多线程，隧道代理，但是你只有一个连接，很容易就判断出来
keep_session 时，检测的话，很容易出现断连，那所有爬虫歇菜，那就需要 new_session=True 重新创建
keep_cookie 推荐，类似 scrapy 手动使用 cookiejar，这里只要一直 keep_cookie=True 就行
请求队列默认是优先级队列，想修改通过 settings.REQUEST_QUEUE_MODE 修改

Response

请求响应提供了自带的以下方法

xpath
css
re
re_first
bs4（默认解析器：lxml）
urljoin：合并 url，可以手动使用（默认会自动处理）

【示例】

def parse(self, request, response) -> None:
    """
    解析函数

    :param request:
    :param response:
    :return:
    """
    response.bs4.find()
    response.re()
    response.re_first()
    response.xpath().extract()
    response.xpath().extract_first()

M、其它使用技巧

1、增量爬虫

增量无非就是判断，建议拿主键直接判断，下面有两个简单的例子

1.1 数据库判断

即通过自己保存的数据，进行判断列表页，已出现的 url 则为已抓取，那么后续则不需要抓取
【案例】

is_repeat = False   # 重复标志

for i in response.xpath('//ul[@class="list_con"]//li'):
    notice_url = response.urljoin(i.xpath('./a/@href').extract_first())
    
    # 判断是否重复
    if conn_company_notice.find_one({'notice_url': notice_url}):
        is_repeat = True
        break
    
    yield palp.RequestGet(url=notice_url, callback=self.parse_content)

# 翻页
if not is_repeat and page_now < page_total:
    pass

1.2 redis 判断

Palp 默认的分布式去重有：

redis set 去重
redis bloom 去重（默认）

对应的过滤器如下：

RedisSetFilter：对应 redis set 去重
RedisBloomFilter：对应 redis bloom 去重

使用时需开启以下设置，作用是开启去重并持久化

FILTER_REQUEST = True
PERSISTENCE_REQUEST_FILTER = True

【案例】以 redis bloom 去重为例
注意：虽然本身会做去重请求，但是之所以这样写，是为了避免再去翻页浪费时间

from palp.filter import RequestRedisBloomFilter

is_repeat = False   # 重复标志

for i in response.xpath('//ul[@class="list_con"]//li'):
    notice_url = response.urljoin(i.xpath('./a/@href').extract_first())
    
    req = palp.RequestGet(url=notice_url, callback=self.parse_content)

    # 判断是否重复
    if RequestRedisBloomFilter().is_repeat(req):
        break
    
    yield req

# 翻页
if not is_repeat and page_now < page_total:
    pass

2、快速二次请求

基于上一次请求的基础上进行二次请求
有两种方法：

原地修改
request 的 to_dict() 方法获取字典后修改

2.1、原地修改

def parse(self, request, response) -> None:
    request.xxx = xxx   # 修改

    yield request

2.2、to_dict()

request_dict = request.to_dict()
request_dict[xxx] = xxx # 修改

yield palp.Request(**request_dict)

3、个性化爬虫

比如批次爬虫，根据 redis 获取任务，其实很简单的（不内置批次爬取爬虫）

关于表

可以设置多种状态：已抓取，待抓取，队列中，等等
大概流程如下：

不论你什么需求是，只要在 start_requests 函数中，设置获取方法
随后设置为队列中状态
在 pipeline 中设置修改已爬取状态

关于 redis

可以设置最简单的 list、或者不重复的 set 或者优先级的 zset
只要在 start_requests 函数中直接执行对应的 pop 方法不就行了

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

Release history Release notifications | RSS feed

0.0.199

Oct 20, 2023

0.0.198

May 16, 2023

0.0.197

May 10, 2023

0.0.196

May 6, 2023

0.0.195

Mar 24, 2023

0.0.194

Mar 24, 2023

0.0.193

Mar 24, 2023

0.0.192

Mar 13, 2023

0.0.191

Mar 13, 2023

0.0.190

Mar 9, 2023

0.0.189

Mar 9, 2023

0.0.188

Feb 14, 2023

0.0.187

Feb 10, 2023

0.0.186

Feb 9, 2023

0.0.185

Feb 9, 2023

0.0.184

Feb 9, 2023

0.0.183

Feb 7, 2023

0.0.182

Feb 7, 2023

0.0.181

Feb 3, 2023

0.0.180

Jan 18, 2023

0.0.179

Jan 17, 2023

0.0.178

Jan 13, 2023

0.0.177

Jan 12, 2023

0.0.176

Jan 12, 2023

0.0.175

Jan 6, 2023

0.0.174

Jan 6, 2023

0.0.173

Jan 6, 2023

0.0.172

Jan 5, 2023

0.0.171

Jan 4, 2023

0.0.170

Jan 4, 2023

0.0.169

Jan 3, 2023

0.0.168

Jan 3, 2023

0.0.167

Jan 3, 2023

0.0.166

Jan 3, 2023

0.0.165

Jan 3, 2023

0.0.164

Jan 3, 2023

0.0.163

Jan 3, 2023

0.0.162

Jan 3, 2023

0.0.161

Jan 3, 2023

0.0.160

Jan 3, 2023

0.0.159

Jan 1, 2023

0.0.158

Dec 31, 2022

0.0.157

Dec 31, 2022

0.0.156

Dec 31, 2022

0.0.155

Dec 31, 2022

0.0.154

Dec 31, 2022

0.0.153

Dec 31, 2022

0.0.152

Dec 31, 2022

0.0.151

Dec 31, 2022

0.0.150

Dec 30, 2022

0.0.149

Dec 30, 2022

0.0.148

Dec 30, 2022

0.0.147

Dec 30, 2022

0.0.146

Dec 30, 2022

0.0.145

Dec 30, 2022

0.0.144

Dec 30, 2022

0.0.143

Dec 30, 2022

0.0.142

Dec 29, 2022

0.0.141

Dec 29, 2022

0.0.140

Dec 29, 2022

0.0.139

Dec 29, 2022

0.0.138

Dec 29, 2022

0.0.137

Dec 28, 2022

0.0.136

Dec 27, 2022

0.0.135

Dec 27, 2022

0.0.134

Dec 27, 2022

0.0.133

Dec 27, 2022

0.0.132

Dec 27, 2022

0.0.131

Dec 23, 2022

0.0.130

Dec 23, 2022

0.0.129

Dec 23, 2022

0.0.128

Dec 22, 2022

0.0.127

Dec 21, 2022

0.0.126

Dec 21, 2022

0.0.125

Dec 21, 2022

0.0.124

Dec 21, 2022

0.0.123

Dec 21, 2022

0.0.122

Dec 21, 2022

0.0.121

Dec 21, 2022

0.0.120

Dec 20, 2022

0.0.119

Dec 20, 2022

0.0.118

Dec 20, 2022

0.0.117

Dec 20, 2022

0.0.116

Dec 20, 2022

0.0.115

Dec 20, 2022

0.0.114

Dec 19, 2022

0.0.113

Dec 19, 2022

0.0.112

Dec 19, 2022

0.0.111

Dec 16, 2022

0.0.110

Dec 15, 2022

0.0.109

Dec 15, 2022

0.0.108

Dec 15, 2022

0.0.107

Dec 15, 2022

0.0.106

Dec 15, 2022

0.0.105

Dec 15, 2022

0.0.104

Dec 15, 2022

0.0.103

Dec 15, 2022

0.0.102

Dec 14, 2022

0.0.101

Dec 14, 2022

0.0.100

Dec 14, 2022

0.0.99

Dec 14, 2022

0.0.98

Dec 14, 2022

This version

0.0.97

Dec 13, 2022

0.0.96

Dec 13, 2022

0.0.95

Dec 13, 2022

0.0.94

Dec 13, 2022

0.0.93

Dec 13, 2022

0.0.92

Dec 13, 2022

0.0.91

Dec 13, 2022

0.0.90

Dec 13, 2022

0.0.89

Dec 12, 2022

0.0.88

Dec 12, 2022

0.0.87

Dec 12, 2022

0.0.86

Dec 12, 2022

0.0.85

Dec 12, 2022

0.0.84

Dec 12, 2022

0.0.83

Dec 12, 2022

0.0.82

Dec 1, 2022

0.0.81

Nov 29, 2022

0.0.80

Nov 14, 2022

0.0.79

Nov 14, 2022

0.0.78

Nov 14, 2022

0.0.77

Nov 14, 2022

0.0.76

Nov 14, 2022

0.0.75

Nov 14, 2022

0.0.74

Nov 14, 2022

0.0.73

Nov 14, 2022

0.0.72

Nov 14, 2022

0.0.71

Nov 14, 2022

0.0.70

Nov 11, 2022

0.0.69

Nov 11, 2022

0.0.68

Nov 11, 2022

0.0.67

Nov 11, 2022

0.0.66

Nov 11, 2022

0.0.65

Nov 11, 2022

0.0.64

Nov 11, 2022

0.0.63

Nov 11, 2022

0.0.62

Nov 11, 2022

0.0.61

Nov 11, 2022

0.0.60

Nov 11, 2022

0.0.59

Nov 10, 2022

0.0.58

Nov 10, 2022

0.0.57

Nov 10, 2022

0.0.56

Nov 10, 2022

0.0.55

Nov 10, 2022

0.0.54

Nov 10, 2022

0.0.53

Nov 10, 2022

0.0.52

Nov 10, 2022

0.0.51

Nov 10, 2022

0.0.50

Nov 10, 2022

0.0.49

Nov 10, 2022

0.0.48

Nov 10, 2022

0.0.47

Nov 10, 2022

0.0.46

Nov 10, 2022

0.0.45

Nov 10, 2022

0.0.44

Nov 10, 2022

0.0.43

Nov 10, 2022

0.0.42

Nov 10, 2022

0.0.41

Nov 9, 2022

0.0.40

Nov 9, 2022

0.0.39

Nov 9, 2022

0.0.38

Nov 9, 2022

0.0.37

Nov 9, 2022

0.0.36

Nov 9, 2022

0.0.35

Nov 9, 2022

0.0.34

Nov 9, 2022

0.0.33

Nov 9, 2022

0.0.32

Nov 9, 2022

0.0.31

Nov 9, 2022

0.0.30

Nov 9, 2022

0.0.29

Nov 9, 2022

0.0.28

Nov 8, 2022

0.0.27

Nov 8, 2022

0.0.26

Nov 8, 2022

0.0.25

Nov 8, 2022

0.0.24

Nov 8, 2022

0.0.23

Nov 8, 2022

0.0.22

Nov 8, 2022

0.0.21

Nov 8, 2022

0.0.20

Nov 8, 2022

0.0.19

Nov 8, 2022

0.0.18

Nov 8, 2022

0.0.17

Nov 7, 2022

0.0.16

Nov 7, 2022

0.0.15

Nov 7, 2022

0.0.14

Nov 6, 2022

0.0.13

Nov 6, 2022

0.0.12

Nov 6, 2022

0.0.11

Nov 6, 2022

0.0.10

Nov 6, 2022

0.0.9

Nov 6, 2022

0.0.8

Nov 4, 2022

0.0.7

Nov 4, 2022

0.0.6

Nov 4, 2022

0.0.5

Nov 4, 2022

0.0.4

Nov 4, 2022

0.0.3

Nov 4, 2022

0.0.2

Nov 4, 2022

0.0.1

Nov 3, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

palp-0.0.97.tar.gz (53.9 kB view hashes)

Uploaded Dec 13, 2022 Source

Hashes for palp-0.0.97.tar.gz

Hashes for palp-0.0.97.tar.gz
Algorithm	Hash digest
SHA256	`432a89b5e5c08e38d8de2b323158a1f994083bc41b0ec94e80b66776969c095d`
MD5	`c4541085a90d39d6da5471f367709f76`
BLAKE2b-256	`ede62054b9fdcd8464c596d6067abf39bbb5adb1db692af9d897a83b1ae567f9`

palp 0.0.97

Navigation

Verified details

Maintainers

Unverified details

Project links

GitHub Statistics

Meta

Project description

Palp 文档

简介

安装

创建项目与爬虫

spider

LocalSpider

创建

DistributiveSpider

数据库连接

Middleware

SpiderMiddleware

RequestMiddleware

添加代理

Pipeline

Item

Item

StrictItem

Request

Response

M、其它使用技巧

1、增量爬虫

1.1 数据库判断

1.2 redis 判断

2、快速二次请求

2.1、原地修改

2.2、to_dict()

3、个性化爬虫

关于表

关于 redis

Project details

Verified details

Maintainers

Unverified details

Project links

GitHub Statistics

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution