一个爬虫框架

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

Project description

Palp 文档

简介

Palp 是一个爬虫框架
整体使用方式和 scrapy 类似，但有以下特点

同一个项目可以存放多个不同的 spider，spider 拥有各自的 settings
无感分布式，不需要内网，只需要 redis，分布式与非分布式仅继承的类不同
自动 cookiejar 仅需要使用 keep_session 即可
请求具备 3 中队列（先进先出、后进先出、优先级队列）

但有以下注意点：

默认不对 item、request 进行去重
去重为有严格去重（需开启），严格去重时，会有锁、分布式锁

M、其它使用技巧

1、增量爬虫

1.1 数据库判断

即通过自己保存的数据，进行判断列表页，已出现的 url 则为已抓取，那么后续则不需要抓取
【案例】

is_repeat = False   # 重复标志

for i in response.xpath('//ul[@class="list_con"]//li'):
    notice_url = response.urljoin(i.xpath('./a/@href').extract_first())
    
    # 判断是否重复
    if conn_company_notice.find_one({'notice_url': notice_url}):
        is_repeat = True
        break
    
    yield palp.RequestGet(url=notice_url, callback=self.parse_content)

# 翻页
if not is_repeat and page_now < page_total:
    pass

1.2 redis 判断

Palp 默认的分布式去重有：

redis set 去重
redis bloom 去重（默认）

对应的过滤器如下：

RequestRedisFilter：对应 redis set 去重
RequestRedisBloomFilter：对应 redis bloom 去重

使用时需开启以下设置，作用是开启去重并持久化

REQUEST_FILTER = True
PERSISTENCE_REQUEST_FILTER = True

【案例】以 redis bloom 去重为例
注意：虽然本身会做去重请求，但是之所以这样写，是为了避免再去翻页浪费时间

from palp.filter import RequestRedisBloomFilter

is_repeat = False   # 重复标志

for i in response.xpath('//ul[@class="list_con"]//li'):
    notice_url = response.urljoin(i.xpath('./a/@href').extract_first())
    
    req = palp.RequestGet(url=notice_url, callback=self.parse_content)

    # 判断是否重复
    if RequestRedisBloomFilter().is_repeat(req):
        break
    
    yield req

# 翻页
if not is_repeat and page_now < page_total:
    pass

2、指定域名添加代理

request 有一个 add_proxy 方法，该方法有两个参数

proxies：代理，不给则使用默认
allow_domains：允许的域名列表

注意：使用了 allow_domains 则不在 allow_domains 内的将不会被加代理

【案例】

class RequestMiddleware(palp.RequestMiddleware):
    def request_in(self, spider, request) -> None:
        """
        请求进入时的操作

        :param spider:
        :param request:
        :return:
        """
        allow_domains = ['xxx']
        request.add_proxy(allow_domains=allow_domains)

3、快速二次请求

基于上一次请求的基础上进行二次请求
有两种方法：

原地修改
request 的 to_dict() 方法获取字典后修改

3.1、原地修改

def parse(self, request, response) -> None:
    request.xxx = xxx   # 修改

    yield request

3.2、to_dict()

request_dict = request.to_dict()
request_dict[xxx] = xxx # 修改

yield palp.Request(**request_dict)

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

Release history Release notifications | RSS feed

0.0.199

Oct 20, 2023

0.0.198

May 16, 2023

0.0.197

May 10, 2023

0.0.196

May 6, 2023

0.0.195

Mar 24, 2023

0.0.194

Mar 24, 2023

0.0.193

Mar 24, 2023

0.0.192

Mar 13, 2023

0.0.191

Mar 13, 2023

0.0.190

Mar 9, 2023

0.0.189

Mar 9, 2023

0.0.188

Feb 14, 2023

0.0.187

Feb 10, 2023

0.0.186

Feb 9, 2023

0.0.185

Feb 9, 2023

0.0.184

Feb 9, 2023

0.0.183

Feb 7, 2023

0.0.182

Feb 7, 2023

0.0.181

Feb 3, 2023

0.0.180

Jan 18, 2023

0.0.179

Jan 17, 2023

0.0.178

Jan 13, 2023

0.0.177

Jan 12, 2023

0.0.176

Jan 12, 2023

0.0.175

Jan 6, 2023

0.0.174

Jan 6, 2023

0.0.173

Jan 6, 2023

0.0.172

Jan 5, 2023

0.0.171

Jan 4, 2023

0.0.170

Jan 4, 2023

0.0.169

Jan 3, 2023

0.0.168

Jan 3, 2023

0.0.167

Jan 3, 2023

0.0.166

Jan 3, 2023

0.0.165

Jan 3, 2023

0.0.164

Jan 3, 2023

0.0.163

Jan 3, 2023

0.0.162

Jan 3, 2023

0.0.161

Jan 3, 2023

0.0.160

Jan 3, 2023

0.0.159

Jan 1, 2023

0.0.158

Dec 31, 2022

0.0.157

Dec 31, 2022

0.0.156

Dec 31, 2022

0.0.155

Dec 31, 2022

0.0.154

Dec 31, 2022

0.0.153

Dec 31, 2022

0.0.152

Dec 31, 2022

0.0.151

Dec 31, 2022

0.0.150

Dec 30, 2022

0.0.149

Dec 30, 2022

0.0.148

Dec 30, 2022

0.0.147

Dec 30, 2022

0.0.146

Dec 30, 2022

0.0.145

Dec 30, 2022

0.0.144

Dec 30, 2022

0.0.143

Dec 30, 2022

0.0.142

Dec 29, 2022

0.0.141

Dec 29, 2022

0.0.140

Dec 29, 2022

0.0.139

Dec 29, 2022

0.0.138

Dec 29, 2022

0.0.137

Dec 28, 2022

0.0.136

Dec 27, 2022

0.0.135

Dec 27, 2022

0.0.134

Dec 27, 2022

0.0.133

Dec 27, 2022

0.0.132

Dec 27, 2022

0.0.131

Dec 23, 2022

0.0.130

Dec 23, 2022

0.0.129

Dec 23, 2022

0.0.128

Dec 22, 2022

0.0.127

Dec 21, 2022

0.0.126

Dec 21, 2022

0.0.125

Dec 21, 2022

0.0.124

Dec 21, 2022

0.0.123

Dec 21, 2022

0.0.122

Dec 21, 2022

0.0.121

Dec 21, 2022

0.0.120

Dec 20, 2022

0.0.119

Dec 20, 2022

0.0.118

Dec 20, 2022

0.0.117

Dec 20, 2022

0.0.116

Dec 20, 2022

0.0.115

Dec 20, 2022

0.0.114

Dec 19, 2022

0.0.113

Dec 19, 2022

0.0.112

Dec 19, 2022

0.0.111

Dec 16, 2022

0.0.110

Dec 15, 2022

0.0.109

Dec 15, 2022

0.0.108

Dec 15, 2022

0.0.107

Dec 15, 2022

0.0.106

Dec 15, 2022

0.0.105

Dec 15, 2022

0.0.104

Dec 15, 2022

0.0.103

Dec 15, 2022

0.0.102

Dec 14, 2022

0.0.101

Dec 14, 2022

0.0.100

Dec 14, 2022

0.0.99

Dec 14, 2022

0.0.98

Dec 14, 2022

0.0.97

Dec 13, 2022

0.0.96

Dec 13, 2022

0.0.95

Dec 13, 2022

0.0.94

Dec 13, 2022

0.0.93

Dec 13, 2022

0.0.92

Dec 13, 2022

0.0.91

Dec 13, 2022

0.0.90

Dec 13, 2022

0.0.89

Dec 12, 2022

0.0.88

Dec 12, 2022

This version

0.0.87

Dec 12, 2022

0.0.86

Dec 12, 2022

0.0.85

Dec 12, 2022

0.0.84

Dec 12, 2022

0.0.83

Dec 12, 2022

0.0.82

Dec 1, 2022

0.0.81

Nov 29, 2022

0.0.80

Nov 14, 2022

0.0.79

Nov 14, 2022

0.0.78

Nov 14, 2022

0.0.77

Nov 14, 2022

0.0.76

Nov 14, 2022

0.0.75

Nov 14, 2022

0.0.74

Nov 14, 2022

0.0.73

Nov 14, 2022

0.0.72

Nov 14, 2022

0.0.71

Nov 14, 2022

0.0.70

Nov 11, 2022

0.0.69

Nov 11, 2022

0.0.68

Nov 11, 2022

0.0.67

Nov 11, 2022

0.0.66

Nov 11, 2022

0.0.65

Nov 11, 2022

0.0.64

Nov 11, 2022

0.0.63

Nov 11, 2022

0.0.62

Nov 11, 2022

0.0.61

Nov 11, 2022

0.0.60

Nov 11, 2022

0.0.59

Nov 10, 2022

0.0.58

Nov 10, 2022

0.0.57

Nov 10, 2022

0.0.56

Nov 10, 2022

0.0.55

Nov 10, 2022

0.0.54

Nov 10, 2022

0.0.53

Nov 10, 2022

0.0.52

Nov 10, 2022

0.0.51

Nov 10, 2022

0.0.50

Nov 10, 2022

0.0.49

Nov 10, 2022

0.0.48

Nov 10, 2022

0.0.47

Nov 10, 2022

0.0.46

Nov 10, 2022

0.0.45

Nov 10, 2022

0.0.44

Nov 10, 2022

0.0.43

Nov 10, 2022

0.0.42

Nov 10, 2022

0.0.41

Nov 9, 2022

0.0.40

Nov 9, 2022

0.0.39

Nov 9, 2022

0.0.38

Nov 9, 2022

0.0.37

Nov 9, 2022

0.0.36

Nov 9, 2022

0.0.35

Nov 9, 2022

0.0.34

Nov 9, 2022

0.0.33

Nov 9, 2022

0.0.32

Nov 9, 2022

0.0.31

Nov 9, 2022

0.0.30

Nov 9, 2022

0.0.29

Nov 9, 2022

0.0.28

Nov 8, 2022

0.0.27

Nov 8, 2022

0.0.26

Nov 8, 2022

0.0.25

Nov 8, 2022

0.0.24

Nov 8, 2022

0.0.23

Nov 8, 2022

0.0.22

Nov 8, 2022

0.0.21

Nov 8, 2022

0.0.20

Nov 8, 2022

0.0.19

Nov 8, 2022

0.0.18

Nov 8, 2022

0.0.17

Nov 7, 2022

0.0.16

Nov 7, 2022

0.0.15

Nov 7, 2022

0.0.14

Nov 6, 2022

0.0.13

Nov 6, 2022

0.0.12

Nov 6, 2022

0.0.11

Nov 6, 2022

0.0.10

Nov 6, 2022

0.0.9

Nov 6, 2022

0.0.8

Nov 4, 2022

0.0.7

Nov 4, 2022

0.0.6

Nov 4, 2022

0.0.5

Nov 4, 2022

0.0.4

Nov 4, 2022

0.0.3

Nov 4, 2022

0.0.2

Nov 4, 2022

0.0.1

Nov 3, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

palp-0.0.87.tar.gz (45.2 kB view hashes)

Uploaded Dec 12, 2022 Source

Hashes for palp-0.0.87.tar.gz

Hashes for palp-0.0.87.tar.gz
Algorithm	Hash digest
SHA256	`c65faf827b757817a94b03b494e23b16c4cc74fd8ba49ce91a845768e22c8b2e`
MD5	`f1997ecbf82d29addac2b13e7050438b`
BLAKE2b-256	`841f545cc06c31f7eca0ef2fb0c545301590fc1880c5b57b72c6eaf98dd83abf`