Ferramenta de scraping de categorias da OLX com suporte a notificação de novos anúncios pelo GMail
Project description
OLXCRAPPER
Introdução
Script em Python + Beautiful Soup que realiza consultas exaustivas em categorias da OLX em busca de anúncios novos, ao encontrar um novo anúncio nessa categoria, ele usa as credenciais de login do GMail fornecidas nas variáveis do script para enviar para o próprio usuário um Email com informações sobre o novo produto da categoria.
Requisitos
Esse script depende do Python e dos módulos: bs4, requests, lxml, argparse.
O usuário tem que usar uma conta do GMail, por enquanto é o unico servidor suportado.
Instalação e uso
pip install olxcrapper
olxcrapper -g seuemail@gmail.com -s senhadogmail -u https://sp.olx.com.br/celulares -t 60
Substitua os dados de login acima com suas credenciais do gmail e com o link da categoria desejada.
-
Quanto a conta do GMail, sugiro criar uma nova conta pra uso desse script para que sua caixa de entrada não seja floodada com emails do tipo, é importante que na conta do GMail utilizada esteja habilitada a opção de acesso de apps menos confiáveis.
-
Caso deseje mais segurança ao utilizar sua conta, habilite a opção de autenticação de dois fatores e crie uma senha exclusiva para o uso desse script, esse tipo de senha é gerada automaticamente pela conta da google e tem 16 caracteres, ex: "gzhupbrkrdbfhpiy", você pode gerar uma senha de app aqui: https://security.google.com/settings/security/apppasswords
-
Quanto ao link da categoria da olx desejada, para obter um link utilizável, acesse a categoria da olx desejada escolha seu estado e/ou cidade e copie o link do navegador pra substituir no comando exemplificado acima.
-
O script irá executar continuamente e irá atualizar a lista a cada -t segundos, sempre que encontrar um anúncio novo na categoria referida pelo usuário, o mesmo enviará um email para a caixa de entrada do GMail indicado, esse script só enviará email caso haja um anuncio novo, assim evitando floodar a caixa de entrada.
OBS: é importante inserir os dados de login corretamente, caso estejam incorretos, o script executará, mostrará a listagem de anúncios mas não conseguirá notificar por email. Também é interessante deixar o argumento -t com valor 60 pois a listagem da olx só atualiza a cada 1 minuto, valores menores que 60 segundos pode causar mau comportamento do script.
Autor
Yago Lima Lins
- Github: @yagolimalins
Contribua com o projeto
Contribuições, bugs e pedidos de novas funcionalidades são bem vindos! Sinta-se a vontade para conferir: issues page.
Apoie o autor
Considere fazer uma contribuição no patreon caso esse script seja útil pra você :)
https://www.patreon.com/yagolimalins
Licença
Copyright © 2020 Yago Lima Lins. This project is GNU licensed.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file olxcrapper-0.1.9.tar.gz
.
File metadata
- Download URL: olxcrapper-0.1.9.tar.gz
- Upload date:
- Size: 17.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.23.0 setuptools/47.3.1 requests-toolbelt/0.9.1 tqdm/4.46.1 CPython/3.8.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 2993d35db3f8d023b9a878e3a0850fa68367703dfb26ddbd2e3d306cca4b5ec6 |
|
MD5 | 97e823ece726555fb6c76beced8ee346 |
|
BLAKE2b-256 | 3d993fdb5b92065cc1c0a8a0a5338eb697a232986e6eb91f531718431fbd8bbc |
File details
Details for the file olxcrapper-0.1.9-py3-none-any.whl
.
File metadata
- Download URL: olxcrapper-0.1.9-py3-none-any.whl
- Upload date:
- Size: 17.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.23.0 setuptools/47.3.1 requests-toolbelt/0.9.1 tqdm/4.46.1 CPython/3.8.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | a3198c2d76fb941ed2ca6c3ebef74a601c65176f00d852e6c488520fdcd8ec0f |
|
MD5 | bbcb55ceabc3eedd45c059b438676e3d |
|
BLAKE2b-256 | c8db40715e90dcecca04a2738da64939421a467360e20eb238a9ea81638db2b4 |