JobScraper, um pacote de raspagem de vagas na internet.
Project description
Projeto JobScraper - Centralize as Vagas Online
O JobScraper é usado puramente para recolher vagas de empregos nos domÃnios especificados abaixo, os centralizando em um arquivo .xlsx:
- Vagas.com
- Catho
- Glassdoor
Instalação
Use o gerenciador de pacotes pip para instalar o JobScraper:
pip install jb-scraper
Utilização
from job_scraper.scraping import JobScraper
# Coloque suas pesquisas em uma lista.
query_list = [
"query 1",
"query 2",
"query 3",
"query n",
]
# Crie o objeto com a classe JobScraper.
objeto = JobScraper(
domain="palavra-chave", # Consulte as palavras-chave
archive_name="sua-escolha",
query=query_list,
)
# Instancie o objeto com o sequinte método.
objeto.create_archive()
A execução deste código irá ativar o Selenium, recolher os dados das vagas e armazená-los em um arquivo .xlsx, que por ventura será criado no mesmo local onde está localizado o módulo de execução deste pacote.
Sobre o arquivo .xlsx
Como anteriormente dito, o arquivo será criado no diretório do módulo de execução, o nome deste será decidido no momento de criação do objeto. Em casos de arquivos com o mesmo nome, este será simplesmente atualizado.
Arquivos .xlsx possuem planilhas, estas são nomeadas de acordo com a palavra- chave utilizada no parâmetro "dominio", na criação do objeto. Em situações onde o usuário utilize o mesmo nome de arquivo em uma pesquisa nova, em adição a isso, o mesmo nome de planilha, todos os dados da planilha antiga serão apagados e novos dados serão postos no lugar, fique ciente disso.
Em casos de arquivos com o mesmo nome, porém planilhas com nomes diferentes, uma nova planilha será adicionada ao arquivo já existente.
Palavras-chave
-
"linkedin" --- DomÃnio Utilizado: LinkedIn --- Nome da Planilha: "linkedin"
-
"vagas.com" --- DomÃnio Utilizado: Vagas.com --- Nome da Planilha: "vagas.com"
-
"catho" --- DomÃnio Utilizado: Catho --- Nome da Planilha: "catho"
-
"glassdoor" --- DomÃnio Utilizado: Vagas.com --- Nome da Planilha: "glassdoor"
Sobre os domÃnios
Há alguns domÃnios que exigem login, ou informação adicional, como localidade das vagas e afins. Para tanto, é necessário exemplificar as peculiaridades de cada site envolvido no scraping.
O LinkedIn não irá fazer o scraping imediatamente, para acessar as vagas é preciso fazer o login com a sua conta, no site. Assim que tal ação for feita, o script continuará normalmente. A localidade usada será a configurada na sua conta do LinkedIn.
Vagas.com
O site Vagas.com terá a query concatenada com a localidade, "cidade estado" ou apenas "estado(por extenso)".
Catho
Usará os dados da query e em seguida, a localidade inserida no parâmetro, certifique-se de usar um local válido, "cidade estado(abreviado)" ou apenas "estado(sigla)".
Glassdoor
Usará os dados da query e em seguida, a localidade inserida no parâmetro, certifique-se de usar um local válido, "cidade estado" ou apenas "estado".
Desenvolvedor
Lucas Aquino de Oliveira --- Meu LinkedIn
Licença
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file jb_scraper-0.0.2.tar.gz.
File metadata
- Download URL: jb_scraper-0.0.2.tar.gz
- Upload date:
- Size: 5.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.6
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
d2581f14dc8378438753e509e24cc917bb0777b53652205489b1871f4f45ef71
|
|
| MD5 |
eadb78d12b806b9a5a14c2f57deb5d30
|
|
| BLAKE2b-256 |
91c17ef32d72ca8e893cc3496f060bfe46ffa5e185da4cbb2b90ea1b1d1393bf
|
File details
Details for the file jb_scraper-0.0.2-py3-none-any.whl.
File metadata
- Download URL: jb_scraper-0.0.2-py3-none-any.whl
- Upload date:
- Size: 7.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.6
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
eb15d2f7f89d66c3fbc333464c470dd2c1778f5aeb0e41ec463f036010af0f5e
|
|
| MD5 |
85164f69f3a3a1ed12d22162b5f16cf0
|
|
| BLAKE2b-256 |
37c7835e7ce38f3fed04a759b23bd9080c3809d7d5c72f97173c0a50667b0566
|