Skip to main content

JobScraper, um pacote de raspagem de vagas na internet.

Project description

Projeto JobScraper - Centralize as Vagas Online

O JobScraper é usado puramente para recolher vagas de empregos nos domínios especificados abaixo, os centralizando em um arquivo .xlsx:

  • LinkedIn
  • Vagas.com
  • Catho
  • Glassdoor

Instalação

Use o gerenciador de pacotes pip para instalar o JobScraper:

pip install jb-scraper

Utilização

from job_scraper.scraping import JobScraper

# Coloque suas pesquisas em uma lista.
query_list = [
    "query 1",
    "query 2",
    "query 3",
    "query n",
]

# Crie o objeto com a classe JobScraper.
objeto = JobScraper(
    domain="palavra-chave",  # Consulte as palavras-chave
    archive_name="sua-escolha",
    query=query_list,
)

# Instancie o objeto com o sequinte método.
objeto.create_archive()

A execução deste código irá ativar o Selenium, recolher os dados das vagas e armazená-los em um arquivo .xlsx, que por ventura será criado no mesmo local onde está localizado o módulo de execução deste pacote.

Sobre o arquivo .xlsx

Como anteriormente dito, o arquivo será criado no diretório do módulo de execução, o nome deste será decidido no momento de criação do objeto. Em casos de arquivos com o mesmo nome, este será simplesmente atualizado.

Arquivos .xlsx possuem planilhas, estas são nomeadas de acordo com a palavra- chave utilizada no parâmetro "dominio", na criação do objeto. Em situações onde o usuário utilize o mesmo nome de arquivo em uma pesquisa nova, em adição a isso, o mesmo nome de planilha, todos os dados da planilha antiga serão apagados e novos dados serão postos no lugar, fique ciente disso.

Em casos de arquivos com o mesmo nome, porém planilhas com nomes diferentes, uma nova planilha será adicionada ao arquivo já existente.

Palavras-chave

  • "linkedin" --- Domínio Utilizado: LinkedIn --- Nome da Planilha: "linkedin"

  • "vagas.com" --- Domínio Utilizado: Vagas.com --- Nome da Planilha: "vagas.com"

  • "catho" --- Domínio Utilizado: Catho --- Nome da Planilha: "catho"

  • "glassdoor" --- Domínio Utilizado: Vagas.com --- Nome da Planilha: "glassdoor"

Sobre os domínios

Há alguns domínios que exigem login, ou informação adicional, como localidade das vagas e afins. Para tanto, é necessário exemplificar as peculiaridades de cada site envolvido no scraping.

LinkedIn

O LinkedIn não irá fazer o scraping imediatamente, para acessar as vagas é preciso fazer o login com a sua conta, no site. Assim que tal ação for feita, o script continuará normalmente. A localidade usada será a configurada na sua conta do LinkedIn.

Vagas.com

O site Vagas.com terá a query concatenada com a localidade, "cidade estado" ou apenas "estado(por extenso)".

Catho

Usará os dados da query e em seguida, a localidade inserida no parâmetro, certifique-se de usar um local válido, "cidade estado(abreviado)" ou apenas "estado(sigla)".

Glassdoor

Usará os dados da query e em seguida, a localidade inserida no parâmetro, certifique-se de usar um local válido, "cidade estado" ou apenas "estado".

Desenvolvedor

Lucas Aquino de Oliveira --- Meu LinkedIn

Licença

MIT

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

jb_scraper-0.0.4.tar.gz (5.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

jb_scraper-0.0.4-py3-none-any.whl (7.8 kB view details)

Uploaded Python 3

File details

Details for the file jb_scraper-0.0.4.tar.gz.

File metadata

  • Download URL: jb_scraper-0.0.4.tar.gz
  • Upload date:
  • Size: 5.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.6

File hashes

Hashes for jb_scraper-0.0.4.tar.gz
Algorithm Hash digest
SHA256 4c6814812c5d83ccb3ba10567190d4325fd7e9c3f452ac9c82c4b890520f9b9c
MD5 632835826b209a50050bbf2be8aef7f4
BLAKE2b-256 cbc5bd3a48d9d6d86c3e01381d51b42c347f0754dac88e4c7d2e05786a74dd6e

See more details on using hashes here.

File details

Details for the file jb_scraper-0.0.4-py3-none-any.whl.

File metadata

  • Download URL: jb_scraper-0.0.4-py3-none-any.whl
  • Upload date:
  • Size: 7.8 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.6

File hashes

Hashes for jb_scraper-0.0.4-py3-none-any.whl
Algorithm Hash digest
SHA256 cc7d3f5b62d7beafb4fea78c3979cdf17d9deeb4d9ecf81f340076340f31158a
MD5 b785afa79d8eb8deea5cfb3db83e4e9c
BLAKE2b-256 81ab6a35d02fec2de349f253b1b376dba6f2650d3eaa30146ae4e49ceba2db07

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page