Skip to main content

Navega pela API do Portal BNMP coletando dados

Project description

BNMP Scraper

Sumário
  1. Instalação
  2. Exemplo de uso
  3. Sobre o projeto

Instalação

Para esse programa funcionar você precisa ter o Python instalado no seu computador. Baixe o Python aqui.

Você pode instalar esse framework com o distribuidor de pacotes com pip, usando seguinte comando no seu terminal:

$ python -m pip install bnmp_scraper

Como obter cookie

Como o Portal BNMP requer que passemos por um captcha antes de acessar o site, para que esse programa funcione você precisa antes acessar o portal, passar pelo captcha e obter um cookie válido(e não expirado), seguindo as intruções abaixo:

  1. Acesse https://portalbnmp.cnj.jus.br/#/pesquisa-peca e passe pelo captcha

  2. Selecione um estado aleatório na aba "Pesquisar peças"

  3. Entre no modo desenvolvedor do seu navegador(tecla F12) e vá até a aba Network do modo desenvolvedor

  4. Com a aba Network aberta e o estado selecionado (como fizemos nas etapas anteriores), clique em pesquisar

  5. Uma requisição com nome começando com "filter?" deve aparecer na aba Network, clique nessa requisição

  6. Na aba Cabeçalho(ou "Headers") da requisição, encontre a opção "Cabeçalho da requisição"(ou "Request Headers")

  7. Dentro do "Cabeçalho da requisição" procure por um valor chamado "cookie", clique com o botão direito e copie esse valor

  8. Pronto, agora você pode usar esse cookie para instanciar nosso extrator como no exemplo de uso abaixo :).

Exemplo de uso

Criando extrator

from bnmp_scraper import BnmpScraper
extrator = BnmpScraper("seu-cookie-aqui")

Raspando Mandados

mandadosAcre = extrator.estado('AC')
mandadosAcre.baixar_mandados()
lista_mandados = mandadosAcre.data

Lendo mandados com o Pandas

import pandas as pd
df = pd.json_normalize(mandadosAcre.data)

Sobre o projeto

Motivação

Fomos motivados a fazer um trabalho de raspagem de dados do portal BNMP (Banco Nacional de Mandados de Prisão) por conta de uma série de matérias jornalísticas ligando esse portal a vazamentos de dados.

Na nossa análise, o site parece sim ter melhorado quanto a exposição dos seus dados, porém parece ter feito isso restringindo o acesso à informação

Por exemplo, apesar dos dados serem públicos, não é possível baixa-los completamente. O portal até disponibiliza uma opção para baixar os dados em CSV, mas o arquivo baixado tem um limite de 10.000 mandados (para estados com muitos mandados, isso é muito pouco) e mesmo os mandados baixados não trazem as informações completas.

Objetivo

Nosso programa navega diretamente na API do Portal BNMP para coletar os mandados em sua totalidade, disponibilizando-os em uma pasta de arquivos jsons para qualquer um que queira analisar-los.

Como funciona

Principais desafios

  1. O banco de dados do portal possui um limite para o número máximo de mandados retornadas por requisição (2000 mandados por requisição do tipo POST)
  2. O banco de dados do portal também limita o número máximo de páginas de mandados disponíveis para acesso por id (para requisições de 2000 mandados, o limite é de 5 páginas - o portal limita o acesso aos 10.000 primeiros mandados)

Melhores insights

  1. Conseguimos acessar mais dados diminuindo a escala com que procuramos para que, consequentemente, haja menos mandados por id. Nós buscamos por

    estado -> município -> órgão expedidor

  2. Conseguimos aumentar o limite de páginas de informações que podem ser alcançadas de 5 para 10 páginas alterando a ordenação dos elementos(fazendo requisições com a ordenação ascendente e pegando as primeiras 5 páginas e depois descendente pegando também as primeiras 5 páginas)

  3. Por fim, para órgãos expedidores com mais de 10 páginas de mandados nós desenvolvemos uma função que aproveita as mais diferentes formas de ordenação para, por força bruta, pegar o maior número de mandados possível daquele órgão.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

bnmp_scraper-1.0.0.tar.gz (13.1 kB view details)

Uploaded Source

File details

Details for the file bnmp_scraper-1.0.0.tar.gz.

File metadata

  • Download URL: bnmp_scraper-1.0.0.tar.gz
  • Upload date:
  • Size: 13.1 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.10.1

File hashes

Hashes for bnmp_scraper-1.0.0.tar.gz
Algorithm Hash digest
SHA256 a7b8d26baa062f28a6c3272f5c26ad47c479c21294f6d3613485196725efb886
MD5 b6e32d9c32b84da84b13682384b9e26b
BLAKE2b-256 d1f91d5a0e339042eb19e3418b847a771455e4f65a7cc325387d338ee5893b65

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page