Skip to main content

Núcleo compartilhado entre o backend do escritório de apoio do LabDados e o SDK Python labdados — lógica que precisa ficar idêntica nos dois lados (análise de viabilidade, regras de veredito, template do relatório).

Project description

labdados-core

Núcleo Python compartilhado entre o backend do escritório de apoio do LabDados (escritorio-servicos) e o SDK Python (labdados-sdk).

A regra: tudo que precisa ficar byte-equivalente entre os dois lados (prompts, formatadores de saída, schemas, regras de domínio) vem pra cá. Tudo que é específico de um (cliente HTTP do SDK, worker de fila do backend, app FastAPI) não vem.

O que mora aqui

Subpacote O que faz Extras necessários
contracts Pydantic models compartilhados (FileMetadata, ProcessRequest/Response, JobStatus, ViabilityForm/Results). (nenhum — pydantic é dep base)
viabilidade Análise de viabilidade (Datajud + juscraper) + render do relatório PDF/MD via Quarto. (nenhum)
estruturacao Pipeline LLM via DataFrameIt, readers de .txt/.md/.docx/.csv/.xlsx, prompts canônicos. [estruturacao]
ocr Pipeline OCR com 2 engines (PyMuPDF+Tesseract / PaddleOCR), formatters (join_pages, build_pages_zip), descoberta automática do binário Tesseract. [ocr-cpu] ou [ocr-gpu]
transcricao Formatadores TXT/SRT/VTT compartilhados, helpers de timestamp e Segment TypedDict. (nenhum — engine fica nos consumidores)

Instalação

Requer Python ≥ 3.11.

pip install labdados-core                       # base (contracts + viabilidade)
pip install labdados-core[estruturacao]         # + DataFrameIt + openai + openpyxl
pip install labdados-core[ocr-cpu]              # + PyMuPDF + pytesseract + Pillow
pip install labdados-core[ocr-gpu]              # + PaddleOCR (GPU)
pip install labdados-core[all]                  # alias para [estruturacao]

Para gerar o PDF do relatório de viabilidade, instale também o binário do Quarto no sistema (com Typst, incluído nas builds oficiais ≥ 1.4). Sem o Quarto, render_report() devolve apenas o markdown.

Uso

Análise de viabilidade

from labdados_core.viabilidade import analyze_form, render_report

results = analyze_form({
    "listagem": "datajud",
    "tribunais_selecionados": ["tjsp", "tjrj"],
    "filtro_classes_cnj": "7",
    "recorte_inicio": "2020-01-01",
    "recorte_fim": "2024-12-31",
})

print(results["verdict"])           # "viable" / "caveats" / "unviable"
print(results["total_aproximado"])

report = render_report(
    request_id="abc-123",
    form={...},
    results=results,
    request_meta={"researcher_name": "Fulano", "institution": "FGV", "email": "..."},
)
if report:
    pdf_bytes, md_bytes = report

Estruturação com LLM

from labdados_core.estruturacao import LlmConfig, estruturar
from pydantic import BaseModel

class Decisao(BaseModel):
    procedente: bool
    valor_causa: float | None

config = LlmConfig(
    provider="openai",
    model="gpt-4o-mini",
    api_key="sk-...",
)

results = estruturar(
    ["A demanda foi julgada procedente, com valor de R$ 5.000,00."],
    schema=Decisao,            # ou um JSON Schema dict — converte automaticamente
    system_prompt="Você extrai decisões judiciais.",
    llm_config=config,
)
print(results)  # [{"procedente": True, "valor_causa": 5000.0, "_doc_id": "doc_1"}]

LlmConfig.provider aceita "openai", "azure_openai" ou "openai_compat" (cobre vLLM, Ollama, LM Studio via base_url).

OCR

from labdados_core.ocr import extract, join_pages

pages = extract(
    "documento.pdf",
    modelo="pymupdf-tesseract",     # ou "paddleocr" (precisa [ocr-gpu])
    languages="por+eng",
    dpi=200,
    deskew=True,
)
print(join_pages(pages, output_format="md"))

Formatadores de transcrição

from labdados_core.transcricao import format_segments

segments = [
    {"start": 0.0, "end": 2.5, "text": "Olá."},
    {"start": 2.5, "end": 5.0, "text": "Tudo bem?", "speaker": "SPEAKER_00"},
]
print(format_segments(segments, output_format="srt", with_speaker=True))

(O engine de transcrição em si — faster-whisper, WhisperX, pyannote — não mora aqui; cada consumidor instancia o seu.)

Por que existe

Antes deste pacote, prompts, formatadores e schemas viviam duplicados no backend (escritorio-servicos) e no SDK (labdados-sdk). Bug em um → bug eventual no outro. Com o core, ambos importam do mesmo lugar e ficam forçadamente em sintonia. A versão fica pinada nos dois consumidores via >=0.x,<0.(x+1).

Versionamento

SemVer com pin estrito de minor enquanto não atinge 1.0:

  • patch (0.x.y): bug fix sem mudança de assinatura.
  • minor (0.x.0): nova função / argumento opcional. Backwards-compat.
  • major (x.0.0): mudança no shape de retorno ou no contrato. Coordenar bump nos dois consumidores.

Ver CHANGELOG.md.

Licença

MIT

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

labdados_core-0.9.1.tar.gz (47.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

labdados_core-0.9.1-py3-none-any.whl (42.0 kB view details)

Uploaded Python 3

File details

Details for the file labdados_core-0.9.1.tar.gz.

File metadata

  • Download URL: labdados_core-0.9.1.tar.gz
  • Upload date:
  • Size: 47.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for labdados_core-0.9.1.tar.gz
Algorithm Hash digest
SHA256 51957c6eed44b9c4895cb830f68a1ca83fee624c5548f612b08dbd77223b1f86
MD5 a652f1d45a96103944d872df93d85b67
BLAKE2b-256 199a792dd5d281fc9b039272560c0131da79b19dce1910778aa72853817b9b80

See more details on using hashes here.

Provenance

The following attestation bundles were made for labdados_core-0.9.1.tar.gz:

Publisher: release.yml on lab-dados/labdados-core

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file labdados_core-0.9.1-py3-none-any.whl.

File metadata

  • Download URL: labdados_core-0.9.1-py3-none-any.whl
  • Upload date:
  • Size: 42.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for labdados_core-0.9.1-py3-none-any.whl
Algorithm Hash digest
SHA256 dbb604bfe192ef3fc6876bf1e43d8a825b8a9ae3e1bd4dee370e8e1933f1a027
MD5 5ac1b3b148ac995a8b6ec4df760f06ef
BLAKE2b-256 8dfeee55e9447f26b5c0de067cee992f15be3dfb2d214d186367760c46aa4023

See more details on using hashes here.

Provenance

The following attestation bundles were made for labdados_core-0.9.1-py3-none-any.whl:

Publisher: release.yml on lab-dados/labdados-core

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page