Skip to main content

Um pacote para extrair informações de PDFs usando a API do Google Gemini.

Project description

Gemini PDF Extractor

Extrai informações estruturadas de arquivos PDF usando a API Gemini. Esta classe foi projetado para processar uma pasta de arquivos PDF usando prompts estruturados.

Instalação

pip install datagem_gilberto_sassi

Chave da Gemini API

Para usar este pacote, você precisa ter uma chave da Gemini API. Caso você não tenha, você pode obtê-la no Google AI Studio: aistudio.google.com/app/apikey.

Uso

Você pode extrair as informações de todos os pdfs e todos os prompts usando o método extract_all. O método retorna um dicionário, em que as chaves são prompts e os valores são DataFrame (do pandas).

from datagem_gilberto_sassi.pdf import DataExtractorPdf

extractor = DataExtractorPdf(
    api_key="SUA_CHAVE_API",
    path_files="caminho/para/seus_pdfs/",
    path_prompts="caminho/para/seus_prompts/"
)
resultados_dict = extractor.extract_all()
primeiro_dataframe = list(results_dict.values())[0]
print(primeiro_dataframe.head())

Você pode extrair as informações de alguns pdfs e alguns prompts usando o método extract_partial. O método retorna um dicionário, em que as chaves são prompts e os valores são DataFrame (do pandas).

from datagem_gilberto_sassi.pdf import DataExtractorPdf

extractor = DataExtractorPdf(
    api_key="SUA_CHAVE_API",
    path_files="caminho/para/seus_pdfs/",
    path_prompts="caminho/para/seus_prompts/"
)
resultados_dict = extractor.extract_partial(prompts = ['prompt1.txt', 'prompt2.txt'],file = ['file1.pdf', 'file2.pdf', 'file3.pdf'])
primeiro_dataframe = list(results_dict.values())[0]
print(primeiro_dataframe.head())

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

datagem-0.1.0.tar.gz (5.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

datagem-0.1.0-py3-none-any.whl (5.4 kB view details)

Uploaded Python 3

File details

Details for the file datagem-0.1.0.tar.gz.

File metadata

  • Download URL: datagem-0.1.0.tar.gz
  • Upload date:
  • Size: 5.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for datagem-0.1.0.tar.gz
Algorithm Hash digest
SHA256 5d58086ee418c433474d4f355f7666384ffece044dfdcb1fa0af67e984a8c4c8
MD5 f2c52e1bf3ec7768c0a275f4636c2f28
BLAKE2b-256 8562f2a6ce702b7f5cddd43a5b16ca921cb808bf5972ce131d06dccd2500649e

See more details on using hashes here.

File details

Details for the file datagem-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: datagem-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 5.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for datagem-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 e024802cd3d47a09f93dd4b5ab59ab6ab75864cf01fc301d33be4d9914fd385a
MD5 0aea1ad40cfe19b95c6ef3722e5b934e
BLAKE2b-256 5b5c7a73947d34aa4ec574e0b5537eed01bc0cac8d74924794cd412f6d95bd44

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page