Skip to main content

Um pacote para extrair informações de PDFs usando a API do Google Gemini.

Project description

Gemini PDF Extractor

Extrai informações estruturadas de arquivos PDF usando a API Gemini. Esta classe foi projetado para processar uma pasta de arquivos PDF usando prompts estruturados.

Instalação

pip install datagem

Chave da Gemini API

Para usar este pacote, você precisa ter uma chave da Gemini API. Caso você não tenha, você pode obtê-la no Google AI Studio: aistudio.google.com/app/apikey.

Uso

Você pode extrair as informações de todos os pdfs e todos os prompts usando o método extract_all. O método retorna um dicionário, em que as chaves são prompts e os valores são DataFrame (do pandas).

from datagem.pdf import DataExtractorPdf

extractor = DataExtractorPdf(
    api_key="SUA_CHAVE_API",
    path_files="caminho/para/seus_pdfs/",
    path_prompts="caminho/para/seus_prompts/"
)
resultados_dict = extractor.extract_all()
primeiro_dataframe = list(results_dict.values())[0]
print(primeiro_dataframe.head())

Você pode extrair as informações de alguns pdfs e alguns prompts usando o método extract_partial. O método retorna um dicionário, em que as chaves são prompts e os valores são DataFrame (do pandas).

from datagem.pdf import DataExtractorPdf

extractor = DataExtractorPdf(
    api_key="SUA_CHAVE_API",
    path_files="caminho/para/seus_pdfs/",
    path_prompts="caminho/para/seus_prompts/"
)
resultados_dict = extractor.extract_partial(prompts = ['prompt1.txt', 'prompt2.txt'],file = ['file1.pdf', 'file2.pdf', 'file3.pdf'])
primeiro_dataframe = list(results_dict.values())[0]
print(primeiro_dataframe.head())

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

datagem-0.1.1.tar.gz (5.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

datagem-0.1.1-py3-none-any.whl (5.4 kB view details)

Uploaded Python 3

File details

Details for the file datagem-0.1.1.tar.gz.

File metadata

  • Download URL: datagem-0.1.1.tar.gz
  • Upload date:
  • Size: 5.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for datagem-0.1.1.tar.gz
Algorithm Hash digest
SHA256 a54d161989803ec0bf2244df69e1daa34ccd40c3f9575acf6c56ca26f91783ee
MD5 1a2f65ed41fc08d9000901adb81d3071
BLAKE2b-256 56a05611f5f3b99aa8ad137d359af682cd5647a2a3c0294e3ca326299eb902c5

See more details on using hashes here.

File details

Details for the file datagem-0.1.1-py3-none-any.whl.

File metadata

  • Download URL: datagem-0.1.1-py3-none-any.whl
  • Upload date:
  • Size: 5.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for datagem-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 26229edb07fad4d5e297316b8fd44902a6dbf94626421d3d64f909dbe611ca01
MD5 ae7ecfa5706b43c312ff3582cf626f40
BLAKE2b-256 73bc86a69f4e878d82e58040bdf825c29da8fe08dec8f826e746df822406cf95

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page