Skip to main content

Um pacote para extrair textos de imagens usando pytesseract

Project description

text_extractor-PT-BR

Um pacote Python para extrair textos de imagens usando pytesseract, com suporte para pré-processamento de imagens e extração de texto em português.


Funcionalidades

  • Extração de Texto: Extrai texto de imagens utilizando o Tesseract OCR.
  • Pré-processamento de Imagens: Conversão para escala de cinza e binarização para melhorar a precisão do OCR.
  • Suporte a Múltiplos Idiomas: O idioma padrão é o português, mas pode ser alterado para qualquer idioma suportado pelo Tesseract.

Instalação

Para instalar o pacote, use o pip:

pip install text_extractor-PT-BR

Dependências O pacote depende das seguintes bibliotecas:

pytesseract
Pillow
opencv-python

Além disso, o Tesseract OCR precisa estar instalado no sistema.

Instalação do Tesseract Windows: Baixe e instale o Tesseract aqui.

Ubuntu:

sudo apt update
sudo apt install tesseract-ocr

MacOS:

brew install tesseract

Como Usar

  1. Importando o Pacote Importe as funções extract_text e preprocess_image para utilizar no seu script:
from text_extractor import extract_text, preprocess_image
  1. Extraindo Texto de uma Imagem A função extract_text pode ser usada para extrair texto diretamente de uma imagem:
# Extrair texto diretamente de uma imagem
texto = extract_text('caminho/para/imagem.png', lang='por')
print(texto)
  1. Usando Pré-processamento Se a imagem precisar de processamento antes da extração, como conversão para escala de cinza e binarização, você pode utilizar o parâmetro preprocess:
# Extrair texto de uma imagem com pré-processamento
texto = extract_text('caminho/para/imagem.png', lang='por', preprocess=True)
print(texto)
  1. Exemplos de Uso Extração Simples
from text_extractor import extract_text

# Caminho para a imagem
image_path = 'imagens/documento.png'

# Extração de texto sem pré-processamento
texto = extract_text(image_path, lang='por')
print("Texto extraído:")
print(texto)
Extração com Pré-processamento
python
Copiar ³digo
from text_extractor import extract_text

# Caminho para a imagem
image_path = 'imagens/documento_ruidoso.png'

# Extração de texto com pré-processamento
texto = extract_text(image_path, lang='por', preprocess=True)
print("Texto extraído com pré-processamento:")
print(texto)

Pré-processamento Manual e Extração

from text_extractor import preprocess_image, extract_text

# Caminho para a imagem
image_path = 'imagens/documento.png'

# Caminho para salvar a imagem pré-processada
processed_image_path = 'imagens/documento_processado.png'

# Pré-processamento da imagem
preprocess_image(image_path, output_path=processed_image_path)

# Extração de texto a partir da imagem pré-processada
texto = extract_text(processed_image_path, lang='por')
print("Texto extraído após pré-processamento:")
print(texto)
  1. Parâmetros Disponíveis
  • extract_text(image_path, lang='eng', preprocess=False)
  • image_path: Caminho para a imagem de entrada.
  • lang: Idioma para o OCR (padrão: 'eng' para inglês, 'por' para português).
  • preprocess: Se True, pré-processa a imagem antes de extrair o texto (padrão: False).
  • preprocess_image(image_path, output_path=None)
  • image_path: Caminho para a imagem de entrada.
  • output_path: Caminho para salvar a imagem processada (opcional). Se não for fornecido, retorna a imagem processada em formato array.

Contribuindo

Sinta-se à vontade para abrir issues e enviar pull requests. Toda ajuda é bem-vinda!

Licença Este projeto é licenciado sob a licença MIT. Consulte o arquivo LICENSE para mais detalhes.

Project details


Release history Release notifications | RSS feed

This version

0.1

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

text_extractor-PT-BR-0.1.tar.gz (3.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

text_extractor_PT_BR-0.1-py3-none-any.whl (2.6 kB view details)

Uploaded Python 3

File details

Details for the file text_extractor-PT-BR-0.1.tar.gz.

File metadata

  • Download URL: text_extractor-PT-BR-0.1.tar.gz
  • Upload date:
  • Size: 3.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.11.4

File hashes

Hashes for text_extractor-PT-BR-0.1.tar.gz
Algorithm Hash digest
SHA256 4414257a5eefb0cd3a2262cd8221989e94cb06ce0be7da74aa38bab6e64a6571
MD5 faa23a2e352a0485aea374612f8cf650
BLAKE2b-256 74bc9bed8fe9e98a35fbfbf2c807b60d97516785e8df4759320077dfbec1295b

See more details on using hashes here.

File details

Details for the file text_extractor_PT_BR-0.1-py3-none-any.whl.

File metadata

File hashes

Hashes for text_extractor_PT_BR-0.1-py3-none-any.whl
Algorithm Hash digest
SHA256 951479ec0428b1d635225d35664831fa92b7bd7632253a5a65ad337449da155e
MD5 763f19186baa082e2b804bd714fc9362
BLAKE2b-256 5fb29c90fb0b47d241100999340d1c88cf1b1b58b35b2ac9d1ec543de1ed92fc

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page