Um pacote para extrair textos de imagens usando pytesseract
Project description
text_extractor-PT-BR
Um pacote Python para extrair textos de imagens usando pytesseract, com suporte para pré-processamento de imagens e extração de texto em português.
Funcionalidades
- Extração de Texto: Extrai texto de imagens utilizando o Tesseract OCR.
- Pré-processamento de Imagens: Conversão para escala de cinza e binarização para melhorar a precisão do OCR.
- Suporte a Múltiplos Idiomas: O idioma padrão é o português, mas pode ser alterado para qualquer idioma suportado pelo Tesseract.
Instalação
Para instalar o pacote, use o pip:
pip install text_extractor-PT-BR
Dependências O pacote depende das seguintes bibliotecas:
pytesseract
Pillow
opencv-python
Além disso, o Tesseract OCR precisa estar instalado no sistema.
Instalação do Tesseract Windows: Baixe e instale o Tesseract aqui.
Ubuntu:
sudo apt update
sudo apt install tesseract-ocr
MacOS:
brew install tesseract
Como Usar
- Importando o Pacote Importe as funções extract_text e preprocess_image para utilizar no seu script:
from text_extractor import extract_text, preprocess_image
- Extraindo Texto de uma Imagem A função extract_text pode ser usada para extrair texto diretamente de uma imagem:
# Extrair texto diretamente de uma imagem
texto = extract_text('caminho/para/imagem.png', lang='por')
print(texto)
- Usando Pré-processamento Se a imagem precisar de processamento antes da extração, como conversão para escala de cinza e binarização, você pode utilizar o parâmetro preprocess:
# Extrair texto de uma imagem com pré-processamento
texto = extract_text('caminho/para/imagem.png', lang='por', preprocess=True)
print(texto)
- Exemplos de Uso Extração Simples
from text_extractor import extract_text
# Caminho para a imagem
image_path = 'imagens/documento.png'
# Extração de texto sem pré-processamento
texto = extract_text(image_path, lang='por')
print("Texto extraÃdo:")
print(texto)
Extração com Pré-processamento
python
Copiar código
from text_extractor import extract_text
# Caminho para a imagem
image_path = 'imagens/documento_ruidoso.png'
# Extração de texto com pré-processamento
texto = extract_text(image_path, lang='por', preprocess=True)
print("Texto extraÃdo com pré-processamento:")
print(texto)
Pré-processamento Manual e Extração
from text_extractor import preprocess_image, extract_text
# Caminho para a imagem
image_path = 'imagens/documento.png'
# Caminho para salvar a imagem pré-processada
processed_image_path = 'imagens/documento_processado.png'
# Pré-processamento da imagem
preprocess_image(image_path, output_path=processed_image_path)
# Extração de texto a partir da imagem pré-processada
texto = extract_text(processed_image_path, lang='por')
print("Texto extraÃdo após pré-processamento:")
print(texto)
- Parâmetros DisponÃveis
- extract_text(image_path, lang='eng', preprocess=False)
- image_path: Caminho para a imagem de entrada.
- lang: Idioma para o OCR (padrão: 'eng' para inglês, 'por' para português).
- preprocess: Se True, pré-processa a imagem antes de extrair o texto (padrão: False).
- preprocess_image(image_path, output_path=None)
- image_path: Caminho para a imagem de entrada.
- output_path: Caminho para salvar a imagem processada (opcional). Se não for fornecido, retorna a imagem processada em formato array.
Contribuindo
Sinta-se à vontade para abrir issues e enviar pull requests. Toda ajuda é bem-vinda!
Licença Este projeto é licenciado sob a licença MIT. Consulte o arquivo LICENSE para mais detalhes.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file text_extractor-PT-BR-0.1.tar.gz.
File metadata
- Download URL: text_extractor-PT-BR-0.1.tar.gz
- Upload date:
- Size: 3.0 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.11.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4414257a5eefb0cd3a2262cd8221989e94cb06ce0be7da74aa38bab6e64a6571
|
|
| MD5 |
faa23a2e352a0485aea374612f8cf650
|
|
| BLAKE2b-256 |
74bc9bed8fe9e98a35fbfbf2c807b60d97516785e8df4759320077dfbec1295b
|
File details
Details for the file text_extractor_PT_BR-0.1-py3-none-any.whl.
File metadata
- Download URL: text_extractor_PT_BR-0.1-py3-none-any.whl
- Upload date:
- Size: 2.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.11.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
951479ec0428b1d635225d35664831fa92b7bd7632253a5a65ad337449da155e
|
|
| MD5 |
763f19186baa082e2b804bd714fc9362
|
|
| BLAKE2b-256 |
5fb29c90fb0b47d241100999340d1c88cf1b1b58b35b2ac9d1ec543de1ed92fc
|