Um pacote para extrair textos de imagens usando pytesseract

These details have not been verified by PyPI

Project links

Homepage

License
- OSI Approved :: MIT License
Operating System
- OS Independent
Programming Language
- Python :: 3

Project description

text_extractor-PT-BR

Um pacote Python para extrair textos de imagens usando pytesseract, com suporte para prÃ©-processamento de imagens e extraÃ§Ã£o de texto em portuguÃªs.

Funcionalidades

ExtraÃ§Ã£o de Texto: Extrai texto de imagens utilizando o Tesseract OCR.
PrÃ©-processamento de Imagens: ConversÃ£o para escala de cinza e binarizaÃ§Ã£o para melhorar a precisÃ£o do OCR.
Suporte a MÃºltiplos Idiomas: O idioma padrÃ£o Ã© o portuguÃªs, mas pode ser alterado para qualquer idioma suportado pelo Tesseract.

InstalaÃ§Ã£o

Para instalar o pacote, use o pip:

pip install text_extractor-PT-BR

DependÃªncias O pacote depende das seguintes bibliotecas:

pytesseract
Pillow
opencv-python

AlÃ©m disso, o Tesseract OCR precisa estar instalado no sistema.

InstalaÃ§Ã£o do Tesseract Windows: Baixe e instale o Tesseract aqui.

Ubuntu:

sudo apt update
sudo apt install tesseract-ocr

MacOS:

brew install tesseract

Como Usar

Importando o Pacote Importe as funÃ§Ãµes extract_text e preprocess_image para utilizar no seu script:

from text_extractor import extract_text, preprocess_image

Extraindo Texto de uma Imagem A funÃ§Ã£o extract_text pode ser usada para extrair texto diretamente de uma imagem:

# Extrair texto diretamente de uma imagem
texto = extract_text('caminho/para/imagem.png', lang='por')
print(texto)

Usando PrÃ©-processamento Se a imagem precisar de processamento antes da extraÃ§Ã£o, como conversÃ£o para escala de cinza e binarizaÃ§Ã£o, vocÃª pode utilizar o parÃ¢metro preprocess:

# Extrair texto de uma imagem com prÃ©-processamento
texto = extract_text('caminho/para/imagem.png', lang='por', preprocess=True)
print(texto)

Exemplos de Uso ExtraÃ§Ã£o Simples

from text_extractor import extract_text

# Caminho para a imagem
image_path = 'imagens/documento.png'

# ExtraÃ§Ã£o de texto sem prÃ©-processamento
texto = extract_text(image_path, lang='por')
print("Texto extraÃdo:")
print(texto)
ExtraÃ§Ã£o com PrÃ©-processamento
python
Copiar cÃ³digo
from text_extractor import extract_text

# Caminho para a imagem
image_path = 'imagens/documento_ruidoso.png'

# ExtraÃ§Ã£o de texto com prÃ©-processamento
texto = extract_text(image_path, lang='por', preprocess=True)
print("Texto extraÃdo com prÃ©-processamento:")
print(texto)

PrÃ©-processamento Manual e ExtraÃ§Ã£o

from text_extractor import preprocess_image, extract_text

# Caminho para a imagem
image_path = 'imagens/documento.png'

# Caminho para salvar a imagem prÃ©-processada
processed_image_path = 'imagens/documento_processado.png'

# PrÃ©-processamento da imagem
preprocess_image(image_path, output_path=processed_image_path)

# ExtraÃ§Ã£o de texto a partir da imagem prÃ©-processada
texto = extract_text(processed_image_path, lang='por')
print("Texto extraÃdo apÃ³s prÃ©-processamento:")
print(texto)

ParÃ¢metros DisponÃveis

extract_text(image_path, lang='eng', preprocess=False)
image_path: Caminho para a imagem de entrada.
lang: Idioma para o OCR (padrÃ£o: 'eng' para inglÃªs, 'por' para portuguÃªs).
preprocess: Se True, prÃ©-processa a imagem antes de extrair o texto (padrÃ£o: False).
preprocess_image(image_path, output_path=None)
image_path: Caminho para a imagem de entrada.
output_path: Caminho para salvar a imagem processada (opcional). Se nÃ£o for fornecido, retorna a imagem processada em formato array.

Contribuindo

Sinta-se Ã vontade para abrir issues e enviar pull requests. Toda ajuda Ã© bem-vinda!

LicenÃ§a Este projeto Ã© licenciado sob a licenÃ§a MIT. Consulte o arquivo LICENSE para mais detalhes.

Project details

These details have not been verified by PyPI

Project links

Homepage

License
- OSI Approved :: MIT License
Operating System
- OS Independent
Programming Language
- Python :: 3

Release history Release notifications | RSS feed

This version

0.1

Sep 26, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

text_extractor-PT-BR-0.1.tar.gz (3.0 kB view details)

Uploaded Sep 26, 2024 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

text_extractor_PT_BR-0.1-py3-none-any.whl (2.6 kB view details)

Uploaded Sep 26, 2024 Python 3

File details

Details for the file text_extractor-PT-BR-0.1.tar.gz.

File metadata

Download URL: text_extractor-PT-BR-0.1.tar.gz
Upload date: Sep 26, 2024
Size: 3.0 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/5.1.1 CPython/3.11.4

File hashes

Hashes for text_extractor-PT-BR-0.1.tar.gz
Algorithm	Hash digest
SHA256	`4414257a5eefb0cd3a2262cd8221989e94cb06ce0be7da74aa38bab6e64a6571`
MD5	`faa23a2e352a0485aea374612f8cf650`
BLAKE2b-256	`74bc9bed8fe9e98a35fbfbf2c807b60d97516785e8df4759320077dfbec1295b`

See more details on using hashes here.

File details

Details for the file text_extractor_PT_BR-0.1-py3-none-any.whl.

File metadata

Download URL: text_extractor_PT_BR-0.1-py3-none-any.whl
Upload date: Sep 26, 2024
Size: 2.6 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/5.1.1 CPython/3.11.4

File hashes

Hashes for text_extractor_PT_BR-0.1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`951479ec0428b1d635225d35664831fa92b7bd7632253a5a65ad337449da155e`
MD5	`763f19186baa082e2b804bd714fc9362`
BLAKE2b-256	`5fb29c90fb0b47d241100999340d1c88cf1b1b58b35b2ac9d1ec543de1ed92fc`

See more details on using hashes here.

text-extractor-PT-BR 0.1

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

text_extractor-PT-BR

Um pacote Python para extrair textos de imagens usando pytesseract, com suporte para prÃ©-processamento de imagens e extraÃ§Ã£o de texto em portuguÃªs.

Funcionalidades

InstalaÃ§Ã£o

Como Usar

Contribuindo

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes