Package to extract text from images using Python
Project description
Data Engineering Challenges Package
Este pacote Python utiliza Pillow e Tesseract OCR para extrair texto de imagens e salvar o conteúdo em arquivos .txt. Após a extração, o arquivo de texto é aberto automaticamente para visualização.
Instalação
Adicione o pacote utilizando o comando abaixo
pip install read-text-from-image-with-python
Disponibilizado via pypi.
Uso
Módulos Disponíveis
Cada módulo oferece funcionalidades específicas para processamento de imagem e texto:
-
extract_text_from_image Função
extract_text_from_image(image)
: Extrai o texto de uma imagem fornecida. Retorna o texto extraído ou None se não for possível realizar a extração. -
generate_file Função
save_text_to_file(text, image_path
: Salva o texto extraído em um arquivo .txt, cujo nome é baseado no nome da imagem original, e abre o arquivo automaticamente para visualização. -
processing_image Função
process_image(image_path)
: Processa uma imagem a partir de um diretório e a prepara para a extração de texto. Retorna o objeto da imagem se for processado com sucesso, ou None se o arquivo de imagem não for encontrado.
Exemplo de uso
import os
import extract_text_from_image
import processing_image
import generate_file
def main(image_name, image_path):
image_paths = [
os.path.join(image_path, image_name),
]
# Extraindo texto das imagens e salvando em arquivos .txt
for image_path in image_paths:
image = processing_image.process_image(image_path)
if image:
extracted_text = extract_text_from_image.extract_text_from_image(image_path)
if extracted_text:
generate_file.save_text_to_file(extracted_text, image_path)
# Preencher com as info da sua imagem
image_name = "image.png"
image_path = os.path.dirname(os.path.abspath(__file__))
if __name__ == "__main__":
main(image_name, image_path)
Notes
- O Tesseract precisa estar instalado corretamente, e este script foi configurado para sistemas Windows. Para outros sistemas, ajustes podem ser necessários.
Author
Mantido por Sabrina B. Moreira. Entre em contato em sabrinabm94@gmail.com.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file read_text_from_image_with_python-0.0.2.tar.gz
.
File metadata
- Download URL: read_text_from_image_with_python-0.0.2.tar.gz
- Upload date:
- Size: 3.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | e875cd95907e385773967bbf5486243ad3a0aa4bafef951534271f4daeabf6eb |
|
MD5 | 64185bd95a0ff18c7eac8c8d5c2d0e0e |
|
BLAKE2b-256 | 21d906a807d471c7be440b3c8e807e64622ed620c4d1f8c60d512b565aaaede3 |
File details
Details for the file read_text_from_image_with_python-0.0.2-py3-none-any.whl
.
File metadata
- Download URL: read_text_from_image_with_python-0.0.2-py3-none-any.whl
- Upload date:
- Size: 3.8 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 720d58f6736be8096c48463f19a62830979e8757c84b58d9151ccd5bf10cfe0f |
|
MD5 | d6e46071efadd0a3a1024fe9325ca435 |
|
BLAKE2b-256 | 19f0028282d3b4d10bcec16d4da9d19e565adf53c362229307d1e14200116a04 |