Skip to main content

vhtml (ang. Visual HyperText Markup Language) - Optical character recognition and HTML layout analysis library

Project description

vHTML - Optical HTML Generator

vHTML (Optic HyperText Markup Language) to system do automatycznej konwersji dokumentów do postaci HTML z wykorzystaniem technik optycznego rozpoznawania znaków (OCR) i analizy układu dokumentu.

🌟 Funkcje

  • Automatyczna analiza układu dokumentu
  • Wsparcie dla wielojęzycznego OCR (PL, EN, DE)
  • Generowanie struktury HTML z metadanymi
  • Obsługa dokumentów PDF i obrazów
  • Prosta integracja z istniejącymi systemami

📚 Dokumentacja

🚀 Szybki start

Wymagania wstępne

  • Python 3.8+
  • Tesseract OCR
  • Poppler (do przetwarzania PDF)

Instalacja z Poetry

# Klonowanie repozytorium
git clone https://github.com/yourusername/vhtml.git
cd vhtml

# Instalacja z Poetry
poetry install

# Instalacja zależności systemowych
chmod +x scripts/install_dependencies.sh
./scripts/install_dependencies.sh

Alternatywna instalacja

# Utwórz i aktywuj środowisko wirtualne
python -m venv venv
source venv/bin/activate  # Linux/macOS
# lub venv\Scripts\activate  # Windows

# Instalacja zależności
pip install -r requirements.txt

# Instalacja zależności systemowych
chmod +x scripts/install_dependencies.sh
./scripts/install_dependencies.sh

Użycie

from vhtml import process_document

# Przetwarzanie pliku PDF
result = process_document("dokument.pdf", output_format="html")

# Zapis wyników
with open("wynik.html", "w", encoding="utf-8") as f:
    f.write(result)

📄 Licencja

Ten projekt jest dostępny na licencji MIT. Zobacz plik LICENSE aby uzyskać więcej informacji.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

vhtml-0.1.6.tar.gz (17.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

vhtml-0.1.6-py3-none-any.whl (22.0 kB view details)

Uploaded Python 3

File details

Details for the file vhtml-0.1.6.tar.gz.

File metadata

  • Download URL: vhtml-0.1.6.tar.gz
  • Upload date:
  • Size: 17.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/2.1.3 CPython/3.13.3 Linux/6.14.0-15-generic

File hashes

Hashes for vhtml-0.1.6.tar.gz
Algorithm Hash digest
SHA256 20906525f8ceda3eaf95740d8b67ffdcbea4d8448c341ee1340b962a239df79f
MD5 344dcc784e62409df3c36d96e41c2ed6
BLAKE2b-256 54c26a93dc8e5afec469b14088e0273170e555bd55cb3f65e2ece57bf98e6dc4

See more details on using hashes here.

File details

Details for the file vhtml-0.1.6-py3-none-any.whl.

File metadata

  • Download URL: vhtml-0.1.6-py3-none-any.whl
  • Upload date:
  • Size: 22.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/2.1.3 CPython/3.13.3 Linux/6.14.0-15-generic

File hashes

Hashes for vhtml-0.1.6-py3-none-any.whl
Algorithm Hash digest
SHA256 8c7c61bc1f148ad1ca7f32f6e158a461d442583d660224a9d7ebd031a820055c
MD5 b074a7ee7b13015df3deda03acca9503
BLAKE2b-256 7e2e94b727276d62c74c53ee4c01bf65299b2dbb44b44bfdf6ef5096b4c38daa

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page