vhtml (ang. Visual HyperText Markup Language) - Optical character recognition and HTML layout analysis library
Project description
vHTML - Optical HTML Generator
vHTML (Optic HyperText Markup Language) to system do automatycznej konwersji dokumentów do postaci HTML z wykorzystaniem technik optycznego rozpoznawania znaków (OCR) i analizy układu dokumentu.
🌟 Funkcje
- Automatyczna analiza układu dokumentu
- Wsparcie dla wielojęzycznego OCR (PL, EN, DE)
- Generowanie struktury HTML z metadanymi
- Obsługa dokumentów PDF i obrazów
- Prosta integracja z istniejącymi systemami
📚 Dokumentacja
- Architektura systemu
- Szablony dokumentów
- Plan implementacji
- Struktura projektu
- Instrukcja instalacji
- FAQ
🚀 Szybki start
Wymagania wstępne
- Python 3.8+
- Tesseract OCR
- Poppler (do przetwarzania PDF)
Instalacja z Poetry
# Klonowanie repozytorium
git clone https://github.com/yourusername/vhtml.git
cd vhtml
# Instalacja z Poetry
poetry install
# Instalacja zależności systemowych
chmod +x scripts/install_dependencies.sh
./scripts/install_dependencies.sh
Alternatywna instalacja
# Utwórz i aktywuj środowisko wirtualne
python -m venv venv
source venv/bin/activate # Linux/macOS
# lub venv\Scripts\activate # Windows
# Instalacja zależności
pip install -r requirements.txt
# Instalacja zależności systemowych
chmod +x scripts/install_dependencies.sh
./scripts/install_dependencies.sh
Użycie
from vhtml import process_document
# Przetwarzanie pliku PDF
result = process_document("dokument.pdf", output_format="html")
# Zapis wyników
with open("wynik.html", "w", encoding="utf-8") as f:
f.write(result)
📄 Licencja
Ten projekt jest dostępny na licencji MIT. Zobacz plik LICENSE aby uzyskać więcej informacji.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file vhtml-0.1.6.tar.gz.
File metadata
- Download URL: vhtml-0.1.6.tar.gz
- Upload date:
- Size: 17.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/2.1.3 CPython/3.13.3 Linux/6.14.0-15-generic
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
20906525f8ceda3eaf95740d8b67ffdcbea4d8448c341ee1340b962a239df79f
|
|
| MD5 |
344dcc784e62409df3c36d96e41c2ed6
|
|
| BLAKE2b-256 |
54c26a93dc8e5afec469b14088e0273170e555bd55cb3f65e2ece57bf98e6dc4
|
File details
Details for the file vhtml-0.1.6-py3-none-any.whl.
File metadata
- Download URL: vhtml-0.1.6-py3-none-any.whl
- Upload date:
- Size: 22.0 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/2.1.3 CPython/3.13.3 Linux/6.14.0-15-generic
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
8c7c61bc1f148ad1ca7f32f6e158a461d442583d660224a9d7ebd031a820055c
|
|
| MD5 |
b074a7ee7b13015df3deda03acca9503
|
|
| BLAKE2b-256 |
7e2e94b727276d62c74c53ee4c01bf65299b2dbb44b44bfdf6ef5096b4c38daa
|