Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules, lexique
Project description
Lectura NLP — Modules de traitement du langage naturel pour le francais
Briques logicielles autonomes pour le traitement du francais : tokenisation,
phonetique, syllabes, formules. Installez tout d'un coup avec pip install lectura
ou chaque module independamment.
Modules
| Module | Description | Version | pip install |
|---|---|---|---|
| Tokeniseur | Normalisation et tokenisation du francais, detection de formules | 2.0.0 | pip install lectura-tokeniseur |
| G2P | Grapheme-to-Phoneme unifie + POS + Morpho + Liaison | 1.0.0 | pip install lectura-g2p |
| P2G | Phoneme-to-Grapheme unifie + POS + Morpho (IPA vers orthographe) | 1.0.0 | pip install lectura-p2g |
| Aligneur-Syllabeur | Alignement grapheme-phoneme, groupes de lecture, syllabation | 2.2.0 | pip install lectura-aligneur |
| Formules | Lecture algorithmique des formules (nombres, dates, heures...) | 2.0.0 | pip install lectura-formules |
Caracteristiques
- Zero dependance sur les modules de base (Tokeniseur, Formules, Aligneur)
- 3 backends d'inference pour G2P/P2G : ONNX Runtime, NumPy, Pure Python
- Type hints complets (Python 3.10+, PEP-561)
- Modeles compacts : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)
Installation rapide
# Tous les modules d'un coup
pip install lectura
# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]
# Un seul module
pip install lectura-tokeniseur
# G2P avec backend ONNX
pip install lectura-g2p[onnx]
Exemple
from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule
# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")
# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr) # "quarante-deux"
Licence
Les modules Lectura NLP sont distribues sous double licence :
- AGPL-3.0-or-later — libre, avec obligation de publication du code source pour tout logiciel derive.
- Licence Commerciale — payante, pour integration dans des logiciels proprietaires sans obligation de publication.
Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques : voir MODEL_LICENCE.md.
Pour obtenir une licence commerciale : https://www.lec-tu-ra.com/solutions/services/
Auteur
Max Carriere — lec-tu-ra.com
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distributions
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file lectura-2.0.0-py3-none-any.whl.
File metadata
- Download URL: lectura-2.0.0-py3-none-any.whl
- Upload date:
- Size: 16.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
c67317387554d94897bafa912342a3ac938c5576c1aa2e823198762c905d2eae
|
|
| MD5 |
ab3dfbeeadd4e2aa3d7d64ffd679f703
|
|
| BLAKE2b-256 |
d038130c9611c851f57f1839bafcea07dc7b2ed415a9e9d61b5bf98be62723ff
|