Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules, lexique
Project description
Lectura NLP — Modules de traitement du langage naturel pour le francais
Briques logicielles autonomes pour le traitement du francais : tokenisation,
phonetique, syllabes, formules, correction orthographique et grammaticale.
Installez tout d'un coup avec pip install lectura ou chaque module independamment.
Modules atomiques (couche 1)
| Module | Description | Version | pip install |
|---|---|---|---|
| Tokeniseur | Normalisation et tokenisation du francais, detection de formules | 2.0.0 | pip install lectura-tokeniseur |
| Formules | Lecture algorithmique des formules (nombres, dates, heures...) | 2.0.0 | pip install lectura-formules |
| Phonemiseur | Phonemiseur neural : G2P + POS + Morpho + Liaison + Groupes de lecture | 4.0.0 | pip install lectura-phonemiseur |
| Graphemiseur | Graphemiseur neural : P2G + POS + Morpho (IPA vers orthographe) | 4.0.0 | pip install lectura-graphemiseur |
| Aligneur-Syllabeur | Alignement grapheme-phoneme, syllabation | 4.0.0 | pip install lectura-aligneur |
| Correcteur | Correcteur orthographique et grammatical du francais | 1.0.0 | pip install lectura-correcteur |
Pipeline (couche 2)
| Module | Description | Version | pip install |
|---|---|---|---|
| G2P-Pipeline | Pipeline complet texte → phonetique (tokeniseur + formules + phonemiseur) | 1.0.0 | pip install lectura-g2p |
Synthese vocale
| Module | Description | Version | pip install |
|---|---|---|---|
| TTS-Monospeaker | Synthese vocale neuronale monospeaker francais (FastPitch + HiFi-GAN) | 1.0.0 | pip install lectura-tts-monospeaker |
| TTS-Diphone | Synthese vocale par concatenation de diphones WORLD (prosodie reglee) | 1.2.0 | pip install lectura-tts-diphone |
Caracteristiques
- Zero dependance sur les modules de base (Tokeniseur, Formules, Aligneur)
- 4 backends d'inference pour G2P/P2G : API, ONNX Runtime, NumPy, Pure Python
- Type hints complets (Python 3.10+, PEP-561)
- Modeles compacts : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)
Installation rapide
# Tous les modules d'un coup
pip install lectura
# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]
# Un seul module
pip install lectura-tokeniseur
# Phonemiseur avec backend ONNX
pip install lectura-phonemiseur[onnx]
Exemple
from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule
# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")
# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr) # "quarante-deux"
Licence
Les modules Lectura sont distribues sous licence AGPL-3.0 (non commerciale).
Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques : voir MODEL_LICENCE.md.
Pour un usage commercial, contacter contact@lec-tu-ra.com.
Auteur
Max Carriere — lec-tu-ra.com
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file lectura-3.0.0.tar.gz.
File metadata
- Download URL: lectura-3.0.0.tar.gz
- Upload date:
- Size: 15.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
c1d116b644d93dcb0b71f41b79758ff70dd9f21c58f979cc2c15d9e5150f6150
|
|
| MD5 |
ec10071bdec49439a9e78366b107611e
|
|
| BLAKE2b-256 |
2e5a5a696c8c30f1ab5c6f566f6dcb7df7280ea115a5960141b52c6ac90cc2cf
|
File details
Details for the file lectura-3.0.0-py3-none-any.whl.
File metadata
- Download URL: lectura-3.0.0-py3-none-any.whl
- Upload date:
- Size: 15.0 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
7f65da3c50be1bc1b5999b8810afb5f2cee7fffb3b83d06e47450c4b820127d2
|
|
| MD5 |
ea5cc6541c32f38c591525958652e5ec
|
|
| BLAKE2b-256 |
5b5f6a3369d91493bf9ee6090bfc7ea258b3ace7aec6fa26e7859637b9a3d00b
|