Skip to main content

Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules, lexique

Project description

Lectura NLP — Modules de traitement du langage naturel pour le francais

Briques logicielles autonomes pour le traitement du francais : tokenisation, phonetique, syllabes, formules, correction orthographique et grammaticale. Installez tout d'un coup avec pip install lectura ou chaque module independamment.

Modules atomiques (couche 1)

Module Description Version pip install
Tokeniseur Normalisation et tokenisation du francais, detection de formules 2.0.0 pip install lectura-tokeniseur
Formules Lecture algorithmique des formules (nombres, dates, heures...) 2.0.0 pip install lectura-formules
Phonemiseur Phonemiseur neural : G2P + POS + Morpho + Liaison + Groupes de lecture 4.0.0 pip install lectura-phonemiseur
Graphemiseur Graphemiseur neural : P2G + POS + Morpho (IPA vers orthographe) 4.0.0 pip install lectura-graphemiseur
Aligneur-Syllabeur Alignement grapheme-phoneme, syllabation 4.0.0 pip install lectura-aligneur
Correcteur Correcteur orthographique et grammatical du francais 1.0.0 pip install lectura-correcteur

Pipeline (couche 2)

Module Description Version pip install
G2P-Pipeline Pipeline complet texte → phonetique (tokeniseur + formules + phonemiseur) 1.0.0 pip install lectura-g2p

Synthese vocale

Module Description Version pip install
TTS-Monospeaker Synthese vocale neuronale monospeaker francais (FastPitch + HiFi-GAN) 1.0.0 pip install lectura-tts-monospeaker
TTS-Diphone Synthese vocale par concatenation de diphones WORLD (prosodie reglee) 1.2.0 pip install lectura-tts-diphone

Caracteristiques

  • Zero dependance sur les modules de base (Tokeniseur, Formules, Aligneur)
  • 4 backends d'inference pour G2P/P2G : API, ONNX Runtime, NumPy, Pure Python
  • Type hints complets (Python 3.10+, PEP-561)
  • Modeles compacts : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)

Installation rapide

# Tous les modules d'un coup
pip install lectura

# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]

# Un seul module
pip install lectura-tokeniseur

# Phonemiseur avec backend ONNX
pip install lectura-phonemiseur[onnx]

Exemple

from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule

# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")

# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr)  # "quarante-deux"

Licence

Les modules Lectura sont distribues sous licence AGPL-3.0 (non commerciale).

Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques : voir MODEL_LICENCE.md.

Pour un usage commercial, contacter contact@lec-tu-ra.com.

Auteur

Max Carriere — lec-tu-ra.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

lectura-3.0.0.tar.gz (15.4 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

lectura-3.0.0-py3-none-any.whl (15.0 kB view details)

Uploaded Python 3

File details

Details for the file lectura-3.0.0.tar.gz.

File metadata

  • Download URL: lectura-3.0.0.tar.gz
  • Upload date:
  • Size: 15.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for lectura-3.0.0.tar.gz
Algorithm Hash digest
SHA256 c1d116b644d93dcb0b71f41b79758ff70dd9f21c58f979cc2c15d9e5150f6150
MD5 ec10071bdec49439a9e78366b107611e
BLAKE2b-256 2e5a5a696c8c30f1ab5c6f566f6dcb7df7280ea115a5960141b52c6ac90cc2cf

See more details on using hashes here.

File details

Details for the file lectura-3.0.0-py3-none-any.whl.

File metadata

  • Download URL: lectura-3.0.0-py3-none-any.whl
  • Upload date:
  • Size: 15.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for lectura-3.0.0-py3-none-any.whl
Algorithm Hash digest
SHA256 7f65da3c50be1bc1b5999b8810afb5f2cee7fffb3b83d06e47450c4b820127d2
MD5 ea5cc6541c32f38c591525958652e5ec
BLAKE2b-256 5b5f6a3369d91493bf9ee6090bfc7ea258b3ace7aec6fa26e7859637b9a3d00b

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page