Skip to main content

Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules, lexique

Project description

Lectura NLP — Modules de traitement du langage naturel pour le francais

Briques logicielles autonomes pour le traitement du francais : tokenisation, phonetique, syllabes, formules. Installez tout d'un coup avec pip install lectura ou chaque module independamment.

Modules

Module Description Version pip install
Tokeniseur Normalisation et tokenisation du francais, detection de formules 2.0.0 pip install lectura-tokeniseur
G2P Grapheme-to-Phoneme unifie + POS + Morpho + Liaison 3.0.0 pip install lectura-g2p
P2G Phoneme-to-Grapheme unifie + POS + Morpho (IPA vers orthographe) 3.0.0 pip install lectura-p2g
Aligneur-Syllabeur Alignement grapheme-phoneme, groupes de lecture, syllabation 2.2.0 pip install lectura-aligneur
Formules Lecture algorithmique des formules (nombres, dates, heures...) 2.0.0 pip install lectura-formules

Caracteristiques

  • Zero dependance sur les modules de base (Tokeniseur, Formules, Aligneur)
  • 4 backends d'inference pour G2P/P2G : API, ONNX Runtime, NumPy, Pure Python
  • Type hints complets (Python 3.10+, PEP-561)
  • Modeles compacts : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)

Installation rapide

# Tous les modules d'un coup
pip install lectura

# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]

# Un seul module
pip install lectura-tokeniseur

# G2P avec backend ONNX
pip install lectura-g2p[onnx]

Exemple

from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule

# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")

# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr)  # "quarante-deux"

Licence

Les modules Lectura NLP sont distribues sous double licence :

  • AGPL-3.0-or-later — libre, avec obligation de publication du code source pour tout logiciel derive.
  • Licence Commerciale — payante, pour integration dans des logiciels proprietaires sans obligation de publication.

Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques : voir MODEL_LICENCE.md.

Pour obtenir une licence commerciale : https://www.lec-tu-ra.com/solutions/services/

Auteur

Max Carriere — lec-tu-ra.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

lectura-2.0.1-py3-none-any.whl (16.1 kB view details)

Uploaded Python 3

File details

Details for the file lectura-2.0.1-py3-none-any.whl.

File metadata

  • Download URL: lectura-2.0.1-py3-none-any.whl
  • Upload date:
  • Size: 16.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for lectura-2.0.1-py3-none-any.whl
Algorithm Hash digest
SHA256 f8b4f1156c702168e41fde5b3ae7989b5b684dae990e79379e05f2785b8ad622
MD5 4e8c79ab86ccbd7353bd0d04b5ae7f85
BLAKE2b-256 fc60292906540fd2703055a25783d7290260c7649e715a1f063f1c15b86a798b

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page