Skip to main content

Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules, lexique

Project description

Lectura NLP — Modules de traitement du langage naturel pour le francais

Briques logicielles autonomes pour le traitement du francais : tokenisation, phonetique, syllabes, formules. Installez tout d'un coup avec pip install lectura ou chaque module independamment.

Modules

Module Description Version pip install
Tokeniseur Normalisation et tokenisation du francais, detection de formules 2.0.0 pip install lectura-tokeniseur
G2P Grapheme-to-Phoneme unifie + POS + Morpho + Liaison 1.0.0 pip install lectura-g2p
P2G Phoneme-to-Grapheme unifie + POS + Morpho (IPA vers orthographe) 1.0.0 pip install lectura-p2g
Aligneur-Syllabeur Alignement grapheme-phoneme, groupes de lecture, syllabation 2.2.0 pip install lectura-aligneur
Formules Lecture algorithmique des formules (nombres, dates, heures...) 2.0.0 pip install lectura-formules

Caracteristiques

  • Zero dependance sur les modules de base (Tokeniseur, Formules, Aligneur)
  • 3 backends d'inference pour G2P/P2G : ONNX Runtime, NumPy, Pure Python
  • Type hints complets (Python 3.10+, PEP-561)
  • Modeles compacts : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)

Installation rapide

# Tous les modules d'un coup
pip install lectura

# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]

# Un seul module
pip install lectura-tokeniseur

# G2P avec backend ONNX
pip install lectura-g2p[onnx]

Exemple

from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule

# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")

# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr)  # "quarante-deux"

Licence

Les modules Lectura NLP sont distribues sous double licence :

  • AGPL-3.0-or-later — libre, avec obligation de publication du code source pour tout logiciel derive.
  • Licence Commerciale — payante, pour integration dans des logiciels proprietaires sans obligation de publication.

Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques : voir MODEL_LICENCE.md.

Pour obtenir une licence commerciale : https://www.lec-tu-ra.com/solutions/services/

Auteur

Max Carriere — lec-tu-ra.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

lectura-2.0.0-py3-none-any.whl (16.1 kB view details)

Uploaded Python 3

File details

Details for the file lectura-2.0.0-py3-none-any.whl.

File metadata

  • Download URL: lectura-2.0.0-py3-none-any.whl
  • Upload date:
  • Size: 16.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for lectura-2.0.0-py3-none-any.whl
Algorithm Hash digest
SHA256 c67317387554d94897bafa912342a3ac938c5576c1aa2e823198762c905d2eae
MD5 ab3dfbeeadd4e2aa3d7d64ffd679f703
BLAKE2b-256 d038130c9611c851f57f1839bafcea07dc7b2ed415a9e9d61b5bf98be62723ff

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page