Skip to main content

Normalisateur et tokeniseur complet pour le français — détection de formules (nombres, sigles, dates, téléphones, etc.)

Project description

Lectura Tokeniseur

Normalisateur et tokeniseur complet pour le français

Module autonome, zéro dépendance externe. Détecte et classifie les formules (nombres, sigles, dates, téléphones, numéros, ordinaux, fractions, notations scientifiques, expressions mathématiques).

Installation

pip install lectura-tokeniseur

Utilisation

from lectura_tokeniseur import tokenise

resultat = tokenise("Le 25 décembre 2024, il faisait -3°C à Paris.")

for phrase in resultat.phrases:
    for token in phrase:
        print(f"{token.texte:20s}  {token.type.name}")
Le                    MOT
25 décembre 2024      FORMULE
,                     PONCTUATION
il                    MOT
faisait               MOT
-3°C                  FORMULE
à                     MOT
Paris                 MOT
.                     PONCTUATION

Fonctionnalités

  • Normalisation : typographie, espaces, Unicode
  • Tokenisation : mots, ponctuation, séparateurs
  • Détection de formules : nombres (entiers, décimaux, négatifs), dates, heures, téléphones, sigles, ordinaux, fractions, pourcentages, monnaies, unités de mesure, expressions mathématiques, chiffres romains
  • API simple : tokenise(texte) renvoie un objet structuré

Licence

Ce module est distribue sous licence AGPL-3.0 (non commerciale) — voir LICENCE.txt.

Pour un usage commercial, contacter contact@lec-tu-ra.com.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

lectura_tokeniseur-2.3.0.tar.gz (43.8 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

lectura_tokeniseur-2.3.0-py3-none-any.whl (37.9 kB view details)

Uploaded Python 3

File details

Details for the file lectura_tokeniseur-2.3.0.tar.gz.

File metadata

  • Download URL: lectura_tokeniseur-2.3.0.tar.gz
  • Upload date:
  • Size: 43.8 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for lectura_tokeniseur-2.3.0.tar.gz
Algorithm Hash digest
SHA256 adfc599bf14fdd2abf252286f6e8fb8efcf84ac1a029b8cadc03fd3475fbffc5
MD5 9f4f4b630aef1dc857384ef739477222
BLAKE2b-256 80a4fad54ed77d6810f43d7b375f43fee5a94c8ffbdd017feaabfc4d339c6df4

See more details on using hashes here.

File details

Details for the file lectura_tokeniseur-2.3.0-py3-none-any.whl.

File metadata

File hashes

Hashes for lectura_tokeniseur-2.3.0-py3-none-any.whl
Algorithm Hash digest
SHA256 a4554e520d8cfdf375694281e6b8c2f73c3c4ad6dad535658846d5dd7adc34cc
MD5 54c4c262377cff3f556f9b3577921cb3
BLAKE2b-256 de0169eaaa90c3ce152ca30cef0bed94db87bdfeb6de9d267a5599aeb82da4ec

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page