Normalisateur et tokeniseur complet pour le français — détection de formules (nombres, sigles, dates, téléphones, etc.)
Project description
Lectura Tokeniseur
Normalisateur et tokeniseur complet pour le français
Module autonome, zéro dépendance externe. Détecte et classifie les formules (nombres, sigles, dates, téléphones, numéros, ordinaux, fractions, notations scientifiques, expressions mathématiques).
Installation
pip install lectura-tokeniseur
Utilisation
from lectura_tokeniseur import tokenise
resultat = tokenise("Le 25 décembre 2024, il faisait -3°C à Paris.")
for phrase in resultat.phrases:
for token in phrase:
print(f"{token.texte:20s} {token.type.name}")
Le MOT
25 décembre 2024 FORMULE
, PONCTUATION
il MOT
faisait MOT
-3°C FORMULE
à MOT
Paris MOT
. PONCTUATION
Fonctionnalités
- Normalisation : typographie, espaces, Unicode
- Tokenisation : mots, ponctuation, séparateurs
- Détection de formules : nombres (entiers, décimaux, négatifs), dates, heures, téléphones, sigles, ordinaux, fractions, pourcentages, monnaies, unités de mesure, expressions mathématiques, chiffres romains
- API simple :
tokenise(texte)renvoie un objet structuré
Licence
AGPL-3.0-or-later — voir LICENCE.txt Licence commerciale disponible — voir LICENCE-COMMERCIALE.md
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distributions
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file lectura_tokeniseur-2.2.1.tar.gz.
File metadata
- Download URL: lectura_tokeniseur-2.2.1.tar.gz
- Upload date:
- Size: 45.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
0a906d8429f567704d91d0f82a6db8707e9ea3bf1ea347f9638f4218ce074772
|
|
| MD5 |
ab690ea6df64bb30efc340490b1504fd
|
|
| BLAKE2b-256 |
4cc903a6c964e7326107587a639dec526d874f365e361c5dd782d5ae5d2f0655
|
File details
Details for the file lectura_tokeniseur-2.2.1-py3-none-any.whl.
File metadata
- Download URL: lectura_tokeniseur-2.2.1-py3-none-any.whl
- Upload date:
- Size: 40.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
c59315418980af2084cf9ae07aacc6ba9c8c6cfb6110d8c4116c714954252736
|
|
| MD5 |
fb2137a1eb3afe5869783acad55c28d5
|
|
| BLAKE2b-256 |
cb95d22ba786bdcd9ff214b9b5117a95fab8cf5673760b464aec8babacaa4304
|
File details
Details for the file lectura_tokeniseur-2.2.1-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.
File metadata
- Download URL: lectura_tokeniseur-2.2.1-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl
- Upload date:
- Size: 3.2 MB
- Tags: CPython 3.11, manylinux: glibc 2.17+ x86-64
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
58c873a80a22153e8d366d690e38d777f0a2cafaf937b6b9e2b2b955893a3f8c
|
|
| MD5 |
5aec5dfabff022588f46d528f31b4429
|
|
| BLAKE2b-256 |
69003eaf0002cc598a3c83c452a8fe7233af9aedb926d71d90e7c4123f80a999
|