Normalisation des noms et prénoms (nettoyage, patterns, détection d’anomalies)
Project description
README — normalize_names
But : Ce README et la docstring décrivent une fonction Python normalize_names(df, value=None, nettoyage=True, overlap_cleaning=True, pattern_detection=True, normalization=True, dict_check=True) destinée à nettoyer et normaliser des colonnes de noms dans un pandas.DataFrame. Le texte est en français et contient : usage, paramètres, comportement des options, exemples et bonnes pratiques.
Objectif
normalize_names prend en entrée un DataFrame et applique une série d'opérations (suppression d'erreurs typographiques simples, détection de motifs, harmonisation d'ordres prénom/nom, vérification contre un dictionnaire, etc.) pour retourner un DataFrame avec une ou plusieurs colonnes de noms normalisées. Le but est d'améliorer la qualité des noms pour des opérations de jointure, déduplication, ou visualisation.
Installation / Dépendances
Requiert (au minimum) :
pandas
numpy
unidecode (pour retirer les accents)
Comportement résumé des options
df : pandas.DataFrame d'entrée.
value : nom de la colonne à normaliser (str) ou liste/tuple de colonnes à normaliser. Si None, la fonction essaie de détecter automatiquement la(les) colonne(s) contenant des noms (heuristique : colonnes textuelles avec mots capitalisés fréquents).
nettoyage (bool) : opérations de nettoyage de base (strip, lower/upper selon stratégie, suppression d'espaces doublons, suppression de ponctuation inutile).
overlap_cleaning (bool) : atténuation des chevauchements/doublons internes (p. ex. "Jean Jean" → "Jean", "Marie-Anne Marie" → "Marie-Anne").
pattern_detection (bool) : détection et correction de motifs courants (inversions "Lastname, Firstname", présence de titres Dr., Mme, initiales mal formatées, format LASTNAME Firstname, etc.).
normalization (bool) : application de règles de normalisation (capitalisation correcte : Jean Dupont, séparation prénom/nom si possible, translittération).
dict_check (bool) : vérification et correction optionnelle via dictionnaire de noms propres / base de référence (fuzzy-matching pour corriger Jahn → John si plausible).
Retourne : un DataFrame (copie par défaut) où la/les colonnes spécifiées sont ajoutées ou remplacées par leur version normalisée. La fonction peut aussi renvoyer un rapport de transformations si demandé.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file cartelis_name_normalizer-1.3.1.tar.gz.
File metadata
- Download URL: cartelis_name_normalizer-1.3.1.tar.gz
- Upload date:
- Size: 16.5 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.3
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
f0e7ce3ae38b5322491644add852b9b14b1d46a94af5456ea8755f3ae80e8fc0
|
|
| MD5 |
2a2d0f1d5a2fae3f4d8a5c5c2a8d87ef
|
|
| BLAKE2b-256 |
cf6536f0783f00d533a6c52d592ef482aea17b6cd14b63dad79040dc8214436a
|
File details
Details for the file cartelis_name_normalizer-1.3.1-py3-none-any.whl.
File metadata
- Download URL: cartelis_name_normalizer-1.3.1-py3-none-any.whl
- Upload date:
- Size: 16.8 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.3
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
931bdc8096c73a9f640bb2fc08c332f975fabb7e93ed24db47b7c05aa6a3b07d
|
|
| MD5 |
a63ab16896e00a78851637555c133102
|
|
| BLAKE2b-256 |
434940c8fbdf814f40dc205f1ca9a79b742fc5fff08a5d6ac566cd6bcf4c6ae6
|