A collection of preprocessing functions for text data
Project description
Ez egy Python alapú csomag, amely különféle szövegelőfeldolgozási funkciókat biztosít természetes nyelvű szövegek tisztítására, előkészítésére és modellezésre való átalakítására. A csomag célja, hogy egységes és testreszabható eszközt biztosítson szövegklasszifikációs vagy más NLP-feladatokhoz. Főbb funkciók
Alapvető tisztítás: dátumok, telefonszámok, HTML tagek, URL-ek, képleírások eltávolítása
Nyelvfelismerés és nem angol nyelvű sorok szűrése
Szöveghossz statisztikák és szógyakorisági vizualizáció
Többféle tokenizálási stratégia:
stopword nélküli
álhírek szerinti szakirodalmi szűrés alapján csökkentett stopword lista
teljes stopword eltávolítás
számok szavakká alakítása
Lemmatizálás és stemming
GloVe-alapú embedding mátrix generálása
Modellinput előkészítés (tokenizálás, padding)
Használat
- Statisztikák és vizualizáció
analyze_text_column(df, "Dataset neve") plot_most_common_words(df, "Dataset neve") # stopword szűrt plot_most_common_words2(df, "Dataset neve") # teljes szókészlet
- Adattisztítás
df_cleaned = clean_dataset(df)
- Szöveg előfeldolgozás (választható módszerek)
df1 = filtered_preproc(df_cleaned, "text", "processed") # stopword szűrt, POS alapján df2 = preprocess_text(df_cleaned, "text", "processed") # minden stopword megtartva df3 = spacy_preproc(df_cleaned, "text", "processed") # teljes stopword eltávolítás df4 = number_preproc(df_cleaned, "text", "processed") # számokat szöveggé alakít
- Nyelvi feldolgozás
df_lemmatized = lemmat_processing(df1, "processed", "lemmatized") df_stemmed = stemming_processing(df1, "processed", "stemmed")
- Modellre való előkészítés (GloVe embeddinggel)
MAX_VOCAB_SIZE = 25000 MAX_LENGTH = 700 EMBEDDING_DIM = 300
sequences, embedding_matrix, tokenizer = prepare_for_modeling_with_glove( tokenized_texts=df_lemmatized["lemmatized"], glove_file="glove.6B.300d.txt", fit_tokenizer=True )
Követelmények
A csomag használatához az alábbi csomagok szükségesek:
pandas, numpy, re, matplotlib
spacy, nltk, contractions, inflect
tensorflow (csak a tokenizáláshoz és paddinghez)
langdetect (nyelvfelismerés)
A spaCy angol nyelvi modell letöltéséhez:
python -m spacy download en_core_web_sm
Példa
from textpreprocessor import clean_dataset, preprocess_text, lemmat_processing
df = pd.read_csv("data.csv") df_cleaned = clean_dataset(df) df_processed = preprocess_text(df_cleaned, "text", "processed") df_lemmatized = lemmat_processing(df_processed, "processed", "lemmatized")
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file konye_m_packages-0.1.1.tar.gz.
File metadata
- Download URL: konye_m_packages-0.1.1.tar.gz
- Upload date:
- Size: 8.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
bdde6d09084f04a221888c9e7fee0feb9961467612001287b67e585ded606c00
|
|
| MD5 |
9048f5a395e4fee69ce10c5b95c0875d
|
|
| BLAKE2b-256 |
2742c2fa25030850255c802940dca767e845e0dca8b272fdd212d82190978c39
|
File details
Details for the file konye_m_packages-0.1.1-py3-none-any.whl.
File metadata
- Download URL: konye_m_packages-0.1.1-py3-none-any.whl
- Upload date:
- Size: 7.9 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
285834a02728aa99c79f7cb86e38dd038ce9259ef0707c29b482092c77ffbdfb
|
|
| MD5 |
30d06df4ff96ee724f8802b76a573dd1
|
|
| BLAKE2b-256 |
c29e9d165d2c689853554b63627358f46c60a13931958fe228f4dca9ab4b188a
|