Skip to main content

A collection of preprocessing functions for text data

Project description

Ez egy Python alapú csomag, amely különféle szövegelőfeldolgozási funkciókat biztosít természetes nyelvű szövegek tisztítására, előkészítésére és modellezésre való átalakítására. A csomag célja, hogy egységes és testreszabható eszközt biztosítson szövegklasszifikációs vagy más NLP-feladatokhoz. Főbb funkciók

Alapvető tisztítás: dátumok, telefonszámok, HTML tagek, URL-ek, képleírások eltávolítása

Nyelvfelismerés és nem angol nyelvű sorok szűrése

Szöveghossz statisztikák és szógyakorisági vizualizáció

Többféle tokenizálási stratégia:

    stopword nélküli

    álhírek szerinti szakirodalmi szűrés alapján csökkentett stopword lista

    teljes stopword eltávolítás

    számok szavakká alakítása

Lemmatizálás és stemming

GloVe-alapú embedding mátrix generálása

Modellinput előkészítés (tokenizálás, padding)

Használat

  1. Statisztikák és vizualizáció

analyze_text_column(df, "Dataset neve") plot_most_common_words(df, "Dataset neve") # stopword szűrt plot_most_common_words2(df, "Dataset neve") # teljes szókészlet

  1. Adattisztítás

df_cleaned = clean_dataset(df)

  1. Szöveg előfeldolgozás (választható módszerek)

df1 = filtered_preproc(df_cleaned, "text", "processed") # stopword szűrt, POS alapján df2 = preprocess_text(df_cleaned, "text", "processed") # minden stopword megtartva df3 = spacy_preproc(df_cleaned, "text", "processed") # teljes stopword eltávolítás df4 = number_preproc(df_cleaned, "text", "processed") # számokat szöveggé alakít

  1. Nyelvi feldolgozás

df_lemmatized = lemmat_processing(df1, "processed", "lemmatized") df_stemmed = stemming_processing(df1, "processed", "stemmed")

  1. Modellre való előkészítés (GloVe embeddinggel)

MAX_VOCAB_SIZE = 25000 MAX_LENGTH = 700 EMBEDDING_DIM = 300

sequences, embedding_matrix, tokenizer = prepare_for_modeling_with_glove( tokenized_texts=df_lemmatized["lemmatized"], glove_file="glove.6B.300d.txt", fit_tokenizer=True )

Követelmények

A csomag használatához az alábbi csomagok szükségesek:

pandas, numpy, re, matplotlib

spacy, nltk, contractions, inflect

tensorflow (csak a tokenizáláshoz és paddinghez)

langdetect (nyelvfelismerés)

A spaCy angol nyelvi modell letöltéséhez:

python -m spacy download en_core_web_sm

Példa

from textpreprocessor import clean_dataset, preprocess_text, lemmat_processing

df = pd.read_csv("data.csv") df_cleaned = clean_dataset(df) df_processed = preprocess_text(df_cleaned, "text", "processed") df_lemmatized = lemmat_processing(df_processed, "processed", "lemmatized")

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

konye_m_packages-0.1.1.tar.gz (8.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

konye_m_packages-0.1.1-py3-none-any.whl (7.9 kB view details)

Uploaded Python 3

File details

Details for the file konye_m_packages-0.1.1.tar.gz.

File metadata

  • Download URL: konye_m_packages-0.1.1.tar.gz
  • Upload date:
  • Size: 8.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for konye_m_packages-0.1.1.tar.gz
Algorithm Hash digest
SHA256 bdde6d09084f04a221888c9e7fee0feb9961467612001287b67e585ded606c00
MD5 9048f5a395e4fee69ce10c5b95c0875d
BLAKE2b-256 2742c2fa25030850255c802940dca767e845e0dca8b272fdd212d82190978c39

See more details on using hashes here.

File details

Details for the file konye_m_packages-0.1.1-py3-none-any.whl.

File metadata

File hashes

Hashes for konye_m_packages-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 285834a02728aa99c79f7cb86e38dd038ce9259ef0707c29b482092c77ffbdfb
MD5 30d06df4ff96ee724f8802b76a573dd1
BLAKE2b-256 c29e9d165d2c689853554b63627358f46c60a13931958fe228f4dca9ab4b188a

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page