A Package for text preprocessing

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

text-preprocessing

text-preprocessing provides text preprocessing functions i.e. text cleaning, dataset preprocessing, tokenization etc

Installation

pip install text-preprocessing

Tutorial

1. Text Cleaning

from nlp_preprocessing import clean

texts = ["Hi I am's nakdur"]
cleaned_texts = clean.clean_v1(texts)

There are multiple cleaning functions:

data_list = to_lower(data_list)
data_list = to_normalize(data_list)
data_list = remove_href(data_list)
data_list = remove_control_char(data_list)
data_list = remove_duplicate(data_list)
data_list = remove_underscore(data_list)
data_list = seperate_spam_chars(data_list)
data_list = seperate_brakets_quotes(data_list)
data_list = break_short_words(data_list)
data_list = break_long_words(data_list)
data_list = remove_ending_underscore(data_list)
data_list = remove_starting_underscore(data_list)
data_list = seperate_end_word_punctuations(data_list)
data_list = seperate_start_word_punctuations(data_list)
data_list = clean_contractions(data_list)
data_list = remove_s(data_list)
data_list = isolate_numbers(data_list)
data_list = regex_split_word(data_list)
data_list = leet_clean(data_list)
data_list = clean_open_holded_words(data_list)
data_list = clean_multiple_form(data_list)

2. Dataset Prepration

from nlp_preprocessing import dataset as ds
import pandas as pd

text = ['I am Test 1','I am Test 2']
label = ['A','B']
aspect = ['C','D']
data = pd.DataFrame({'text':text*5,'label':label*5,'aspect':aspect*5})
data

data_config = {
            'data_class':'multi-label',
            'x_columns':['text'],
            'y_columns':['label','aspect'],
            'one_hot_encoded_columns':[],
            'label_encoded_columns':['label','aspect'],
            'data':data,
            'split_ratio':0.1
          }

dataset = ds.Dataset(data_config)
train, test = dataset.get_train_test_data()

print(train['Y_train'],train['X_train'])
print(test['Y_test'],test['X_test'])
print(dataset.data_config)

3. Seq token generator

texts = ['I am Test 2', 'I am Test 1', 'I am Test 1', 'I am Test 1','I am Test 1', 'I am Test 2', 'I am Test 1', 'I am Test 2','I am Test 2']

tokens = seq_gen.get_word_sequences(texts)
print(tokens)

4. Token embedding creator

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.2.0

Aug 15, 2020

0.1.13

May 31, 2020

0.1.12

May 27, 2020

0.1.11

May 18, 2020

0.1.10

May 18, 2020

0.1.9

May 17, 2020

This version

0.1.8

May 17, 2020

0.1.7

May 17, 2020

0.1.6

Apr 21, 2020

0.1.5

Apr 16, 2020

0.1.4

Apr 16, 2020

0.1.3

Apr 16, 2020

0.1.2

Apr 6, 2020

0.1.1

Apr 4, 2020

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

nlp_preprocessing-0.1.8.tar.gz (13.0 kB view hashes)

Uploaded May 17, 2020 Source

Built Distribution

nlp_preprocessing-0.1.8-py3-none-any.whl (14.0 kB view hashes)

Uploaded May 17, 2020 Python 3

Hashes for nlp_preprocessing-0.1.8.tar.gz

Hashes for nlp_preprocessing-0.1.8.tar.gz
Algorithm	Hash digest
SHA256	`1a99e73d4c5364a9ca99494bb12d35931d449b9e89ce63d0151258d6f26d78c7`
MD5	`8b24eb6f2063accc3faf8beaa66c7511`
BLAKE2b-256	`84b319820afc95c5d0f18e88921d7f6452a2a577db4e156f2a29a78941892a18`

Hashes for nlp_preprocessing-0.1.8-py3-none-any.whl

Hashes for nlp_preprocessing-0.1.8-py3-none-any.whl
Algorithm	Hash digest
SHA256	`cf75c7ed60985d0aa375aa67e6978ed5714fd1997bbe396aba64955f9cafce32`
MD5	`d9bc6d1e4f14ecfb78834fb2f205428a`
BLAKE2b-256	`6b8b67f81a9d24566447eda1a51faedd6e15636f2e8151cf74d7943cf388253f`