Simple library to make your Indonesian NLP project easier.
Project description
indoNLP
Bahasa | English
indoNLP adalah library python sederhana yang bertujuan untuk memudahkan proyek NLP anda.
Installation
indoNLP dapat diinstall dengan mudah dengan menggunakan pip
:
$ pip install indoNLP
Preprocessing
Modul indoNLP.preprocessing
menyediakan beberapa fungsi umum untuk menyiapkan dan melakukan
transformasi terhadap data teks mentah untuk digunakan pada konteks tertentu.
Generics
-
remove_html
Menghapus html tag yang terdapat di dalam teks
>>> from indoNLP.preprocessing import remove_html >>> remove_html("website <a href='https://google.com'>google</a>") "website google"
-
remove_url
Menghapus url yang terdapat di dalam teks
>>> from indoNLP.preprocessing import remove_url >>> remove_url("retrieved from https://gist.github.com/gruber/8891611") "retrieved from"
-
remove_stopwords
Stopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti
Menghapus stopwords yang terdapat di dalam teks. List stopwords bahasa Indonesia didapatkan dari https://stopwords.net/indonesian-id/
>>> from indoNLP.preprocessing import remove_stopwords >>> remove_stopwords("siapa yang suruh makan?!!") "suruh makan?!!"
-
replace_slang
Mengganti kata gaul (slang) menjadi kata formal tanpa mengubah makna dari kata tersebut. List kata gaul (slang words) bahasa Indonesian didapatkan dari Kamus Alay - Colloquial Indonesian Lexicon oleh Salsabila, Ali, Yosef, and Ade
>>> from indoNLP.preprocessing import replace_slang >>> replace_slang("emg siapa yg nanya?") "memang siapa yang bertanya?"
-
replace_word_elongation
Word elongation adalah tindakan untuk menambahkan huruf ke kata, biasanya di akhir kata
Meghandle word elongation
>>> from indoNLP.preprocessing import replace_word_elongation >>> replace_word_elongation("kenapaaa?") "kenapa?"
Emoji
Preproses teks yang mengandung emoji.
-
emoji_to_words
Mengubah emoji yang berada dalam sebuah teks menjadi kata - kata yang sesuai dengan emoji tersebut.
>>> from indoNLP.preprocessing import emoji_to_words >>> emoji_to_words("emoji 😀😁") "emoji !wajah_gembira!!wajah_gembira_dengan_mata_bahagia!"
-
words_to_emoji
Mengubah kata - kata dengan kode emoji menjadi emoji.
>>> from indoNLP.preprocessing import words_to_emoji >>> words_to_emoji("emoji !wajah_gembira!") "emoji 😀"
Pipelining
Membuat pipeline dari sequance fungsi preprocessing
>>> from indoNLP.preprocessing import pipeline, replace_word_elongation, replace_slang
>>> pipe = pipeline([replace_word_elongation, replace_slang])
>>> pipe("Knp emg gk mw makan kenapaaa???")
"kenapa memang enggak mau makan kenapa???"
Development
Setup local dev environment.
make setup-dev
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.