Simple library to make your Indonesian NLP project easier.
Project description
indoNLP
Bahasa | English
indoNLP adalah library python sederhana yang bertujuan untuk memudahkan proyek NLP anda.
Installation
indoNLP dapat diinstall dengan mudah dengan menggunakan pip:
$ pip install indoNLP
Preprocessing
Modul indoNLP.preprocessing menyediakan beberapa fungsi umum untuk menyiapkan dan melakukan
transformasi terhadap data teks mentah untuk digunakan pada konteks tertentu.
Generics
-
remove_htmlMenghapus html tag yang terdapat di dalam teks
>>> from indoNLP.preprocessing import remove_html >>> remove_html("website <a href='https://google.com'>google</a>") >>> "website google"
-
remove_urlMenghapus url yang terdapat di dalam teks
>>> from indoNLP.preprocessing import remove_url >>> remove_url("retrieved from https://gist.github.com/gruber/8891611") >>> "retrieved from "
-
remove_stopwordsStopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti
Menghapus stopwords yang terdapat di dalam teks. List stopwords bahasa Indonesia didapatkan dari https://stopwords.net/indonesian-id/
>>> from indoNLP.preprocessing import remove_stopwords >>> remove_stopwords("siapa yang suruh makan?!!") >>> " suruh makan?!!"
-
replace_slangMengganti kata gaul (slang) menjadi kata formal tanpa mengubah makna dari kata tersebut. List kata gaul (slang words) bahasa Indonesian didapatkan dari Kamus Alay - Colloquial Indonesian Lexicon oleh Salsabila, Ali, Yosef, and Ade
>>> from indoNLP.preprocessing import replace_slang >>> replace_slang("emg siapa yg nanya?") >>> "memang siapa yang bertanya?"
-
replace_word_elongationWord elongation adalah tindakan untuk menambahkan huruf ke kata, biasanya di akhir kata
Meghandle word elongation
>>> from indoNLP.preprocessing import replace_word_elongation >>> replace_word_elongation("kenapaaa?") >>> "kenapa?"
Emoji
Preproses teks yang mengandung emoji.
-
emoji_to_wordsMengubah emoji yang berada dalam sebuah teks menjadi kata - kata yang sesuai dengan emoji tersebut.
>>> from indoNLP.preprocessing import emoji_to_words >>> emoji_to_words("emoji 😀😁") >>> "emoji !wajah_gembira!!wajah_gembira_dengan_mata_bahagia!"
-
words_to_emojiMengubah kata - kata dengan kode emoji menjadi emoji.
>>> from indoNLP.preprocessing import words_to_emoji >>> words_to_emoji("emoji !wajah_gembira!") >>> "emoji 😀"
Pipelining
Membuat pipeline dari sequance fungsi preprocessing
>>> from indoNLP.preprocessing import pipeline, replace_word_elongation, replace_slang
>>> pipe = pipeline([replace_word_elongation, replace_slang])
>>> pipe("Knp emg gk mw makan kenapaaa???")
>>> "kenapa memang enggak mau makan kenapa???"
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file indoNLP-0.2.0.tar.gz.
File metadata
- Download URL: indoNLP-0.2.0.tar.gz
- Upload date:
- Size: 110.0 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.1.13 CPython/3.8.10 Linux/5.10.16.3-microsoft-standard-WSL2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
77b732dcc1347d6807b272373399d1f08ab4274a8c97efaab5ad25a6788f1c4f
|
|
| MD5 |
8a0e5a203a0b3b7e54e5274fc184f3ca
|
|
| BLAKE2b-256 |
9d361ef0367caffe63fdc8dcdf0e08a18cc79ebbad64fab7541cb8cdd7bcb770
|
File details
Details for the file indoNLP-0.2.0-py3-none-any.whl.
File metadata
- Download URL: indoNLP-0.2.0-py3-none-any.whl
- Upload date:
- Size: 110.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.1.13 CPython/3.8.10 Linux/5.10.16.3-microsoft-standard-WSL2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
0392263c249135255b3bef87db8808ebed9f70be35588e47a0a534d1b14c67ca
|
|
| MD5 |
1e9853c0bf7a8aca15553ee21b6cf09b
|
|
| BLAKE2b-256 |
8ae9e235e57266eabcf42c8dc580cf6bcdab0d9f2795b64e49762991801914f4
|