Skip to main content

Simple library to make your Indonesian NLP project easier.

Project description

indoNLP

PyPI version Python Version Test Lint codecov Code style: black


Bahasa | English

indoNLP adalah library python sederhana yang bertujuan untuk memudahkan proyek NLP anda.

Installation

indoNLP dapat diinstall dengan mudah dengan menggunakan pip:

$ pip install indoNLP

Preprocessing

Modul indoNLP.preprocessing menyediakan beberapa fungsi umum untuk menyiapkan dan melakukan transformasi terhadap data teks mentah untuk digunakan pada konteks tertentu.

Generics

  1. remove_html

    Menghapus html tag yang terdapat di dalam teks

    >>> from indoNLP.preprocessing import remove_html
    >>> remove_html("website <a href='https://google.com'>google</a>")
    >>> "website google"
    
  2. remove_url

    Menghapus url yang terdapat di dalam teks

    >>> from indoNLP.preprocessing import remove_url
    >>> remove_url("retrieved from https://gist.github.com/gruber/8891611")
    >>> "retrieved from "
    
  3. remove_stopwords

    Stopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti

    Menghapus stopwords yang terdapat di dalam teks. List stopwords bahasa Indonesia didapatkan dari https://stopwords.net/indonesian-id/

    >>> from indoNLP.preprocessing import remove_stopwords
    >>> remove_stopwords("siapa yang suruh makan?!!")
    >>> "  suruh makan?!!"
    
  4. replace_slang

    Mengganti kata gaul (slang) menjadi kata formal tanpa mengubah makna dari kata tersebut. List kata gaul (slang words) bahasa Indonesian didapatkan dari Kamus Alay - Colloquial Indonesian Lexicon oleh Salsabila, Ali, Yosef, and Ade

    >>> from indoNLP.preprocessing import replace_slang
    >>> replace_slang("emg siapa yg nanya?")
    >>> "memang siapa yang bertanya?"
    
  5. replace_word_elongation

    Word elongation adalah tindakan untuk menambahkan huruf ke kata, biasanya di akhir kata

    Meghandle word elongation

    >>> from indoNLP.preprocessing import replace_word_elongation
    >>> replace_word_elongation("kenapaaa?")
    >>> "kenapa?"
    

Emoji

Preproses teks yang mengandung emoji.

  1. emoji_to_words

    Mengubah emoji yang berada dalam sebuah teks menjadi kata - kata yang sesuai dengan emoji tersebut.

    >>> from indoNLP.preprocessing import emoji_to_words
    >>> emoji_to_words("emoji 😀😁")
    >>> "emoji !wajah_gembira!!wajah_gembira_dengan_mata_bahagia!"
    
  2. words_to_emoji

    Mengubah kata - kata dengan kode emoji menjadi emoji.

    >>> from indoNLP.preprocessing import words_to_emoji
    >>> words_to_emoji("emoji !wajah_gembira!")
    >>> "emoji 😀"
    

Pipelining

Membuat pipeline dari sequance fungsi preprocessing

>>> from indoNLP.preprocessing import pipeline, replace_word_elongation, replace_slang
>>> pipe = pipeline([replace_word_elongation, replace_slang])
>>> pipe("Knp emg gk mw makan kenapaaa???")
>>> "kenapa memang enggak mau makan kenapa???"

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

indoNLP-0.2.0.tar.gz (110.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

indoNLP-0.2.0-py3-none-any.whl (110.6 kB view details)

Uploaded Python 3

File details

Details for the file indoNLP-0.2.0.tar.gz.

File metadata

  • Download URL: indoNLP-0.2.0.tar.gz
  • Upload date:
  • Size: 110.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.1.13 CPython/3.8.10 Linux/5.10.16.3-microsoft-standard-WSL2

File hashes

Hashes for indoNLP-0.2.0.tar.gz
Algorithm Hash digest
SHA256 77b732dcc1347d6807b272373399d1f08ab4274a8c97efaab5ad25a6788f1c4f
MD5 8a0e5a203a0b3b7e54e5274fc184f3ca
BLAKE2b-256 9d361ef0367caffe63fdc8dcdf0e08a18cc79ebbad64fab7541cb8cdd7bcb770

See more details on using hashes here.

File details

Details for the file indoNLP-0.2.0-py3-none-any.whl.

File metadata

  • Download URL: indoNLP-0.2.0-py3-none-any.whl
  • Upload date:
  • Size: 110.6 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.1.13 CPython/3.8.10 Linux/5.10.16.3-microsoft-standard-WSL2

File hashes

Hashes for indoNLP-0.2.0-py3-none-any.whl
Algorithm Hash digest
SHA256 0392263c249135255b3bef87db8808ebed9f70be35588e47a0a534d1b14c67ca
MD5 1e9853c0bf7a8aca15553ee21b6cf09b
BLAKE2b-256 8ae9e235e57266eabcf42c8dc580cf6bcdab0d9f2795b64e49762991801914f4

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page