Skip to main content

Simple library to make your Indonesian NLP project easier.

Project description

indoNLP

PyPI version Python Version Test Lint codecov Code style: black


Bahasa | English

indoNLP adalah library python sederhana yang bertujuan untuk memudahkan proyek NLP anda.

Installation

indoNLP dapat diinstall dengan mudah dengan menggunakan pip:

$ pip install indoNLP

Preprocessing

Modul indoNLP.preprocessing menyediakan beberapa fungsi umum untuk menyiapkan dan melakukan transformasi terhadap data teks mentah untuk digunakan pada konteks tertentu.

Generics

  1. remove_html

    Menghapus html tag yang terdapat di dalam teks

    >>> from indoNLP.preprocessing import remove_html
    >>> remove_html("website <a href='https://google.com'>google</a>")
    >>> "website google"
    
  2. remove_url

    Menghapus url yang terdapat di dalam teks

    >>> from indoNLP.preprocessing import remove_url
    >>> remove_url("retrieved from https://gist.github.com/gruber/8891611")
    >>> "retrieved from "
    
  3. remove_stopwords

    Stopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti

    Menghapus stopwords yang terdapat di dalam teks. List stopwords bahasa Indonesia didapatkan dari https://stopwords.net/indonesian-id/

    >>> from indoNLP.preprocessing import remove_stopwords
    >>> remove_stopwords("siapa yang suruh makan?!!")
    >>> "  suruh makan?!!"
    
  4. replace_slang

    Mengganti kata gaul (slang) menjadi kata formal tanpa mengubah makna dari kata tersebut. List kata gaul (slang words) bahasa Indonesian didapatkan dari Kamus Alay - Colloquial Indonesian Lexicon oleh Salsabila, Ali, Yosef, and Ade

    >>> from indoNLP.preprocessing import replace_slang
    >>> replace_slang("emg siapa yg nanya?")
    >>> "memang siapa yang bertanya?"
    
  5. replace_word_elongation

    Word elongation adalah tindakan untuk menambahkan huruf ke kata, biasanya di akhir kata

    Meghandle word elongation

    >>> from indoNLP.preprocessing import replace_word_elongation
    >>> replace_word_elongation("kenapaaa?")
    >>> "kenapa?"
    

Emoji

Preproses teks yang mengandung emoji.

  1. emoji_to_words

    Mengubah emoji yang berada dalam sebuah teks menjadi kata - kata yang sesuai dengan emoji tersebut.

    >>> from indoNLP.preprocessing import emoji_to_words
    >>> emoji_to_words("emoji 😀😁")
    >>> "emoji !wajah_gembira!!wajah_gembira_dengan_mata_bahagia!"
    
  2. words_to_emoji

    Mengubah kata - kata dengan kode emoji menjadi emoji.

    >>> from indoNLP.preprocessing import words_to_emoji
    >>> words_to_emoji("emoji !wajah_gembira!")
    >>> "emoji 😀"
    

Pipelining

Membuat pipeline dari sequance fungsi preprocessing

>>> from indoNLP.preprocessing import pipeline, replace_word_elongation, replace_slang
>>> pipe = pipeline([replace_word_elongation, replace_slang])
>>> pipe("Knp emg gk mw makan kenapaaa???")
>>> "kenapa memang enggak mau makan kenapa???"

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

indoNLP-0.2.0.tar.gz (110.0 kB view hashes)

Uploaded Source

Built Distribution

indoNLP-0.2.0-py3-none-any.whl (110.6 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page