Simple python library with zero additional dependencies to make your Indonesian NLP project easier.
Project description
indoNLP
Bahasa | English
indoNLP adalah library python sederhana tanpa dependency tambahan yang bertujuan untuk memudahkan proyek NLP anda.
Installasi
indoNLP dapat diinstall dengan mudah dengan menggunakan pip
:
$ pip install indoNLP
Quick Start
Mengakses Indonesian NLP Open Dataset
Mengakses Indonesian NLP Open Dataset dengan cepat dan mudah.
from indoNLP.dataset import Dataset
handler = Dataset("id-multi-label-hate-speech-and-abusive-language-detection")
data = handler.read()
Jika data bersifat simetrik maka data dapat ditabelisasi menggunakan pandas.DataFrame
import pandas as pd
df = pd.DataFrame(data)
Preprocessing Data Teks
Menerjemahkan emoji dan mengganti kata gaul (slang words)
from indoNLP.preprocessing import emoji_to_words, replace_slang, pipeline
pipe = pipeline([emoji_to_words, replace_slang])
pipe("library yg membara 🔥")
# "library yang membara !api!"
Development
Setup local dev environment. indoNLP
menggunakan python-poetry
untuk packaging dan management dependencies.
$ make setup-dev
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.