Advanced Indonesian Natural Language Processing Library

These details have not been verified by PyPI

Project links

Project description

nahiarhdNLP - Advanced Indonesian Natural Language Processing Library

Advanced Indonesian Natural Language Processing Library dengan fitur preprocessing teks, normalisasi slang, konversi emoji, koreksi ejaan, dan banyak lagi.

🚀 Instalasi

pip install nahiarhdNLP

📦 Import Library

# Import module preprocessing
from nahiarhdNLP import preprocessing

# Import fungsi spesifik
from nahiarhdNLP.preprocessing import (
    remove_html, remove_url, remove_mentions, replace_slang,
    emoji_to_words, correct_spelling, clean_text
)

# Import kelas untuk penggunaan advanced
from nahiarhdNLP.preprocessing import (
    TextCleaner, SpellCorrector, StopwordRemover,
    Stemmer, EmojiConverter, Tokenizer
)

# Import dataset loader (dua cara)
from nahiarhdNLP.datasets import DatasetLoader
# atau
from nahiarhdNLP.datasets.loaders import DatasetLoader

📋 Contoh Penggunaan

1. 🧹 TextCleaner - Membersihkan Teks

from nahiarhdNLP.preprocessing import TextCleaner

cleaner = TextCleaner()

# Membersihkan URL
url_text = "kunjungi https://google.com sekarang!"
clean_result = cleaner.clean_urls(url_text)
print(clean_result)
# Output: "kunjungi  sekarang!"

# Membersihkan mentions
mention_text = "Halo @user123 apa kabar?"
clean_result = cleaner.clean_mentions(mention_text)
print(clean_result)
# Output: "Halo  apa kabar?"

# Membersihkan teks secara menyeluruh
messy_text = "Halooo!!! @user #trending https://example.com 😀"
clean_result = cleaner.clean(messy_text)
print(clean_result)
# Output: teks yang sudah dibersihkan

2. ✏️ SpellCorrector - Koreksi Ejaan & Normalisasi Slang

from nahiarhdNLP.preprocessing import SpellCorrector

spell = SpellCorrector()

# Koreksi kata salah eja
word = "mencri"
corrected = spell.correct_word(word)
print(corrected)
# Output: "mencuri"

# Koreksi kalimat lengkap (termasuk normalisasi slang)
sentence = "gw lg mencri informsi"
corrected = spell.correct_sentence(sentence)
print(corrected)
# Output: "saya lagi mencuri informasi"

3. 🚫 StopwordRemover - Menghapus Stopwords

from nahiarhdNLP.preprocessing import StopwordRemover

stopword = StopwordRemover()
stopword._load_data()  # Load dataset stopwords

# Menghapus stopwords
text = "saya suka makan nasi goreng"
result = stopword.remove_stopwords(text)
print(result)
# Output: "suka makan nasi goreng"

# Menambah custom stopwords
stopword.add_custom_stopwords(["adalah", "akan"])

4. 😀 EmojiConverter - Konversi Emoji

from nahiarhdNLP.preprocessing import EmojiConverter

emoji = EmojiConverter()
emoji._load_data()  # Load dataset emoji

# Emoji ke teks
emoji_text = "😀 😂 😍"
text_result = emoji.emoji_to_text_convert(emoji_text)
print(text_result)
# Output: "wajah_gembira wajah_tertawa wajah_bercinta"

# Teks ke emoji
text = "wajah_gembira"
emoji_result = emoji.text_to_emoji_convert(text)
print(emoji_result)
# Output: "😀"

5. 🔪 Tokenizer - Tokenisasi

from nahiarhdNLP.preprocessing import Tokenizer

tokenizer = Tokenizer()

# Tokenisasi teks
text = "ini contoh tokenisasi"
tokens = tokenizer.tokenize(text)
print(tokens)
# Output: ['ini', 'contoh', 'tokenisasi']

6. 🌿 Stemmer - Stemming (Memerlukan Sastrawi)

from nahiarhdNLP.preprocessing import Stemmer

try:
    stemmer = Stemmer()
    text = "bermain-main dengan senang"
    result = stemmer.stem(text)
    print(result)
    # Output: "main main dengan senang"
except ImportError:
    print("Install Sastrawi dengan: pip install Sastrawi")

7. 🛠️ Fungsi Individual

from nahiarhdNLP.preprocessing import (
    remove_html, remove_url, remove_mentions,
    replace_slang, emoji_to_words, correct_spelling,
    remove_stopwords, clean_text
)

# Menghapus HTML
html_text = "website <a href='https://google.com'>google</a>"
clean_text_result = remove_html(html_text)
print(clean_text_result)
# Output: "website google"

# Menghapus URL
url_text = "kunjungi https://google.com sekarang!"
clean_text_result = remove_url(url_text)
print(clean_text_result)
# Output: "kunjungi  sekarang!"

# Normalisasi slang (menggunakan SpellCorrector)
slang_text = "emg siapa yg nanya?"
normal_text = replace_slang(slang_text)
print(normal_text)
# Output: "memang siapa yang bertanya?"

# Konversi emoji
emoji_text = "😀 😂 😍"
text_result = emoji_to_words(emoji_text)
print(text_result)
# Output: "wajah_gembira wajah_tertawa wajah_bercinta"

# Koreksi ejaan
spell_text = "saya mencri informsi"
corrected = correct_spelling(spell_text)
print(corrected)
# Output: "saya mencuri informasi"

# Cleaning menyeluruh
messy_text = "Halooo!!! @user #trending https://example.com"
cleaned = clean_text(messy_text)
print(cleaned)
# Output: teks yang sudah dibersihkan

8. 📊 Dataset Loader

from nahiarhdNLP.datasets import DatasetLoader

loader = DatasetLoader()

# Load stopwords dari CSV lokal
stopwords = loader.load_stopwords_dataset()
print(f"Jumlah stopwords: {len(stopwords)}")

# Load slang dictionary dari CSV lokal
slang_dict = loader.load_slang_dataset()
print(f"Jumlah slang: {len(slang_dict)}")

# Load emoji dictionary dari CSV lokal
emoji_dict = loader.load_emoji_dataset()
print(f"Jumlah emoji: {len(emoji_dict)}")

# Load wordlist dari JSON lokal
wordlist = loader.load_wordlist_dataset()
print(f"Jumlah kata: {len(wordlist)}")

Catatan: Semua dataset (stopword, slang, emoji, wordlist) di-load langsung dari file CSV/JSON di folder nahiarhdNLP/datasets/. Tidak ada proses cache atau download dari HuggingFace.

🚨 Error Handling

try:
    from nahiarhdNLP.preprocessing import SpellCorrector
    spell = SpellCorrector()
    result = spell.correct_sentence("test")
except ImportError:
    print("Package nahiarhdNLP belum terinstall")
    print("Install dengan: pip install nahiarhdNLP")
except Exception as e:
    print(f"Error: {e}")

💡 Tips Penggunaan

Untuk cleaning dasar: Gunakan clean_text() atau kelas TextCleaner
Untuk kontrol penuh: Gunakan kelas individual (TextCleaner, SpellCorrector, dll)
Untuk spell correction + slang: Gunakan SpellCorrector yang menggabungkan kedua fitur
Untuk stemming: Install Sastrawi terlebih dahulu: pip install Sastrawi
Untuk load dataset: Gunakan DatasetLoader dari nahiarhdNLP.datasets
Untuk inisialisasi kelas: Jangan lupa panggil _load_data() untuk kelas yang memerlukan dataset

⚡ Performance & Dataset

Mulai versi terbaru, nahiarhdNLP menggunakan dataset lokal yang sudah disediakan:

Stopwords: File stop_word.csv
Slang Dictionary: File slang.csv
Emoji Mapping: File emoji.csv
Wordlist: File wordlist.json
KBBI Dictionary: File kata_dasar_kbbi.csv

Semua dataset tersimpan di folder nahiarhdNLP/datasets/ dan diakses melalui DatasetLoader.

📦 Dependencies

Package ini membutuhkan:

pandas - untuk load dan proses dataset CSV/JSON
sastrawi - untuk stemming (opsional)
rich - untuk output formatting (opsional)

🔧 Struktur Modul

nahiarhdNLP/
├── datasets/
│   ├── loaders.py          # DatasetLoader class
│   ├── emoji.csv           # Dataset emoji
│   ├── slang.csv           # Dataset slang
│   ├── stop_word.csv       # Dataset stopwords
│   ├── wordlist.json       # Dataset wordlist
│   └── kata_dasar_kbbi.csv # Dataset KBBI
├── preprocessing/
│   ├── cleaning/
│   │   └── text_cleaner.py # TextCleaner class
│   ├── linguistic/
│   │   ├── stemmer.py      # Stemmer class
│   │   └── stopwords.py    # StopwordRemover class
│   ├── normalization/
│   │   ├── emoji.py        # EmojiConverter class
│   │   └── spell_corrector.py # SpellCorrector class
│   ├── tokenization/
│   │   └── tokenizer.py    # Tokenizer class
│   └── utils.py            # Fungsi utility individual
└── demo.py                 # File demo penggunaan

🆕 Perubahan Versi 1.1.0

✅ Menggabungkan spell correction dan slang normalization dalam SpellCorrector
✅ Semua dataset menggunakan file lokal (CSV/JSON)
✅ Struktur yang lebih terorganisir dengan pemisahan kelas dan fungsi
✅ Penambahan DatasetLoader untuk manajemen dataset terpusat
❌ Menghapus dependency HuggingFace untuk dataset
❌ Menghapus fitur preprocess() all-in-one dan pipeline() (akan ditambahkan di versi mendatang)

🐛 Troubleshooting

Error saat import dataset:

# Pastikan memanggil _load_data() untuk kelas yang memerlukan dataset
stopword = StopwordRemover()
stopword._load_data()  # Penting!

Error Sastrawi tidak ditemukan:

pip install Sastrawi

Error pandas tidak ditemukan:

pip install pandas

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

1.5.3

Jan 8, 2026

1.5.2

Jan 8, 2026

1.5.1

Dec 17, 2025

1.5

Dec 17, 2025

1.4.11

Dec 17, 2025

1.4.10

Dec 17, 2025

1.4.9

Dec 16, 2025

1.4.8

Dec 16, 2025

1.4.6

Sep 3, 2025

1.4.5

Sep 2, 2025

1.4.4

Sep 2, 2025

1.4.3

Sep 2, 2025

1.4.2

Sep 2, 2025

1.4.1

Sep 2, 2025

1.4.0

Sep 2, 2025

1.3.2

Jul 28, 2025

1.3.1

Jul 28, 2025

1.2.6

Jul 28, 2025

1.2.5

Jul 25, 2025

1.2.4

Jul 24, 2025

1.2.3

Jul 24, 2025

1.2.2

Jul 24, 2025

1.2.1

Jul 24, 2025

1.2.0

Jul 24, 2025

1.1.1

Jul 24, 2025

This version

1.1.0

Jul 24, 2025

1.0.7

Jul 18, 2025

1.0.6

Jul 18, 2025

1.0.5

Jul 18, 2025

1.0.4

Jul 18, 2025

1.0.3

Jul 18, 2025

1.0.2

Jul 18, 2025

1.0.1

Jul 17, 2025

1.0.0

Jul 17, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

nahiarhdnlp-1.1.0.tar.gz (781.0 kB view details)

Uploaded Jul 24, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

nahiarhdnlp-1.1.0-py3-none-any.whl (786.2 kB view details)

Uploaded Jul 24, 2025 Python 3

File details

Details for the file nahiarhdnlp-1.1.0.tar.gz.

File metadata

Download URL: nahiarhdnlp-1.1.0.tar.gz
Upload date: Jul 24, 2025
Size: 781.0 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.6

File hashes

Hashes for nahiarhdnlp-1.1.0.tar.gz
Algorithm	Hash digest
SHA256	`8f80a8860f762b22a8eb1b7966e1114e8bd2f7de1ea2678ed575616a9a492181`
MD5	`3e371ff50db81c89f185401bc589dd06`
BLAKE2b-256	`76a3f79d5a19769b1e7e226b1f2d7cc6cb24706fd96cb2172bbc247e96296468`

See more details on using hashes here.

File details

Details for the file nahiarhdnlp-1.1.0-py3-none-any.whl.

File metadata

Download URL: nahiarhdnlp-1.1.0-py3-none-any.whl
Upload date: Jul 24, 2025
Size: 786.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.6

File hashes

Hashes for nahiarhdnlp-1.1.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`1566966a3c5c7c475918a6b3ae49b4456c15ff5648ca04843a216d0cfe07004e`
MD5	`75dd55d5d128efcf7f4304972187c9c9`
BLAKE2b-256	`24fc360861b193fd6658c04089e6749431f039e037e70ff80ed97bd989a0a88a`

See more details on using hashes here.

nahiarhdNLP 1.1.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

nahiarhdNLP - Advanced Indonesian Natural Language Processing Library

🚀 Instalasi

📦 Import Library

📋 Contoh Penggunaan

1. 🧹 TextCleaner - Membersihkan Teks

2. ✏️ SpellCorrector - Koreksi Ejaan & Normalisasi Slang

3. 🚫 StopwordRemover - Menghapus Stopwords

4. 😀 EmojiConverter - Konversi Emoji

5. 🔪 Tokenizer - Tokenisasi

6. 🌿 Stemmer - Stemming (Memerlukan Sastrawi)

7. 🛠️ Fungsi Individual

8. 📊 Dataset Loader

🚨 Error Handling

💡 Tips Penggunaan

⚡ Performance & Dataset

📦 Dependencies

🔧 Struktur Modul

🆕 Perubahan Versi 1.1.0

🐛 Troubleshooting

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes