Sinhala NLP Toolkit
Project description
Sinlib
Installation
Using pypi
pip install sinlib
Basic usage
- Tokenizer
from sinlib import Tokenizer
corpus = """මේ අතර, පෙබරවාරි මාසයේ පළමු දින 08 තුළ පමණක් විදෙස් සංචාරකයන් 60,122 දෙනෙකු මෙරටට පැමිණ තිබේ.
ඒ අනුව මේ වසරේ ගත වූ කාලය තුළ සංචාරකයන් 268,375 දෙනෙකු දිවයිනට පැමිණ ඇති බව සංචාරක සංවර්ධන අධිකාරිය සඳහන් කරයි.
ඉන් වැඩි ම සංචාරකයන් පිරිසක් ඉන්දියාවෙන් පැමිණ ඇති අතර, එම සංඛ්යාව 42,768කි.
ඊට අමතර ව රුසියාවෙන් සංචාරකයන් 39,914ක්, බ්රිතාන්යයෙන් 22,278ක් සහ ජර්මනියෙන් සංචාරකයන් 18,016 දෙනෙකු පැමිණ ඇති බව වාර්තා වේ."""
tokenizer = Tokenizer()
tokenizer.train([corpus])
#encode text into tokens
encoding = tokenizer("මේ අතර, පෙබරවාරි මාසයේ පළමු")
#list tokens
[tokenizer.token_id_to_token_map[id] for id in encoding]
['මේ', ' ', 'අ', 'ත', 'ර', ',', ' ', 'පෙ', 'බ', 'ර', 'වා', 'රි', ' ', 'මා', 'ස', 'යේ', ' ', 'ප', 'ළ', 'මු']
- Preprocessor
sent = ['මෙය සිංහල වාක්යක්', 'මෙය සිංහල වාක්යක් සමග english character කීපයක්','This is complete english sentence']
print(sent)
#['මෙය සිංහල වාක්\u200dයක්', 'මෙය සිංහල වාක්\u200dයක් සමග english character කීපයක්', 'This is #complete english sentence']
from sinlib.preprocessing import get_sinhala_character_ratio
get_sinhala_character_ratio(sent)
#[0.9, 0.46875, 0.0]
- Sinnhala Romanizer
texts = ["hello, මේ මාසයේ ගත වූ දින 15ක කාලය තුළ කොළඹ නගරය ආශ්රිත ව", "මෑතකාලීන ව රට මුහුණ දුන් අභියෝගාත්මකම ආර්ථික කාරණාව ණය ප්රතිව්යුගතකරණය බව මුදල් රාජ්ය අමාත්ය ආචාර්ය රංජිත් සියඹ$$$ mahatha see more****"]
from sinlib import Romanizer
romanizer = Romanizer(char_mapper_fp = None, tokenizer_vocab_path = None)
romanizer(text)
#['hello, me masaye gatha wu dina 15ka kalaya thula kolaba nagaraya ashritha wa',
# 'methakaleena wa rata muhuna dun abhiyogathmakama arthika karanawa naya prathiwyugathakaranaya #bawa mudal rajya amathya acharya ranjith siyaba$$$ mahatha see more****']
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
sinlib-0.1.5.tar.gz
(4.3 MB
view details)
Built Distribution
File details
Details for the file sinlib-0.1.5.tar.gz
.
File metadata
- Download URL: sinlib-0.1.5.tar.gz
- Upload date:
- Size: 4.3 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.19
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 0c91cb31fbf70f036afcc874600b6ea7f60a95862985b1dcc01a60d3b6ef5c7c |
|
MD5 | 7f9d9eda8034e46548e83c59031b9f49 |
|
BLAKE2b-256 | f787f18dc605de83f728ea32934dc42d412f4631659cc4a9a520728027734b73 |
File details
Details for the file sinlib-0.1.5-py3-none-any.whl
.
File metadata
- Download URL: sinlib-0.1.5-py3-none-any.whl
- Upload date:
- Size: 4.2 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.19
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | ca9be0b49705add84e7b1a9e74a55f7a4bd507d6a3c5d8073ebdbfda64811cb7 |
|
MD5 | 7d761778cd212c78379d66a8467b311f |
|
BLAKE2b-256 | 4fe8ed2edd89668ebeace6f87bf1c82f8bb7205271c289af1763e7172c8ce6f3 |