Library for processing serbian language
Project description
SrbAI - Python biblioteka za procesiranje srpskog jezika
SrbAI je projekat prikupljanja algoritama i modela za procesiranje srpskog jezika u jedinstvenu Python biblioteku. Biblioteka treba da sadrži kako osnovne metode za procesiranje srpskog, poput stemmera, prepoznavanje vrsta reči (part-of-speech tagging), negacija, do naprednijih funkcionalnosti, poput prepoznavanje imenovanih entiteta (named entity tagging), klasifikacije, itd. Biblioteka jednostavno može da se proširi novim metodima, tako da je ideja da se veći broj studenata, doktoranada i drugih ljudi koji rade i su zainteresovani za razvoj srpskog procesiranja jezika uključe u razvoj projekta.
Vizija projekta je da postane jedinstven i sveobuhvatan resurs za obradu srpskog jezika koji bi se koristio bilo u akademske, bilo u komercijalne svrhe.
Instalacija
Kada klonirate paket, možete ga instalirati uz pomoć:
python -m pip install --upgrade build .
Paket se može kreirati uz pomoć komande:
python -m build
Nakon čega se može instalirati uz pomoć python pip komande
Upotreba
Nakon instalacije, paket se može importovati kao
import srbai
Transliteracija
Za transliteraciju postoje 2 metode, jedna za transliteraciju sa ćirilice na latinicu, dok druga za transliteraciju sa latinice na ćirilicu
from srbai.Alati.Transliterator import transliterate_cir2lat,transliterate_lat2cir
lat = transliterate_cir2lat("Текст на ћирилици. ")
cir = transliterate_lat2cir("Tekst na latinici. ")
Stemmer
Stemer se može koristiti uz pomoć sledeće dve funkcije:
- stem_str - pretvara ulazni tekst u stemmovani izlazni string
- stem_arr - pretvata ulazni tekst u niz string-ova koji su stemmovani
Primer:
from srbai.SintaktickiOperatori.stemmer_nm import stem_str, stem_arr
sent = stem_str("Jovica je išao u školu. Marija je dobra devojka.")
from srbai.SintaktickiOperatori.stemmer_nm import stem_str, stem_arr
sent_arr = stem_arr("Jovica je išao u školu. Marija je dobra devojka.")
Pronalaženje vrsta reči (Part-of-speech tagging)
Za pronalaženje vrsta reči u rečenici i morfološku analizu koristimo HunPos model koji je treniran za srpski i hrvatski jezik.
O karakteristikama modela, oznakama vrsta reči možete više pročitati na http://nlp.ffzg.hr/data/tagging/msd-hr.html
Da bi se model instancirao u memoriju, koristi se klasa, radi brže kasnije obrade i optimizacije resursa.
Primeri korišćenja:
from srbai.SintaktickiOperatori.POS_tagger import POS_Tagger
pt = POS_Tagger()
tags = pt.tag('Jovica je išao u školu. Marija je dobra devojka.')
# [('Jovica', b'N-msn'), ('je', b'Vcr3s'), ('išao', b'Vmp-sm'), ('u', b'Sa'), ('školu', b'N-fsa'), ('.', b'Z'), ('Marija', b'N-fsn'), ('je', b'Vcr3s'), ('dobra', b'Agpfsn'), ('devojka', b'N-fsn'), ('.', b'Z')]
Autori i kontributori
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file SrbAI-0.0.1.tar.gz
.
File metadata
- Download URL: SrbAI-0.0.1.tar.gz
- Upload date:
- Size: 9.0 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.6.0 importlib_metadata/4.8.2 pkginfo/1.8.1 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.2
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 95d950e50f2c549057aa3169321fbf7b166ca2c92f55f32ee7ad5e6c4ea055a7 |
|
MD5 | 93cec5a2b8f37c4e2d82139332c3c174 |
|
BLAKE2b-256 | e16aa65177df5d1da07210add1564c650d49745061efa4c19c1250875e0693bb |
File details
Details for the file SrbAI-0.0.1-py3-none-any.whl
.
File metadata
- Download URL: SrbAI-0.0.1-py3-none-any.whl
- Upload date:
- Size: 8.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.6.0 importlib_metadata/4.8.2 pkginfo/1.8.1 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.2
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | b0d6dbea90057001c03f5edf93c190f4587f1603142527304101b9f71eab5196 |
|
MD5 | 0b63545cb96f38be38b9407a5ceacecd |
|
BLAKE2b-256 | 84d4064dffd565348251f350fac066d72553d45c4758e9cd5ff1ad50faebd029 |