A package for Tajik text segmentation using a heuristic algorithm and neural network.
Project description
Tajik text segmentation
Usage:
from tajik_text_segmentation import TextSegmenter
text = '''Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд. Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.
Дар Тоҷикистон осоишгоҳҳои:
«Қаротоғ», «Явроз» дар водии Ҳисор;
Осоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;
«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;
«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.'''
segmenter = TextSegmenter('nn') # or 'heuristic'
result = segmenter.segment_text(text)
print('Sentences:', result['sentences'])
print('Per token probabilities:')
for t, (sp, ep) in zip(result['tokens'], result['probs']):
print(f"{repr(t):20s} start: {sp:.2f} end: {ep:.2f}")
Output:
Sentences: ['Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд.', ' Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.', '\nДар Тоҷикистон осоишгоҳҳои:', '\n«Қаротоғ», «Явроз» дар водии Ҳисор;', '\nОсоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;', '\n«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;', '\n«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.']
Per token probabilities:
'Осоишгоҳҳои' start: 1.00 end: 0.00
' умумӣ' start: 0.00 end: 0.00
' (барои' start: 0.00 end: 0.00
' калонсолон)' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' махсус' start: 0.00 end: 0.00
' (оилавӣ,' start: 0.00 end: 0.00
' барои' start: 0.00 end: 0.00
' занҳои' start: 0.00 end: 0.00
' ҳомила,' start: 0.00 end: 0.00
' ҷавонон,' start: 0.00 end: 0.00
' байнихоҷагӣ,' start: 0.00 end: 0.00
' соҳили' start: 0.00 end: 0.00
' дарёию' start: 0.00 end: 0.00
' баҳрӣ' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' ғ.)' start: 0.00 end: 0.00
' мешаванд.' start: 0.02 end: 0.99
' Осоишгоҳҳо' start: 0.70 end: 0.00
' барои' start: 0.00 end: 0.00
' дамгирии' start: 0.00 end: 0.00
' якрӯза,' start: 0.00 end: 0.00
' 6' start: 0.00 end: 0.00
' -рӯза,' start: 0.00 end: 0.00
' 12-рӯза' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' 24-рӯза' start: 0.00 end: 0.00
' таъйин' start: 0.00 end: 0.00
' шудаанд.' start: 0.00 end: 1.00
'\nДар' start: 1.00 end: 0.00
' Тоҷикистон' start: 0.00 end: 0.00
' осоишгоҳҳои:' start: 0.00 end: 1.00
'\n«Қаротоғ»,' start: 1.00 end: 0.00
' «Явроз»' start: 0.00 end: 0.00
' дар' start: 0.00 end: 0.00
' водии' start: 0.00 end: 0.00
' Ҳисор;' start: 0.00 end: 1.00
'\nОсоишгоҳи' start: 0.99 end: 0.00
' Зумрад,' start: 0.00 end: 0.00
' «Баҳористон»,' start: 0.00 end: 0.00
' «Конибодом»,' start: 0.00 end: 0.00
' «Ҳавотоғ»,' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' «Ӯротеппа»' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.22
' дар' start: 0.12 end: 0.00
' вилояти' start: 0.00 end: 0.00
' Суғд;' start: 0.00 end: 1.00
'\n«Чилучорчашма»,' start: 1.00 end: 0.00
' «Сари' start: 0.00 end: 0.00
' Хосор»' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.29
' дар' start: 0.17 end: 0.00
' вилояти' start: 0.00 end: 0.00
' Хатлон;' start: 0.00 end: 1.00
'\n«Гармчашма»' start: 1.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.31
' дар' start: 0.25 end: 0.00
' ВМКБ' start: 0.00 end: 0.00
' амал' start: 0.00 end: 0.00
' карда' start: 0.00 end: 0.00
' истодаанд.' start: 0.00 end: 1.00
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
tajik_text_segmentation-0.1.5.tar.gz
(118.2 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file tajik_text_segmentation-0.1.5.tar.gz.
File metadata
- Download URL: tajik_text_segmentation-0.1.5.tar.gz
- Upload date:
- Size: 118.2 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.2 CPython/3.9.16
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
408eeaf01947f410e306933420678972ba88251ef9c6a7296fabf968011cbd7c
|
|
| MD5 |
0474d4d96e7a5fc1b53fa21207c48761
|
|
| BLAKE2b-256 |
827d2728627f54f520fbfa7fbc3212ed29a598727e22c533fac28a95e809d75f
|
File details
Details for the file tajik_text_segmentation-0.1.5-py3-none-any.whl.
File metadata
- Download URL: tajik_text_segmentation-0.1.5-py3-none-any.whl
- Upload date:
- Size: 139.3 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.2 CPython/3.9.16
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
9776a1899a2c49a00e2bedff2369ef8b3af158ae4083ac3f6dbdf3972d8fe8f2
|
|
| MD5 |
a9aea4381cda5867b845ebdaa82ddbe6
|
|
| BLAKE2b-256 |
5a5a604a47ace13109555c7ffaeaa090bddfbdd09c8e8a21cc0c4f589401411b
|