Skip to main content

A package for Tajik text segmentation using a heuristic algorithm and neural network.

Project description

Tajik text segmentation

Usage:

from tajik_text_segmentation import TextSegmenter

text = '''Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд. Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.
Дар Тоҷикистон осоишгоҳҳои:
«Қаротоғ», «Явроз» дар водии Ҳисор;
Осоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;
«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;
«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.'''

segmenter = TextSegmenter('nn')  # or 'heuristic'
result = segmenter.segment_text(text)
print('Sentences:', result['sentences'])
print('Per token probabilities:')
for t, (sp, ep) in zip(result['tokens'], result['probs']):
    print(f"{repr(t):20s}  start: {sp:.2f}  end: {ep:.2f}")

Output:

Sentences: ['Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд.', ' Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.', '\nДар Тоҷикистон осоишгоҳҳои:', '\n«Қаротоғ», «Явроз» дар водии Ҳисор;', '\nОсоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;', '\n«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;', '\n«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.']
Per token probabilities:
'Осоишгоҳҳои'         start: 1.00  end: 0.00
' умумӣ'              start: 0.00  end: 0.00
' (барои'             start: 0.00  end: 0.00
' калонсолон)'        start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' махсус'             start: 0.00  end: 0.00
' (оилавӣ,'           start: 0.00  end: 0.00
' барои'              start: 0.00  end: 0.00
' занҳои'             start: 0.00  end: 0.00
' ҳомила,'            start: 0.00  end: 0.00
' ҷавонон,'           start: 0.00  end: 0.00
' байнихоҷагӣ,'       start: 0.00  end: 0.00
' соҳили'             start: 0.00  end: 0.00
' дарёию'             start: 0.00  end: 0.00
' баҳрӣ'              start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' ғ.)'                start: 0.00  end: 0.00
' мешаванд.'          start: 0.02  end: 0.99
' Осоишгоҳҳо'         start: 0.70  end: 0.00
' барои'              start: 0.00  end: 0.00
' дамгирии'           start: 0.00  end: 0.00
' якрӯза,'            start: 0.00  end: 0.00
' 6'                  start: 0.00  end: 0.00
' -рӯза,'             start: 0.00  end: 0.00
' 12-рӯза'            start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' 24-рӯза'            start: 0.00  end: 0.00
' таъйин'             start: 0.00  end: 0.00
' шудаанд.'           start: 0.00  end: 1.00
'\nДар'               start: 1.00  end: 0.00
' Тоҷикистон'         start: 0.00  end: 0.00
' осоишгоҳҳои:'       start: 0.00  end: 1.00
'\n«Қаротоғ»,'        start: 1.00  end: 0.00
' «Явроз»'            start: 0.00  end: 0.00
' дар'                start: 0.00  end: 0.00
' водии'              start: 0.00  end: 0.00
' Ҳисор;'             start: 0.00  end: 1.00
'\nОсоишгоҳи'         start: 0.99  end: 0.00
' Зумрад,'            start: 0.00  end: 0.00
' «Баҳористон»,'      start: 0.00  end: 0.00
' «Конибодом»,'       start: 0.00  end: 0.00
' «Ҳавотоғ»,'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' «Ӯротеппа»'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.22
' дар'                start: 0.12  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Суғд;'              start: 0.00  end: 1.00
'\n«Чилучорчашма»,'   start: 1.00  end: 0.00
' «Сари'              start: 0.00  end: 0.00
' Хосор»'             start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.29
' дар'                start: 0.17  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Хатлон;'            start: 0.00  end: 1.00
'\n«Гармчашма»'       start: 1.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.31
' дар'                start: 0.25  end: 0.00
' ВМКБ'               start: 0.00  end: 0.00
' амал'               start: 0.00  end: 0.00
' карда'              start: 0.00  end: 0.00
' истодаанд.'         start: 0.00  end: 1.00

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tajik_text_segmentation-0.1.6.tar.gz (118.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

tajik_text_segmentation-0.1.6-py3-none-any.whl (139.4 kB view details)

Uploaded Python 3

File details

Details for the file tajik_text_segmentation-0.1.6.tar.gz.

File metadata

  • Download URL: tajik_text_segmentation-0.1.6.tar.gz
  • Upload date:
  • Size: 118.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.9.16

File hashes

Hashes for tajik_text_segmentation-0.1.6.tar.gz
Algorithm Hash digest
SHA256 125eed0a9e9faee4ec076a32f50f133e91ebd2e34d8743fc9a66ce2117cbb55e
MD5 6d65fabf4eac29d5e7d03ef6e47131a4
BLAKE2b-256 09c0907663409b123f37870a624d7de5a3ad1bde6f6c83897382fe47d5ee0a87

See more details on using hashes here.

File details

Details for the file tajik_text_segmentation-0.1.6-py3-none-any.whl.

File metadata

File hashes

Hashes for tajik_text_segmentation-0.1.6-py3-none-any.whl
Algorithm Hash digest
SHA256 d0f1d47261abc8efee650398991e9d6602632ab5b3b1647a5d47e30e45e5549f
MD5 205408d1b71a906c8d27d36477bdb5f2
BLAKE2b-256 d309a05f146de3f97c1e077f9381121162a8846d2835a8c7428792c4c5911919

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page