Skip to main content

A package for Tajik text segmentation using a heuristic algorithm and neural network.

Project description

Tajik text segmentation

Usage:

from tajik_text_segmentation import TextSegmenter

text = '''Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд. Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.
Дар Тоҷикистон осоишгоҳҳои:
«Қаротоғ», «Явроз» дар водии Ҳисор;
Осоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;
«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;
«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.'''

segmenter = TextSegmenter('nn')  # or 'heuristic'
result = segmenter.segment_text(text)
print('Sentences:', result['sentences'])
print('Per token probabilities:')
for t, (sp, ep) in zip(result['tokens'], result['probs']):
    print(f"{repr(t):20s}  start: {sp:.2f}  end: {ep:.2f}")

Output:

Sentences: ['Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд.', ' Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.', '\nДар Тоҷикистон осоишгоҳҳои:', '\n«Қаротоғ», «Явроз» дар водии Ҳисор;', '\nОсоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;', '\n«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;', '\n«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.']
Per token probabilities:
'Осоишгоҳҳои'         start: 1.00  end: 0.00
' умумӣ'              start: 0.00  end: 0.00
' (барои'             start: 0.00  end: 0.00
' калонсолон)'        start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' махсус'             start: 0.00  end: 0.00
' (оилавӣ,'           start: 0.00  end: 0.00
' барои'              start: 0.00  end: 0.00
' занҳои'             start: 0.00  end: 0.00
' ҳомила,'            start: 0.00  end: 0.00
' ҷавонон,'           start: 0.00  end: 0.00
' байнихоҷагӣ,'       start: 0.00  end: 0.00
' соҳили'             start: 0.00  end: 0.00
' дарёию'             start: 0.00  end: 0.00
' баҳрӣ'              start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' ғ.)'                start: 0.00  end: 0.00
' мешаванд.'          start: 0.02  end: 0.99
' Осоишгоҳҳо'         start: 0.70  end: 0.00
' барои'              start: 0.00  end: 0.00
' дамгирии'           start: 0.00  end: 0.00
' якрӯза,'            start: 0.00  end: 0.00
' 6'                  start: 0.00  end: 0.00
' -рӯза,'             start: 0.00  end: 0.00
' 12-рӯза'            start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' 24-рӯза'            start: 0.00  end: 0.00
' таъйин'             start: 0.00  end: 0.00
' шудаанд.'           start: 0.00  end: 1.00
'\nДар'               start: 1.00  end: 0.00
' Тоҷикистон'         start: 0.00  end: 0.00
' осоишгоҳҳои:'       start: 0.00  end: 1.00
'\n«Қаротоғ»,'        start: 1.00  end: 0.00
' «Явроз»'            start: 0.00  end: 0.00
' дар'                start: 0.00  end: 0.00
' водии'              start: 0.00  end: 0.00
' Ҳисор;'             start: 0.00  end: 1.00
'\nОсоишгоҳи'         start: 0.99  end: 0.00
' Зумрад,'            start: 0.00  end: 0.00
' «Баҳористон»,'      start: 0.00  end: 0.00
' «Конибодом»,'       start: 0.00  end: 0.00
' «Ҳавотоғ»,'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' «Ӯротеппа»'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.22
' дар'                start: 0.12  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Суғд;'              start: 0.00  end: 1.00
'\n«Чилучорчашма»,'   start: 1.00  end: 0.00
' «Сари'              start: 0.00  end: 0.00
' Хосор»'             start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.29
' дар'                start: 0.17  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Хатлон;'            start: 0.00  end: 1.00
'\n«Гармчашма»'       start: 1.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.31
' дар'                start: 0.25  end: 0.00
' ВМКБ'               start: 0.00  end: 0.00
' амал'               start: 0.00  end: 0.00
' карда'              start: 0.00  end: 0.00
' истодаанд.'         start: 0.00  end: 1.00

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tajik_text_segmentation-0.1.4.tar.gz (117.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

tajik_text_segmentation-0.1.4-py3-none-any.whl (138.7 kB view details)

Uploaded Python 3

File details

Details for the file tajik_text_segmentation-0.1.4.tar.gz.

File metadata

  • Download URL: tajik_text_segmentation-0.1.4.tar.gz
  • Upload date:
  • Size: 117.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.9.16

File hashes

Hashes for tajik_text_segmentation-0.1.4.tar.gz
Algorithm Hash digest
SHA256 362f8ebc219456b8ed6fd49c6c6979c852dd3a1d6efe8b1f160b596c687e954f
MD5 bcfe84fef1423b53e3e5673820a00acb
BLAKE2b-256 97bdbc1397ce996beb4c6d57f568a52e4bd820e65262fe74da1120ac24cbfb64

See more details on using hashes here.

File details

Details for the file tajik_text_segmentation-0.1.4-py3-none-any.whl.

File metadata

File hashes

Hashes for tajik_text_segmentation-0.1.4-py3-none-any.whl
Algorithm Hash digest
SHA256 64ce379139bf3f16fcad36f563db4fb331dc56414904874b01b22f7aa5d9c25c
MD5 2520f85ee789bc134a29974c53fa37a5
BLAKE2b-256 01513b432e35dfb414713b5359d0465bdc55bbf124854d26bcb503131791ef31

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page