Skip to main content

A package for Tajik text segmentation using a heuristic algorithm and neural network.

Project description

Tajik text segmentation

Usage:

from tajik_text_segmentation import TextSegmenter

text = '''Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд. Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.
Дар Тоҷикистон осоишгоҳҳои:
«Қаротоғ», «Явроз» дар водии Ҳисор;
Осоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;
«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;
«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.'''

segmenter = TextSegmenter('nn')  # or 'heuristic'
result = segmenter.segment_text(text)
print('Sentences:', result['sentences'])
print('Per token probabilities:')
for t, (sp, ep) in zip(result['tokens'], result['probs']):
    print(f"{repr(t):20s}  start: {sp:.2f}  end: {ep:.2f}")

Output:

Sentences: ['Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд.', ' Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.', '\nДар Тоҷикистон осоишгоҳҳои:', '\n«Қаротоғ», «Явроз» дар водии Ҳисор;', '\nОсоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;', '\n«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;', '\n«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.']
Per token probabilities:
'Осоишгоҳҳои'         start: 1.00  end: 0.00
' умумӣ'              start: 0.00  end: 0.00
' (барои'             start: 0.00  end: 0.00
' калонсолон)'        start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' махсус'             start: 0.00  end: 0.00
' (оилавӣ,'           start: 0.00  end: 0.00
' барои'              start: 0.00  end: 0.00
' занҳои'             start: 0.00  end: 0.00
' ҳомила,'            start: 0.00  end: 0.00
' ҷавонон,'           start: 0.00  end: 0.00
' байнихоҷагӣ,'       start: 0.00  end: 0.00
' соҳили'             start: 0.00  end: 0.00
' дарёию'             start: 0.00  end: 0.00
' баҳрӣ'              start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' ғ.)'                start: 0.00  end: 0.00
' мешаванд.'          start: 0.02  end: 0.99
' Осоишгоҳҳо'         start: 0.70  end: 0.00
' барои'              start: 0.00  end: 0.00
' дамгирии'           start: 0.00  end: 0.00
' якрӯза,'            start: 0.00  end: 0.00
' 6'                  start: 0.00  end: 0.00
' -рӯза,'             start: 0.00  end: 0.00
' 12-рӯза'            start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' 24-рӯза'            start: 0.00  end: 0.00
' таъйин'             start: 0.00  end: 0.00
' шудаанд.'           start: 0.00  end: 1.00
'\nДар'               start: 1.00  end: 0.00
' Тоҷикистон'         start: 0.00  end: 0.00
' осоишгоҳҳои:'       start: 0.00  end: 1.00
'\n«Қаротоғ»,'        start: 1.00  end: 0.00
' «Явроз»'            start: 0.00  end: 0.00
' дар'                start: 0.00  end: 0.00
' водии'              start: 0.00  end: 0.00
' Ҳисор;'             start: 0.00  end: 1.00
'\nОсоишгоҳи'         start: 0.99  end: 0.00
' Зумрад,'            start: 0.00  end: 0.00
' «Баҳористон»,'      start: 0.00  end: 0.00
' «Конибодом»,'       start: 0.00  end: 0.00
' «Ҳавотоғ»,'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' «Ӯротеппа»'         start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.22
' дар'                start: 0.12  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Суғд;'              start: 0.00  end: 1.00
'\n«Чилучорчашма»,'   start: 1.00  end: 0.00
' «Сари'              start: 0.00  end: 0.00
' Хосор»'             start: 0.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.29
' дар'                start: 0.17  end: 0.00
' вилояти'            start: 0.00  end: 0.00
' Хатлон;'            start: 0.00  end: 1.00
'\n«Гармчашма»'       start: 1.00  end: 0.00
' ва'                 start: 0.00  end: 0.00
' диг.'               start: 0.00  end: 0.31
' дар'                start: 0.25  end: 0.00
' ВМКБ'               start: 0.00  end: 0.00
' амал'               start: 0.00  end: 0.00
' карда'              start: 0.00  end: 0.00
' истодаанд.'         start: 0.00  end: 1.00

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tajik_text_segmentation-0.1.5.tar.gz (118.2 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

tajik_text_segmentation-0.1.5-py3-none-any.whl (139.3 kB view details)

Uploaded Python 3

File details

Details for the file tajik_text_segmentation-0.1.5.tar.gz.

File metadata

  • Download URL: tajik_text_segmentation-0.1.5.tar.gz
  • Upload date:
  • Size: 118.2 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.9.16

File hashes

Hashes for tajik_text_segmentation-0.1.5.tar.gz
Algorithm Hash digest
SHA256 408eeaf01947f410e306933420678972ba88251ef9c6a7296fabf968011cbd7c
MD5 0474d4d96e7a5fc1b53fa21207c48761
BLAKE2b-256 827d2728627f54f520fbfa7fbc3212ed29a598727e22c533fac28a95e809d75f

See more details on using hashes here.

File details

Details for the file tajik_text_segmentation-0.1.5-py3-none-any.whl.

File metadata

File hashes

Hashes for tajik_text_segmentation-0.1.5-py3-none-any.whl
Algorithm Hash digest
SHA256 9776a1899a2c49a00e2bedff2369ef8b3af158ae4083ac3f6dbdf3972d8fe8f2
MD5 a9aea4381cda5867b845ebdaa82ddbe6
BLAKE2b-256 5a5a604a47ace13109555c7ffaeaa090bddfbdd09c8e8a21cc0c4f589401411b

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page