Skip to main content

Пакет для аналіза беларускіх тэкстаў і вызначэння лічбавага почырку пісьменніка

Project description

bel-digital-handwriting-py

bel-digital-handwriting-py - гэта Python бібліятэка, з дапамогай якой вы можаце хутка аналізаваць беларускія тэксты па спецыяльных крытэрыях.

import BelDigitalHandwriting.BelDHAnalyser as BelDHAnalyser

text_file = open("text.txt", "r", encoding="utf-8")
text = text_file.read()

analyze = BelDHAnalyser.analyse_text(text)

Што можа гэта бібліятэка

  • Аналізаваць тэксты:
    analyze = BelDHAnalyser.analyse_text(text)
    
  • Сумяшчаць аналізы тэкстаў
    commom_analyze = analyze_1 + analyze_2
    

Як карыстацца гэтай бібліятэкай

Каб пачаць выкарыстоўваць bel-digital-handwriting-py, вы павінны ўсталяваць бібліятэку праз PIP:

pip install bel-digital-handwriting-py

Як працуе гэты пакет

У гэтым раздзеле будуць апісаны асноўныя прынцыпы работы bel-digital-handwriting-py

Крытыэрыі аналізу

Для выяўлення лічбавага почырку пісьменніка быў складзены спіс крытыэрыяў, па якім будзе праходзіць аналіз тэксту:

  • Частата з'яўлення ў тэксце кожнага сімвала:

$$ \nu_{сімвала} = {колькасць\ паўтарэнняў\ сімвала \over колькасць\ сімвалаў}$$

  • Частата з'яўлення ў тэксце галосных і зычных літар:

$$ \nu_{галосных} = {колькасць\ галосных \over колькасць\ літар}\qquad \nu_{зычных} = {колькасць\ зычных \over колькасць\ літар}$$

  • Сярэдняя даўжыня слова:

$$ \langle l_{слова} \rangle = {сума\ даўжынь\ усіх\ слоў \over колькасць\ слоў}$$

  • Сярэдняя даўжыня сказа (па колькасьці сімвалаў і колькасьці слоў):

$$ \langle l_{сказа:\ сімвалы} \rangle = {колькасць\ усіх\ сімвалаў \over колькасць\ сказаў} \qquad \langle l_{сказа:\ словы} \rangle = {колькасць\ усіх\ слоў \over колькасць\ сказаў}$$

  • Сярэдняя колькасць косак (,;) на сказ:

$$ \langle N_{косак} \rangle = {колькасць\ усіх\ косак \over колькасць\ сказаў}$$

  • Працэнт клічных і пытальных сказаў:

$$ \nu_{кліч} = {колькасць\ клічнікаў \over колькасць\ сказаў}\qquad \nu_{пыт} = {колькасць\ пытальнікаў \over колькасць\ сказаў}$$

  • Частата выкарыстання слоў кожнай часціны мовы (больш падрабязна пра гэта напісана ў наступным раздзеле):

$$ \nu_x = {колькасць\ слоў\ гэтай\ часціны\ мовы \over колькасць\ слоў}$$

  • Статыстыка па парам слоў, якія пачынаюцца/заканчваюцца на галосны/зычны (ГГ, ГЗ, ЗГ, ЗЗ):

$$ \nu_{тыпа\ пар} = {колькасць\ пар\ аднаго\ тыпа \over колькасць\ ўсіх\ пар}$$

Выкарыстанне Граматычнай базы

Для вызначэння часціны мовы, да якой адносіцца канкрэтнае слова была выкарыстана Граматычная база беларускай мовы. З дапамогай распрацаванага мною Python скрыпта ўсе словаформы кожнай часціны мовы былі сабраныя па асобных файлах ў фармаце:

слова#слова#слова#слова#слова#...

Спасылкі на выкарыстоўваемые матэрыялы

  • У праекце выкарыстоўваюцца слоўнікі Беларускага N-корпусу. Спасылка на іх рэпазітар Github - GrammarDB. Граматычная база распаўсюджвацца па ліцэнзіі CC BY-SA 4.0. Спасылка на ліцэнзію Граматычнай базы - CC BY-SA 4.0

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

bel-digital-handwriting-py-0.0.5.tar.gz (7.8 MB view details)

Uploaded Source

Built Distribution

File details

Details for the file bel-digital-handwriting-py-0.0.5.tar.gz.

File metadata

File hashes

Hashes for bel-digital-handwriting-py-0.0.5.tar.gz
Algorithm Hash digest
SHA256 1753fe056382f0c0eda5db5bc3ff388c4370161397c8d1cbda4aca4c126f1a63
MD5 5337a590adc25e9b78b7a862d3754978
BLAKE2b-256 0f86aaf9602e233b76639ac4a03d73e34b913128316153bf4990728f94c09921

See more details on using hashes here.

File details

Details for the file bel_digital_handwriting_py-0.0.5-py3-none-any.whl.

File metadata

File hashes

Hashes for bel_digital_handwriting_py-0.0.5-py3-none-any.whl
Algorithm Hash digest
SHA256 0530434cd2ea24cfad346880be16250091eaa3428aa268bb1ef4aa907c4bc476
MD5 742ead83b9845a09737cac4870fec534
BLAKE2b-256 c1a4ac786a15df07789069709a9cce5816c3d6920ea00fbe6a0a7b1e6db58e88

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page