Пакет для аналіза беларускіх тэкстаў і вызначэння лічбавага почырку пісьменніка
Project description
bel-digital-handwriting-py
bel-digital-handwriting-py - гэта Python бібліятэка, з дапамогай якой вы можаце хутка аналізаваць беларускія тэксты па спецыяльных крытэрыях.
import BelDigitalHandwriting.BelDHAnalyser as BelDHAnalyser
text_file = open("text.txt", "r", encoding="utf-8")
text = text_file.read()
analyze = BelDHAnalyser.analyse_text(text)
Што можа гэта бібліятэка
- Аналізаваць тэксты:
analyze = BelDHAnalyser.analyse_text(text)
- Сумяшчаць аналізы тэкстаў
commom_analyze = analyze_1 + analyze_2
Як карыстацца гэтай бібліятэкай
Каб пачаць выкарыстоўваць bel-digital-handwriting-py, вы павінны ўсталяваць бібліятэку праз PIP:
pip install bel-digital-handwriting-py
Як працуе гэты пакет
У гэтым раздзеле будуць апісаны асноўныя прынцыпы работы bel-digital-handwriting-py
Крытыэрыі аналізу
Для выяўлення лічбавага почырку пісьменніка быў складзены спіс крытыэрыяў, па якім будзе праходзіць аналіз тэксту:
- Частата з'яўлення ў тэксце кожнага сімвала:
$$ \nu_{сімвала} = {колькасць\ паўтарэнняў\ сімвала \over колькасць\ сімвалаў}$$
- Частата з'яўлення ў тэксце галосных і зычных літар:
$$ \nu_{галосных} = {колькасць\ галосных \over колькасць\ літар}\qquad \nu_{зычных} = {колькасць\ зычных \over колькасць\ літар}$$
- Сярэдняя даўжыня слова:
$$ \langle l_{слова} \rangle = {сума\ даўжынь\ усіх\ слоў \over колькасць\ слоў}$$
- Сярэдняя даўжыня сказа (па колькасьці сімвалаў і колькасьці слоў):
$$ \langle l_{сказа:\ сімвалы} \rangle = {колькасць\ усіх\ сімвалаў \over колькасць\ сказаў} \qquad \langle l_{сказа:\ словы} \rangle = {колькасць\ усіх\ слоў \over колькасць\ сказаў}$$
- Сярэдняя колькасць косак (,;) на сказ:
$$ \langle N_{косак} \rangle = {колькасць\ усіх\ косак \over колькасць\ сказаў}$$
- Працэнт клічных і пытальных сказаў:
$$ \nu_{кліч} = {колькасць\ клічнікаў \over колькасць\ сказаў}\qquad \nu_{пыт} = {колькасць\ пытальнікаў \over колькасць\ сказаў}$$
- Частата выкарыстання слоў кожнай часціны мовы (больш падрабязна пра гэта напісана ў наступным раздзеле):
$$ \nu_x = {колькасць\ слоў\ гэтай\ часціны\ мовы \over колькасць\ слоў}$$
- Статыстыка па парам слоў, якія пачынаюцца/заканчваюцца на галосны/зычны (ГГ, ГЗ, ЗГ, ЗЗ):
$$ \nu_{тыпа\ пар} = {колькасць\ пар\ аднаго\ тыпа \over колькасць\ ўсіх\ пар}$$
Выкарыстанне Граматычнай базы
Для вызначэння часціны мовы, да якой адносіцца канкрэтнае слова была выкарыстана Граматычная база беларускай мовы. З дапамогай распрацаванага мною Python скрыпта ўсе словаформы кожнай часціны мовы былі сабраныя па асобных файлах ў фармаце:
слова#слова#слова#слова#слова#...
Спасылкі на выкарыстоўваемые матэрыялы
- У праекце выкарыстоўваюцца слоўнікі Беларускага N-корпусу. Спасылка на іх рэпазітар Github - GrammarDB. Граматычная база распаўсюджвацца па ліцэнзіі CC BY-SA 4.0. Спасылка на ліцэнзію Граматычнай базы - CC BY-SA 4.0
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for bel-digital-handwriting-py-0.0.5.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 1753fe056382f0c0eda5db5bc3ff388c4370161397c8d1cbda4aca4c126f1a63 |
|
MD5 | 5337a590adc25e9b78b7a862d3754978 |
|
BLAKE2b-256 | 0f86aaf9602e233b76639ac4a03d73e34b913128316153bf4990728f94c09921 |
Hashes for bel_digital_handwriting_py-0.0.5-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 0530434cd2ea24cfad346880be16250091eaa3428aa268bb1ef4aa907c4bc476 |
|
MD5 | 742ead83b9845a09737cac4870fec534 |
|
BLAKE2b-256 | c1a4ac786a15df07789069709a9cce5816c3d6920ea00fbe6a0a7b1e6db58e88 |