Пакет для аналіза беларускіх тэкстаў і вызначэння лічбавага почырку пісьменніка
Project description
bel-digital-handwriting-py
bel-digital-handwriting-py - гэта Python бібліятэка, з дапамогай якой вы можаце хутка аналізаваць беларускія тэксты па спецыяльных крытэрыях.
import BelDigitalHandwriting.BelDHAnalyser as BelDHAnalyser
text_file = open("text.txt", "r", encoding="utf-8")
text = text_file.read()
analyze = BelDHAnalyser.analyse_text(text)
Што можа гэта бібліятэка
- Аналізаваць тэксты:
analyze = BelDHAnalyser.analyse_text(text)
- Сумяшчаць аналізы тэкстаў
commom_analyze = analyze_1 + analyze_2
Як карыстацца гэтай бібліятэкай
Каб пачаць выкарыстоўваць bel-digital-handwriting-py, вы павінны ўсталяваць бібліятэку праз PIP:
pip install bel-digital-handwriting-py
Як працуе гэты пакет
У гэтым раздзеле будуць апісаны асноўныя прынцыпы работы bel-digital-handwriting-py
Крытыэрыі аналізу
Для выяўлення лічбавага почырку пісьменніка быў складзены спіс крытыэрыяў, па якім будзе праходзіць аналіз тэксту:
- Частата з'яўлення ў тэксце кожнага сімвала:
$$ \nu_{сімвала} = {колькасць\ паўтарэнняў\ сімвала \over колькасць\ сімвалаў}$$
- Частата з'яўлення ў тэксце галосных і зычных літар:
$$ \nu_{галосных} = {колькасць\ галосных \over колькасць\ літар}\qquad \nu_{зычных} = {колькасць\ зычных \over колькасць\ літар}$$
- Сярэдняя даўжыня слова:
$$ \langle l_{слова} \rangle = {сума\ даўжынь\ усіх\ слоў \over колькасць\ слоў}$$
- Сярэдняя даўжыня сказа (па колькасьці сімвалаў і колькасьці слоў):
$$ \langle l_{сказа:\ сімвалы} \rangle = {колькасць\ усіх\ сімвалаў \over колькасць\ сказаў} \qquad \langle l_{сказа:\ словы} \rangle = {колькасць\ усіх\ слоў \over колькасць\ сказаў}$$
- Сярэдняя колькасць косак (,;) на сказ:
$$ \langle N_{косак} \rangle = {колькасць\ усіх\ косак \over колькасць\ сказаў}$$
- Працэнт клічных і пытальных сказаў:
$$ \nu_{кліч} = {колькасць\ клічнікаў \over колькасць\ сказаў}\qquad \nu_{пыт} = {колькасць\ пытальнікаў \over колькасць\ сказаў}$$
- Частата выкарыстання слоў кожнай часціны мовы (больш падрабязна пра гэта напісана ў наступным раздзеле):
$$ \nu_x = {колькасць\ слоў\ гэтай\ часціны\ мовы \over колькасць\ слоў}$$
- Статыстыка па парам слоў, якія пачынаюцца/заканчваюцца на галосны/зычны (ГГ, ГЗ, ЗГ, ЗЗ):
$$ \nu_{тыпа\ пар} = {колькасць\ пар\ аднаго\ тыпа \over колькасць\ ўсіх\ пар}$$
Выкарыстанне Граматычнай базы
Для вызначэння часціны мовы, да якой адносіцца канкрэтнае слова была выкарыстана Граматычная база беларускай мовы. З дапамогай распрацаванага мною Python скрыпта ўсе словаформы кожнай часціны мовы былі сабраныя па асобных файлах ў фармаце:
слова#слова#слова#слова#слова#...
Спасылкі на выкарыстоўваемые матэрыялы
- У праекце выкарыстоўваюцца слоўнікі Беларускага N-корпусу. Спасылка на іх рэпазітар Github - GrammarDB. Граматычная база распаўсюджвацца па ліцэнзіі CC BY-SA 4.0. Спасылка на ліцэнзію Граматычнай базы - CC BY-SA 4.0
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file bel-digital-handwriting-py-0.0.5.tar.gz
.
File metadata
- Download URL: bel-digital-handwriting-py-0.0.5.tar.gz
- Upload date:
- Size: 7.8 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.1 CPython/3.11.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 1753fe056382f0c0eda5db5bc3ff388c4370161397c8d1cbda4aca4c126f1a63 |
|
MD5 | 5337a590adc25e9b78b7a862d3754978 |
|
BLAKE2b-256 | 0f86aaf9602e233b76639ac4a03d73e34b913128316153bf4990728f94c09921 |
File details
Details for the file bel_digital_handwriting_py-0.0.5-py3-none-any.whl
.
File metadata
- Download URL: bel_digital_handwriting_py-0.0.5-py3-none-any.whl
- Upload date:
- Size: 7.7 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.1 CPython/3.11.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 0530434cd2ea24cfad346880be16250091eaa3428aa268bb1ef4aa907c4bc476 |
|
MD5 | 742ead83b9845a09737cac4870fec534 |
|
BLAKE2b-256 | c1a4ac786a15df07789069709a9cce5816c3d6920ea00fbe6a0a7b1e6db58e88 |