Text statistics
Project description
TEXT STATISTICS
Оглавление
Описание
Библиотека предназначена для подсчета количества слов текста, выводит их количество, количество уникальных слов и сами эти слова.
Версия Python
Поддерживается версия Python 3.9
Установка
Windows
py -m pip install "TextStatistic"
Функции
count_words()
Данная функция принимает на входе путь к файлу. На выходе получается значение, которое показывает сколько слов в тексте.
from TextStatistic import count_words
filename = r"C:\Users\Home_PC\Downloads\TestText.txt"
cw = count_words(filename)
print(cw)
181
count_unique_words()
Данная функция принимает на входе путь к файлу. На выходе получается значение, которое показывает сколько уникальных(неповторяющихся) слов в тексте.
from TextStatistic import count_unique_words
filename = r"C:\Users\Home_PC\Downloads\TestText.txt"
cuw = count_unique_words(filename)
print(cuw)
127
all_words()
Данная функция принимает на входе путь к файлу. На выходе получается словарь, в котором находятся слова и сколько раз они встречались в тексте.
from TextStatistic import all_words
filename = r"C:\Users\Home_PC\Downloads\TestText.txt"
aw = all_words(filename)
print(aw)
{'а': 2, 'автор': 2, 'боли': 1, 'боялся': 1, 'будут': 1, 'бы': 2, 'в': 5, 'ведь': 1, 'верить': 1, 'вернуться': 1, 'викторович': 1, 'вкладывать': 1, 'впасть': 1, 'вперед': 1, 'всего': 2, 'всех': 1, 'встретить': 1, 'две': 1, 'депрессию': 1, 'детстве': 1, 'для': 1, 'домой': 1, 'дочки': 1, 'его': 3, 'если': 4, 'есть': 1, 'ждал': 1, 'жена': 1, 'жизнью': 1, 'задуматься': 1, 'и': 13, 'им': 1, 'их': 1, 'каждый': 1, 'колька': 3, 'кольке': 1, 'которых': 1, 'летное': 1, 'летчиком': 2, 'ли': 3, 'любит': 1, 'мечта': 1, 'мечте': 1, 'мечту': 3, 'мечты': 1, 'мизеров': 1, 'мизеровым': 1, 'много': 1, 'могу': 1, 'может': 1, 'можешь': 1, 'на': 1, 'навряд': 1, 'над': 1, 'найти': 1, 'нам': 1, 'наслаждаться': 1, 'не': 6, 'него': 1, 'неизвестности': 1, 'новую': 1, 'нужно': 2, 'о': 1, 'однако': 1, 'окончания': 1, 'он': 5, 'осуществил': 1, 'осуществить': 2, 'от': 1, 'откажешься': 1, 'отчаиваться': 1, 'охватил': 1, 'очень': 1, 'передумал': 1, 'повествует': 1, 'позже': 1, 'полностью': 1, 'после': 1, 'поступил': 1, 'поступить': 2, 'предлагает': 1, 'приехав': 1, 'прикладывать': 1, 'проблемой': 1, 'резко': 1, 'решил': 3, 'с': 1, 'сбываться': 1, 'сбылась': 1, 'сбыться': 1, 'св': 1, 'своего': 1, 'себя': 1, 'сергей': 1, 'сердце': 1, 'скорее': 1, 'смог': 1, 'сможет': 1, 'сможешь': 1, 'согласиться': 1, 'станет': 1, 'станцию': 1, 'стараться': 1, 'стать': 1, 'стонет': 1, 'страх': 1, 'стремиться': 1, 'суждено': 1, 'считает': 1, 'так': 1, 'то': 4, 'того': 1, 'трудиться': 1, 'у': 2, 'усилий': 1, 'училище': 3, 'учиться': 1, 'хотелось': 1, 'хочешь': 1, 'цель': 1, 'часа': 1, 'человек': 1, 'что': 3, 'чтобы': 1, 'школы': 1, 'щемящей': 1, 'этой': 1}
get_words()
Данная функция принимает на входе путь к файлу. На выходе получается список отсортированных по алфавиту слов файла без знаков препинания.
from TextStatistic import get_words
filename = r"C:\Users\Home_PC\Downloads\TestText.txt"
gw = get_words(filename)
print(gw)
['а', 'а', 'автор', 'автор', 'боли', 'боялся', 'будут', 'бы', 'бы', 'в', 'в', 'в', 'в', 'в', 'ведь', 'верить', 'вернуться', 'викторович', 'вкладывать', 'впасть', 'вперед', 'всего', 'всего', 'всех', 'встретить', 'две', 'депрессию', 'детстве', 'для', 'домой', 'дочки', 'его', 'его', 'его', 'если', 'если', 'если', 'если', 'есть', 'ждал', 'жена', 'жизнью', 'задуматься', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'и', 'им', 'их', 'каждый', 'колька', 'колька', 'колька', 'кольке', 'которых', 'летное', 'летчиком', 'летчиком', 'ли', 'ли', 'ли', 'любит', 'мечта', 'мечте', 'мечту', 'мечту', 'мечту', 'мечты', 'мизеров', 'мизеровым', 'много', 'могу', 'может', 'можешь', 'на', 'навряд', 'над', 'найти', 'нам', 'наслаждаться', 'не', 'не', 'не', 'не', 'не', 'не', 'него', 'неизвестности', 'новую', 'нужно', 'нужно', 'о', 'однако', 'окончания', 'он', 'он', 'он', 'он', 'он', 'осуществил', 'осуществить', 'осуществить', 'от', 'откажешься', 'отчаиваться', 'охватил', 'очень', 'передумал', 'повествует', 'позже', 'полностью', 'после', 'поступил', 'поступить', 'поступить', 'предлагает', 'приехав', 'прикладывать', 'проблемой', 'резко', 'решил', 'решил', 'решил', 'с', 'сбываться', 'сбылась', 'сбыться', 'св', 'своего', 'себя', 'сергей', 'сердце', 'скорее', 'смог', 'сможет', 'сможешь', 'согласиться', 'станет', 'станцию', 'стараться', 'стать', 'стонет', 'страх', 'стремиться', 'суждено', 'считает', 'так', 'то', 'то', 'то', 'то', 'того', 'трудиться', 'у', 'у', 'усилий', 'училище', 'училище', 'училище', 'учиться', 'хотелось', 'хочешь', 'цель', 'часа', 'человек', 'что', 'что', 'что', 'чтобы', 'школы', 'щемящей', 'этой']
words_into_dict()
Данная функция принимает на входе список слов, на выходе получается словарь слов без повторений. Ключ словаря это слово, а его значение это число, показывающее сколько раз это слово встречается в тексте
from TextStatistic import words_into_dict
from TextStatistic import get_words
filename = r"C:\Users\Home_PC\Downloads\TestText.txt"
words = get_words(filename)
wid = words_into_dict(words)
print(wid)
{'а': 2, 'автор': 2, 'боли': 1, 'боялся': 1, 'будут': 1, 'бы': 2, 'в': 5, 'ведь': 1, 'верить': 1, 'вернуться': 1, 'викторович': 1, 'вкладывать': 1, 'впасть': 1, 'вперед': 1, 'всего': 2, 'всех': 1, 'встретить': 1, 'две': 1, 'депрессию': 1, 'детстве': 1, 'для': 1, 'домой': 1, 'дочки': 1, 'его': 3, 'если': 4, 'есть': 1, 'ждал': 1, 'жена': 1, 'жизнью': 1, 'задуматься': 1, 'и': 13, 'им': 1, 'их': 1, 'каждый': 1, 'колька': 3, 'кольке': 1, 'которых': 1, 'летное': 1, 'летчиком': 2, 'ли': 3, 'любит': 1, 'мечта': 1, 'мечте': 1, 'мечту': 3, 'мечты': 1, 'мизеров': 1, 'мизеровым': 1, 'много': 1, 'могу': 1, 'может': 1, 'можешь': 1, 'на': 1, 'навряд': 1, 'над': 1, 'найти': 1, 'нам': 1, 'наслаждаться': 1, 'не': 6, 'него': 1, 'неизвестности': 1, 'новую': 1, 'нужно': 2, 'о': 1, 'однако': 1, 'окончания': 1, 'он': 5, 'осуществил': 1, 'осуществить': 2, 'от': 1, 'откажешься': 1, 'отчаиваться': 1, 'охватил': 1, 'очень': 1, 'передумал': 1, 'повествует': 1, 'позже': 1, 'полностью': 1, 'после': 1, 'поступил': 1, 'поступить': 2, 'предлагает': 1, 'приехав': 1, 'прикладывать': 1, 'проблемой': 1, 'резко': 1, 'решил': 3, 'с': 1, 'сбываться': 1, 'сбылась': 1, 'сбыться': 1, 'св': 1, 'своего': 1, 'себя': 1, 'сергей': 1, 'сердце': 1, 'скорее': 1, 'смог': 1, 'сможет': 1, 'сможешь': 1, 'согласиться': 1, 'станет': 1, 'станцию': 1, 'стараться': 1, 'стать': 1, 'стонет': 1, 'страх': 1, 'стремиться': 1, 'суждено': 1, 'считает': 1, 'так': 1, 'то': 4, 'того': 1, 'трудиться': 1, 'у': 2, 'усилий': 1, 'училище': 3, 'учиться': 1, 'хотелось': 1, 'хочешь': 1, 'цель': 1, 'часа': 1, 'человек': 1, 'что': 3, 'чтобы': 1, 'школы': 1, 'щемящей': 1, 'этой': 1}
Приложение
Используемый для примера текст
Каждый ли человек может осуществить мечту? Над этой проблемой предлагает задуматься Сергей Викторович Мизеров.
Автор повествует нам о Кольке и его мечте стать летчиком. Колька в детстве решил, что станет летчиком и ждал своего часа.
После окончания школы, он решил поступить в летное училище. Приехав на станцию, его охватил страх. Скорее всего он боялся
неизвестности, сможет ли он поступить и учиться в училище. И Колька резко передумал и решил вернуться домой. Позже он так
и не осуществил мечту и “Сердце его стонет от щемящей боли”. Однако у него есть жена и две дочки, которых он любит, и
если бы Колька поступил в училище, то навряд ли смог встретить их.
Автор считает, что если хочешь осуществить мечту, то нужно очень стараться, а если откажешься, то можешь впасть в
депрессию и не сможешь полностью наслаждаться жизнью.
Не могу не согласиться с С.В. Мизеровым, ведь для того чтобы сбылась мечта, нужно прикладывать много усилий, трудиться и
вкладывать всего себя.
Хотелось бы верить, что у всех будут сбываться мечты, а если им не суждено сбыться, то не отчаиваться и стремиться вперед
и найти новую цель.
Особенности
Вследствие особенности Python, а именно символа \
, вставляя путь таким каким он есть,
Python выдает ошибку. Это связано с экранированием последовательностей. Для того чтобы
путь передавался корректно необходимо перед строкой с путем ставить модификатор
r
, как показано в примерах.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for TextStatistic-1.0.6-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 7d0095519e1e65651a27d0d81858d245c0809d2f3dda7c99dc0e47efea3c566d |
|
MD5 | 91c90e2724cd52f08f7efe484a50ec8c |
|
BLAKE2b-256 | cbeb4d022747a4a51c5b7127a032f2ed73e4e4cc8932d838577a483498c6fc0a |