Russian Texts Statistics
Project description
Russian Texts Statistics (ruTS)
Библиотека для извлечения статистик из текстов на русском языке.
Установка
Выполнить:
$ pip install ruts
Зависимости:
- python 3.6+
- nltk
- pymorphy2
- spacy
Функционал
Основной функционал базируется на адаптированных для русского языка статистиках библиотеки textacy и позволяет работать как непосредственно с текстами, так и с подготовленными Doc-объектами библиотеки spaCy.
Базовые статистики
Библиотека позволяет извлекать из текста следующие статистические показатели:
- количество предложений
- количество слов
- количество уникальных слов
- количество длинных слов
- количество сложных слов
- количество простых слов
- количество односложных слов
- количество многосложных слов
- количество символов
- количество букв
- количество пробелов
- количество слогов
- распределение слов по количеству символов
- распределение слов по количеству слогов
Пример:
from ruts import BasicStats
text = "Существуют три вида лжи: ложь, наглая ложь и статистика"
bs = BasicStats(text)
bs.get_stats()
{'c_chars': {1: 1, 3: 2, 4: 3, 6: 1, 10: 2},
'c_syllables': {1: 5, 2: 1, 3: 1, 4: 2},
'n_chars': 55,
'n_complex_words': 2,
'n_letters': 44,
'n_long_words': 3,
'n_monosyllable_words': 5,
'n_polysyllable_words': 4,
'n_sents': 1,
'n_simple_words': 7,
'n_spaces': 8,
'n_syllables': 18,
'n_unique_words': 8,
'n_words': 9}
bs.print_stats()
Статистика | Значение
------------------------------
Предложения | 1
Слова | 9
Уникальные слова | 8
Длинные слова | 3
Сложные слова | 2
Простые слова | 7
Односложные слова | 5
Многосложные слова | 4
Символы | 55
Буквы | 44
Пробелы | 8
Слоги | 18
Удобочитаемость
Структура проекта
- ruts:
- basic_stats.py - базовые текстовые статистики
- constants.py - основные используемые константы
- utils.py - вспомогательные инструменты
- tests:
- test_basic_stats.py - тесты базовых текстовых статистик
Авторы
- Шкарин Сергей (kouki.sergey@gmail.com)
- Смирнова Екатерина (ekanerina@yandex.ru)
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
ruts-0.1.3.tar.gz
(7.7 kB
view details)
File details
Details for the file ruts-0.1.3.tar.gz
.
File metadata
- Download URL: ruts-0.1.3.tar.gz
- Upload date:
- Size: 7.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.21.0 setuptools/41.0.1 requests-toolbelt/0.9.1 tqdm/4.31.1 CPython/3.6.8
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 |
b036d5bebb3468081e6008323f9e733fa041b4dab141c99a3fe6e1a19b9b0406
|
|
MD5 |
5ecad2e56048cd70bf68f3c10425c58c
|
|
BLAKE2b-256 |
a612431d450ee9c277e23840a0e616b57d15cfab927e2f8a830fde0b8d86708b
|