Russian Texts Statistics
Project description
Russian Texts Statistics (ruTS)
Библиотека для извлечения статистик из текстов на русском языке.
Установка
Выполнить:
$ pip install ruts
Зависимости:
- python 3.6+
- nltk
- pymorphy2
- spacy
Функционал
Основной функционал базируется на адаптированных для русского языка статистиках библиотеки textacy и позволяет работать как непосредственно с текстами, так и с подготовленными Doc-объектами библиотеки spaCy.
Базовые статистики
Библиотека позволяет извлекать из текста следующие статистические показатели:
- количество предложений
- количество слов
- количество уникальных слов
- количество длинных слов
- количество сложных слов
- количество простых слов
- количество односложных слов
- количество многосложных слов
- количество символов
- количество букв
- количество пробелов
- количество слогов
- распределение слов по количеству символов
- распределение слов по количеству слогов
Пример:
from ruts import BasicStats
text = "Существуют три вида лжи: ложь, наглая ложь и статистика"
bs = BasicStats(text)
bs.get_stats()
{'c_chars': {1: 1, 3: 2, 4: 3, 6: 1, 10: 2},
'c_syllables': {1: 5, 2: 1, 3: 1, 4: 2},
'n_chars': 55,
'n_complex_words': 2,
'n_letters': 44,
'n_long_words': 3,
'n_monosyllable_words': 5,
'n_polysyllable_words': 4,
'n_sents': 1,
'n_simple_words': 7,
'n_spaces': 8,
'n_syllables': 18,
'n_unique_words': 8,
'n_words': 9}
bs.print_stats()
Статистика | Значение
------------------------------
Предложения | 1
Слова | 9
Уникальные слова | 8
Длинные слова | 3
Сложные слова | 2
Простые слова | 7
Односложные слова | 5
Многосложные слова | 4
Символы | 55
Буквы | 44
Пробелы | 8
Слоги | 18
Удобочитаемость
Структура проекта
- ruts:
- basic_stats.py - базовые текстовые статистики
- constants.py - основные используемые константы
- utils.py - вспомогательные инструменты
- tests:
- test_basic_stats.py - тесты базовых текстовых статистик
Авторы
- Шкарин Сергей (kouki.sergey@gmail.com)
- Смирнова Екатерина (ekanerina@yandex.ru)
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
ruts-0.1.3.tar.gz
(7.7 kB
view hashes)