Skip to main content

Russian text normalizer

Project description

RUNorm - Нормализатор русского текста перед синтезом речи

RUNorm - это библиотека для нормализации русского текста, написанная на языке Python. Она предназначена для подготовки текст перед синтезом речи.

Особенности

  • Нормализация чисел: преобразование числовых значений в текстовую форму.
  • Нормализация сокращений: расшифровка и замена сокращений полными формами.
  • Кириллизация: преобразование латинских символов в соответствующие кириллические.
  • Озвучка аббревиатур: конвертирует аббревиатуру в побуквенный вариант. (GPT -> джи пи ти)

Установка

pip install runorm

Использование

Пример использования RUNorm:

from runorm import RUNorm

# Используйте load(workdir="./local_cache") для кэширования моделей в указанной папке.
# Доступные модели: small, medium, big
# Выбирайте устройство используемое pytorch с помощью переменной device
normalizer = RUNorm()
normalizer.load(model_size="small", device="cpu")

while True:
    text = input(":> ")
    normalized_text = normalizer.norm(text)
    print(">>>", normalized_text)

Модели

RUNorm предоставляет несколько предобученных моделей разного размера:

  • small: маленькая модель для быстрой нормализации. Охватывает самые популярные кейсы. Базируется на FRED-T5-95M
  • medium: средняя модель для баланса между скоростью и качеством. Базируется на ruT5-base (222M)
  • big: большая модель для лучшего качества нормализации. Базируется на FRED-T5-Large (860M)

Вы можете выбрать подходящую модель при вызове метода load().

Лицензия

Этот проект распространяется под лицензией Apache2.0 License.

Контакты

Если у вас есть вопросы или предложения, пожалуйста, свяжитесь с автором проекта:

Будем рады вашим отзывам и сотрудничеству!

Project details


Release history Release notifications | RSS feed

This version

1.1

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

runorm-1.1.tar.gz (16.6 kB view details)

Uploaded Source

Built Distribution

runorm-1.1-py2.py3-none-any.whl (16.5 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file runorm-1.1.tar.gz.

File metadata

  • Download URL: runorm-1.1.tar.gz
  • Upload date:
  • Size: 16.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for runorm-1.1.tar.gz
Algorithm Hash digest
SHA256 b2ab7b82b2089d3475ad0fefabf0c1bf620224f39e4dcb8c4d6e183a41e84c22
MD5 cb114c6b80b5e1df78cc036e7fb85c33
BLAKE2b-256 908260b67d0d3dc2526f7f34f9bf6f4da7440c32ac9e3eb088f69f4bb22be26f

See more details on using hashes here.

File details

Details for the file runorm-1.1-py2.py3-none-any.whl.

File metadata

  • Download URL: runorm-1.1-py2.py3-none-any.whl
  • Upload date:
  • Size: 16.5 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for runorm-1.1-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 79ef9fa49ebe7725151916b05b90aea2e0ab37dd083dbf3cac9be10a3c96f7c7
MD5 3994b314361f445330994e28f5588d86
BLAKE2b-256 1444099b4b1ac38c222094f14d5e9e712b6309a0169f05f307159fd472427376

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page