Skip to main content

Russian accentizer

Project description

RUAccent

RUAccent - это библиотека для автоматической расстановки ударений на русском языке.

Установка

С помощью pip

pip install ruaccent

С помощью GIT

pip install git+https://github.com/Den4ikAI/ruaccent.git

Параметры работы

load(omograph_model_size='big_poetry', use_dictionary=True, custom_dict={}, custom_homographs={})
  • На данный момент доступно 6 моделей. big (рекомендуется к использованию), medium и small. Рекомендуются к использованию модели версии poetry. Их названия big_poetry, medium_poetry, small_poetry.
  • Модель big имеет 178 миллионов параметров, medium 85 миллионов, а small 42 миллиона
  • Переменная use_dictionary отвечает за загрузку всего словаря (требуется больше ОЗУ), иначе все ударения расставляет нейросеть.
  • Переменная custom_homographs отвечает за добавление своих омографов. Формат такой: {'слово-омограф': ['вариант ударения 1', 'вариант ударения 2']}.
  • Функция custom_dict отвечает за добавление своих вариантов ударений в словарь. Формат такой: {'слово': 'сл+ово с удар+ением'}

Пример использования

from ruaccent import RUAccent

accentizer = RUAccent()
accentizer.load(omograph_model_size='big_poetry', use_dictionary=True)

text = 'на двери висит замок.'
print(accentizer.process_all(text))

text = 'ежик нашел в лесу ягоды.'
print(accentizer.process_yo(text))

Датасеты

  • Датасет собранный с НКРЯ
  • Датасет использовавшийся для обучения моделей акцентуатора (версия только с прозой)
  • Датасет использовавшийся для обучения моделей акцентуатора (версия проза + поэзия)

Файлы моделей и словарей располагаются по ссылке. Мы будем признательны фидбеку на telegram аккаунт

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ruaccent-1.5.4.1.tar.gz (8.7 kB view details)

Uploaded Source

Built Distribution

ruaccent-1.5.4.1-py2.py3-none-any.whl (10.6 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file ruaccent-1.5.4.1.tar.gz.

File metadata

  • Download URL: ruaccent-1.5.4.1.tar.gz
  • Upload date:
  • Size: 8.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.4.1.tar.gz
Algorithm Hash digest
SHA256 0604459acbbf315f6fd0bec47513d856a65bc7a928a84be534ef9373b14d1958
MD5 9ee4c21d117352cf87172b4f73ad3f51
BLAKE2b-256 03772fa081afe06b48a4351480c95accb6ffdedad0850c491fd6238c8140b657

See more details on using hashes here.

File details

Details for the file ruaccent-1.5.4.1-py2.py3-none-any.whl.

File metadata

File hashes

Hashes for ruaccent-1.5.4.1-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 6edf1db19d1c7e792a6eb6b656609f62d59326615a6a2aad4da8e7c0df286655
MD5 592335a1c9576c3c11d816f0d755041d
BLAKE2b-256 53a90a42ffe43eca8254d431bb95710ce3dafa7f554bf201586df7f0d4948897

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page