Skip to main content

Russian accentizer

Project description

RUAccent

RUAccent - это библиотека для автоматической расстановки ударений на русском языке.

Установка

С помощью pip

pip install ruaccent

С помощью GIT

pip install git+https://github.com/Den4ikAI/ruaccent.git

Параметры работы

load(omograph_model_size='big_poetry', use_dictionary=True, custom_dict={}, custom_homographs={})
  • На данный момент доступно 6 моделей. big (рекомендуется к использованию), medium и small. Рекомендуются к использованию модели версии poetry. Их названия big_poetry, medium_poetry, small_poetry.
  • Модель big имеет 178 миллионов параметров, medium 85 миллионов, а small 42 миллиона
  • Переменная use_dictionary отвечает за загрузку всего словаря (требуется больше ОЗУ), иначе все ударения расставляет нейросеть.
  • Переменная custom_homographs отвечает за добавление своих омографов. Формат такой: {'слово-омограф': ['вариант ударения 1', 'вариант ударения 2']}.
  • Функция custom_dict отвечает за добавление своих вариантов ударений в словарь. Формат такой: {'слово': 'сл+ово с удар+ением'}

Пример использования

from ruaccent import RUAccent

accentizer = RUAccent()
accentizer.load(omograph_model_size='big_poetry', use_dictionary=True)

text = 'на двери висит замок.'
print(accentizer.process_all(text))

text = 'ежик нашел в лесу ягоды.'
print(accentizer.process_yo(text))

Датасеты

  • Датасет собранный с НКРЯ
  • Датасет использовавшийся для обучения моделей акцентуатора (версия только с прозой)
  • Датасет использовавшийся для обучения моделей акцентуатора (версия проза + поэзия)

Файлы моделей и словарей располагаются по ссылке. Мы будем признательны фидбеку на telegram аккаунт

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ruaccent-1.5.4.tar.gz (8.6 kB view details)

Uploaded Source

Built Distribution

ruaccent-1.5.4-py2.py3-none-any.whl (9.2 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file ruaccent-1.5.4.tar.gz.

File metadata

  • Download URL: ruaccent-1.5.4.tar.gz
  • Upload date:
  • Size: 8.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.4.tar.gz
Algorithm Hash digest
SHA256 3e83e95fcc1f9be14a353ff2ba1f3f30197514da59328b84a9ec1ffa50e25d59
MD5 0e8f1e4452e291858052dc7c97ecce00
BLAKE2b-256 4b3ef42398f302044584263a1775dd80e99722ce8a62235dd4390dcc35cd8b60

See more details on using hashes here.

File details

Details for the file ruaccent-1.5.4-py2.py3-none-any.whl.

File metadata

  • Download URL: ruaccent-1.5.4-py2.py3-none-any.whl
  • Upload date:
  • Size: 9.2 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.4-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 76e64ba5ab53a448a14765ea71692e13bd1b2640b1414ce4be59b4dc3ba886fb
MD5 a2ea5f86c785be5ec929e85ee317164c
BLAKE2b-256 9377caa87f69f3d4749737547e73aef5e947acc1cd26827b088e118e12d3b025

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page