Skip to main content

Russian accentizer

Project description

RUAccent

RUAccent - это библиотека для автоматической расстановки ударений на русском языке.

Установка

С помощью pip

pip install ruaccent

С помощью GIT

pip install git+https://github.com/Den4ikAI/ruaccent.git

Параметры работы

load(omograph_model_size='big_poetry', use_dictionary=True, custom_dict={}, custom_homographs={})
  • На данный момент доступно 6 моделей. big (рекомендуется к использованию), medium и small. Рекомендуются к использованию модели версии poetry. Их названия big_poetry, medium_poetry, small_poetry.
  • Модель big имеет 178 миллионов параметров, medium 85 миллионов, а small 42 миллиона
  • Переменная use_dictionary отвечает за загрузку всего словаря (требуется больше ОЗУ), иначе все ударения расставляет нейросеть.
  • Переменная custom_homographs отвечает за добавление своих омографов. Формат такой: {'слово-омограф': ['вариант ударения 1', 'вариант ударения 2']}.
  • Функция custom_dict отвечает за добавление своих вариантов ударений в словарь. Формат такой: {'слово': 'сл+ово с удар+ением'}

Пример использования

from ruaccent import RUAccent

accentizer = RUAccent()
accentizer.load(omograph_model_size='big_poetry', use_dictionary=True)

text = 'на двери висит замок.'
print(accentizer.process_all(text))

text = 'ежик нашел в лесу ягоды.'
print(accentizer.process_yo(text))

Датасеты

  • Датасет собранный с НКРЯ
  • Датасет использовавшийся для обучения моделей акцентуатора (версия только с прозой)
  • Датасет использовавшийся для обучения моделей акцентуатора (версия проза + поэзия)

Файлы моделей и словарей располагаются по ссылке. Мы будем признательны фидбеку на telegram аккаунт

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ruaccent-1.5.3.tar.gz (8.6 kB view details)

Uploaded Source

Built Distribution

ruaccent-1.5.3-py2.py3-none-any.whl (9.2 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file ruaccent-1.5.3.tar.gz.

File metadata

  • Download URL: ruaccent-1.5.3.tar.gz
  • Upload date:
  • Size: 8.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.3.tar.gz
Algorithm Hash digest
SHA256 98c6f53b78a78a6ee251b2bb1586e0b51468784af8ed7154dcb3625c7c9792d2
MD5 352d2d9274c3c327e25dfbc64c9d06a4
BLAKE2b-256 5060b146e3966a05c6186e1362070f2d40bb0fb09ea584d621adc2b3c400d222

See more details on using hashes here.

File details

Details for the file ruaccent-1.5.3-py2.py3-none-any.whl.

File metadata

  • Download URL: ruaccent-1.5.3-py2.py3-none-any.whl
  • Upload date:
  • Size: 9.2 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.3-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 5a7eda60601a4ec869f4768dc0f255ec518e7a830d19e7ab542b1195b278f6fb
MD5 564e7f951004ae6986cb440f033155c8
BLAKE2b-256 1768437a5656dd124929056c634df8e246a5d4f22f177eddfcbb20c11ef9c052

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page