Skip to main content

Russian accentizer

Project description

RUAccent

RUAccent - это библиотека для автоматической расстановки ударений на русском языке.

Установка

С помощью pip

pip install ruaccent

С помощью GIT

pip install git+https://github.com/Den4ikAI/ruaccent.git

Параметры работы

load(omograph_model_size='big', use_dictionary=False, custom_dict={}, custom_homographs={}, load_yo_homographs_model=False)
  • На данный момент доступны две модели: big (рекомендуется к использованию), medium и small.
  • Модель big имеет 178 миллионов параметров, medium 85 миллионов, а small 42 миллиона
  • Переменная use_dictionary отвечает за загрузку всего словаря (требуется больше ОЗУ), иначе все ударения расставляет нейросеть.
  • Переменная custom_homographs отвечает за добавление своих омографов. Формат такой: {'слово-омограф': ['вариант ударения 1', 'вариант ударения 2']}.
  • Функция custom_dict отвечает за добавление своих вариантов ударений в словарь. Формат такой: {'слово': 'сл+ово с удар+ением'}
  • Также вы можете протестировать beta-функцию разрешения Ё-омографов, установив load_yo_homographs_model=True в load(), а также accentizer.process_all(text, process_yo_omographs=True) или accentizer.process_yo(text, process_yo_omographs=True).

Пример использования

from ruaccent import RUAccent

accentizer = RUAccent()
accentizer.load(omograph_model_size='big', use_dictionary=False)

text = 'на двери висит замок.'
print(accentizer.process_all(text))

text = 'ежик нашел в лесу ягоды.'
print(accentizer.process_yo(text))

Датасеты

  • Датасет собранный с НКРЯ Warning!!! Много поэзии!
  • Датасет словосочетаний и предложений собранных со всего интернета
  • Датасет использовавшийся для обучения моделей акцентуатора

Файлы моделей и словарей располагаются по ссылке. Мы будем признательны фидбеку на telegram аккаунт

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ruaccent-1.5.2.tar.gz (9.0 kB view details)

Uploaded Source

Built Distribution

ruaccent-1.5.2-py2.py3-none-any.whl (10.1 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file ruaccent-1.5.2.tar.gz.

File metadata

  • Download URL: ruaccent-1.5.2.tar.gz
  • Upload date:
  • Size: 9.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.2.tar.gz
Algorithm Hash digest
SHA256 6d28eb98240758a67b331cff4f8aab7610c21d5874e9bcd49906cf36b7207822
MD5 3162fdb86f3383a84ecbddb989ffb4d8
BLAKE2b-256 7aab1f0033fc431a9084733726f7e6b4744fda7a7e2886585ede861a383e978e

See more details on using hashes here.

File details

Details for the file ruaccent-1.5.2-py2.py3-none-any.whl.

File metadata

  • Download URL: ruaccent-1.5.2-py2.py3-none-any.whl
  • Upload date:
  • Size: 10.1 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: python-requests/2.30.0

File hashes

Hashes for ruaccent-1.5.2-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 1de01da514927782a17be798af12bda6d6d5f650a1533ad9832287be38a5716c
MD5 ef8a199b22ec1273c707e1a0490e558d
BLAKE2b-256 cf606ac89884a0937b819345266ada8191e4af58c6282cdf9cbb4443f6125484

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page