Skip to main content

Cleans russian text and preparing for NLP

Project description

RU-TEXT-CLEANER

Библиотека подготовки русского текста для решения NLP- и иных задач

Установка: pip install ru-text-cleaner

Основным форматом использования билиотеки является:

from ru_text_cleaner import SimpleCleaner

text_cleaner = SimpleCleaner()

string = 'Какая-то    форматирования-нибудь \n\n\t строка-либо то-то'

formated_text = text_cleaner.clean_text(string)

В этом случае Вы получите следующий результат в переменной formated_text:

форматирование строка либо 

Функция clean_text() принимает на вход строку и возвращает строку. Аналогично функция clean_texts() принимает на вход массив строк и возвращает массив отформатированных строк.

Во время инициатизации объекта класса TextCleaner() можно вручную указать, какое конкретно форматирование текста будет производиться:

spaces=True # убирает многократные пробелы в тексте
punctuation=True # убирает знаки пунктуации в строке
html=True # убирает HTML-теги
emoji=True # убирает эмодзи
lower=True # переводит текст в нижний регистр
stop_words=True # убирает стоп-слова (союзы, предлоги и так далее)
morpheme=True # преобразует слова в их начальные формы (автоматически переводит текст в нижний регистр)

По умолчанию все переменные установлены в значение True.

Начиная с версии 2.0.0 для импорта также доступен класс TensorCleaner с аналогичным функционалом, который принимает на вход строковые тензоры

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ru_text_cleaner-2.0.2.tar.gz (8.2 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

ru_text_cleaner-2.0.2-py3-none-any.whl (12.8 kB view details)

Uploaded Python 3

File details

Details for the file ru_text_cleaner-2.0.2.tar.gz.

File metadata

  • Download URL: ru_text_cleaner-2.0.2.tar.gz
  • Upload date:
  • Size: 8.2 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.0 CPython/3.9.7

File hashes

Hashes for ru_text_cleaner-2.0.2.tar.gz
Algorithm Hash digest
SHA256 4afafb6236db212d29f9795ea13618b89b05b816f02c419690d93ecc4d0a1dbc
MD5 98a90275e729eb85ed257f751f162569
BLAKE2b-256 25e885a438c3258713afa569e6dda4e7618ce1ad2c4f07fbf51fd8879a6ba8ec

See more details on using hashes here.

File details

Details for the file ru_text_cleaner-2.0.2-py3-none-any.whl.

File metadata

File hashes

Hashes for ru_text_cleaner-2.0.2-py3-none-any.whl
Algorithm Hash digest
SHA256 d1fb754e4b2c8d022d7a696b1cd55c9f7b393e14b36d2eaeaa5d655e6e976b65
MD5 b67f1a6234a8f150b851515949d3e50a
BLAKE2b-256 4f7dc3c6ebce795108e1d73b84cb9eef894d71ba43fe2d7fdd3cbbca81e68f67

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page