Skip to main content

(Russian) numerals to numbers transform

Project description

(Russian) numerals to numbers

A small text-to-number package to transform a line like this

триста тридцать пять с половиной тысяч отборных солдат США и тринадцать целых двадцать одна сотая процента всей экономики мира против полутора русских землекопов-старообрядцев

to a line like this

335500 отборных солдат США и 13.21 процента всей экономики мира против 1.5 русских землекопов-старообрядцев

Based on yargy and natasha.

Locked on natasha 0.10 because of the bloatness of the later versions. May be updated easily to the latest natasha with a small change of providing an Extractor constructor with a pymorphy instance.

super(Rus2Num, self).__init__(NUMBER, pymorphy2.MorphAnalyzer())

Installation

$ pip install rus2num

Usage

from run2num import Rus2Num

r2n = Rus2Num()
text = "Выплаты за второго-третьего ребенка выросли на пятьсот двадцать пять тысячных процента и составили 90 тысяч рублей"
print(r2n(text))
# Выплаты за 2-3 ребенка выросли на 0.525 процента и составили 90000 рублей

Comparison

There are but a few packages from namely

NeMo works well but tends to miss many cases I won't have missed (see the comparison table below).

Oknolaz needs to be fed with extracted numbers only and does many mistakes in that case even so bad choice for us.

SergeyShk does either

  • replace_groupsтысяча сто to 1100 but сто двести триста to 400 or
  • replaceсто двести триста to 100 200 300 but тысяча сто to 1000 100.

It is obvious that addition should be done on decreasing values only so there are some forks to fix it (the overall code is a mess so that I didn't want to do it myself anyway).

averkij and flockentanz work fine both but have some bugs so I took the second one and fixed them. Also I cover cases like с половиной and одна целая две десятых.

Original 🟡 NeMo TP 🔴 Oknolaz replace 🔴 SergeyShk replace_groups 🔴 SergeyShk replace 🔴 averkij replace 🔴 flockentanz replace_groups_sa 🟢 rus2num
сто двести триста да хоть тысячу раз 🟢100 200 300 да хоть 1000 раз 🔴600000 🔴400 да хоть 1000 раз 🟢100 200 300 да хоть 1000 раз 🔴10200 300 да хоть 1000 раз 🟢100 200 300 да хоть 1000 раз 🟢100 200 300 да хоть 1000 раз
тысяча сто 🟢1100 🟢1100 🟢1100 🔴1000 100 🟢1100 🟢1100 🟢1100
я видел сто-двести штук 🟡я видел сто-двести штук 🔴300 🟢я видел 100-200 штук 🟢я видел 100-200 штук 🟢я видел 100-200 штук 🟢я видел 100-200 штук 🟢я видел 100-200 штук
восемь девятьсот двадцать два пять пять пять тридцать пять тридцать пять, лучше позвонить, чем занимать 🟡восемь 922 пять пять пять 35 35 , лучше позвонить, чем занимать 🔴8 🔴115, лучше позвонить, чем занимать 🔴8 900 20 2 5 5 5 30 5 30 5, лучше позвонить, чем занимать 🟢8 922 5 5 5 35 35, лучше позвонить, чем занимать 🟢8 922 5 5 5 35 35, лучше позвонить, чем занимать 🟢8 922 5 5 5 35 35, лучше позвонить, чем занимать
три с половиной человека 🟡три с половиной человека 🔴3 🟡3 с половиной человека 🟡3 с половиной человека 🟢3.5 человека 🟡3 с половиной человека 🟢3.5 человека
миллион сто тысяч сто зайцев 🟢1100100 зайцев list index out of range 🔴1000100100 зайцев 🔴1000000 100000 100 зайцев 1100100 зайцев 🔴1000100100 зайцев 🟢1100100 зайцев
одни двойки и ни одной пятёрки 🟡одни двойки и ни одной пятёрки 🟡No valid number words found! ... 🟡1 двойки и ни 1 пятёрки 🟡1 двойки и ни 1 пятёрки 🟡1 двойки и ни 1 пятёрки 🟡1 двойки и ни 1 пятёрки 🟡1 двойки и ни 1 пятёрки
без одной минуты два 🟢 01:59 🔴2 🟢без 1 минуты 2 🟢без 1 минуты 2 🟢без 1 минуты 2 🟢без 1 минуты 2 🟢без 1 минуты 2
вторая дача пять соток 🟡вторая дача пять соток 🔴5 🟢2 дача 5 соток 🟢2 дача 5 соток 🟢2 дача 5 соток 🟢2 дача 5 соток 🟢2 дача 5 соток
двести пятьдесят с половиной тысяч отборных солдат Ирака 🟡250 с половиной 1000 отборных солдат Ирака 🔴250000 🟡250 с половиной 1000 отборных солдат Ирака 🔴200 50 с половиной 1000 отборных солдат Ирака 🔴2050000.5 отборных солдат Ирака 🟡250 с половиной 1000 отборных солдат Ирака 🟢250500 отборных солдат Ирака
ноль целых ноль десятых минус две целых шесть сотых 🟢0,0 -2,06 🟡Redundant number word! ... 🔴0 целых 0.0 минус 2 целых 0.06 🔴0 целых 0.0 минус 2 целых 0.06 🔴0 целых 0.0 минус 2 целых 0.06 🔴0 целых 0.0 минус 2 целых 0.06 🟢0 минус 2.06

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

rus2num-0.1.0.tar.gz (5.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

rus2num-0.1.0-py3-none-any.whl (6.4 kB view details)

Uploaded Python 3

File details

Details for the file rus2num-0.1.0.tar.gz.

File metadata

  • Download URL: rus2num-0.1.0.tar.gz
  • Upload date:
  • Size: 5.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.8.3 CPython/3.11.4 Linux/6.2.0-39-generic

File hashes

Hashes for rus2num-0.1.0.tar.gz
Algorithm Hash digest
SHA256 08b9925ba1c1b6d342594e2d7c453ae40553cceb556c4507a86136e75bcb53ac
MD5 ed3a1e57833df3da2cb0bc65421e6dd9
BLAKE2b-256 531da4599028e18a3e9ce72ebd6d15a071292f66fdd37916d2ae280fdf92f70d

See more details on using hashes here.

File details

Details for the file rus2num-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: rus2num-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 6.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.8.3 CPython/3.11.4 Linux/6.2.0-39-generic

File hashes

Hashes for rus2num-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 0e94e9fa723df7e69afa2f9e75cf3352f73df0dcfe383867eff282fa8590ecc4
MD5 c886d08daac36f75e77ac58bf3c858b5
BLAKE2b-256 17b8a81f092a528bcb8220b17137b49c0888e6ba3c774ecd7d2892a17920d627

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page