Skip to main content

No project description provided

Project description

vina2vi

vina2vi stands for Vietnamese no accent to Vietnamese,
which is a Python package aiming at helping foreigners decrypt messages in Vietnamese.
(More precisely, foreigners who already know the basics of the language.)

Among other things, this Python package aims to

  • Restore Vietnamese diacritics
  • Translate acronyms, đổi vần, etc.
  • Spell correction

Installation

Run the following to install:

pip install vina2vi

Alternatively, you can also install from GitHub like this

pip install git+https://gitlab.com/phunc20/vina2vi

Usage

I only work on this project part-time, and work slowly. So this README will get changed fast and a lot. For the moment, there is not much in the package that is super useful. As time goes by, I will add more.

There is an utility function to help tell whether a string contains non-Vietnamese characters, is_foreign. As the name suggests,

  • If the string contains characters other than the modern Vietnamese alphabets, then is_foreign returns True
  • If the string consists exclusively of characters of modern Vietnamese alphabets, then is_foreign returns False
    • Languages whose alphabets are a subset of Vietnamese's are thus considered as Vietnamese
    • Currently, we do not consider chữ Nôm as Vietnamese; maybe we will in the future
In [1]: from vina2vi.util import Vietnamese

In [2]: Vietnamese.is_foreign("Российская Федерация\tRossiyskaya Federatsiya")
Out[2]: True

In [3]: Vietnamese.is_foreign("\n\tRossiyskaya Federatsiya")
Out[3]: False

In [4]: Vietnamese.is_foreign("Tôi nói tiếng Việt Nam\t碎呐㗂越南")
Out[4]: True

In [5]: Vietnamese.is_foreign("Tôi nói tiếng Việt Nam\t")
Out[5]: False

In the metrics subpackage, there is a custom Levenshtein distance as tf.function and a related similarity function to measure how close a source string is to a target string. Here are some examples on how to use them:

import unidecode
from vina2vi.metrics import (
    batch_sim,
    batch_lev,
)

truths = [
    "Cơ sở hạ tầng điện, nước cũng như khu vực đặc biệt phát triển "
    "khác đã tăng 4,1% của 31,7% diện tích của tổng diện tích đất có nhiều rừng.",

    "Đặc trưng nổi bật nhất của loài này là vây, trong thực tế, "
    "vây lưng thứ hai, vây đuôi và vây hậu môn hợp nhất với nhau giống như cá chình.",

    "Cái đuôi dài cũng là một nét nổi bật.",
]

preds = []

for sent in truths:
    half = len(sent) // 2
    pred = unidecode.unidecode(sent[:half]) + sent[half:]
    preds.append(pred)

print(f"{truths = }")
print(f"{preds = }")
print()

batch_dist = batch_lev(preds, truths)
print(f"{batch_dist = }")
batch_similarity = batch_sim(preds, truths)
print(f"{batch_similarity = }")

Running the above code prints

truths = ['Cơ sở hạ tầng điện, nước cũng như khu vực đặc biệt phát triển khác đã tăng 4,1% của 31,7% diện tích của tổng diện tích đất có nhiều rừng.', 'Đặc trưng nổi bật nhất của loài này là vây, trong thực tế, vây lưng thứ hai, vây đuôi và vây hậu môn hợp nhất với nhau giống như cá chình.', 'Cái đuôi dài cũng là một nét nổi bật.']
preds = ['Co so ha tang dien, nuoc cung nhu khu vuc dac biet phat trien khac dã tăng 4,1% của 31,7% diện tích của tổng diện tích đất có nhiều rừng.', 'Dac trung noi bat nhat cua loai nay la vay, trong thuc te, vay lung thứ hai, vây đuôi v à vây hậu môn hợp nhất với nhau giống như cá chình.', 'Cai duoi dai cung là một nét nổi bật.']

batch_dist = 19.0
batch_similarity = 0.9319907236009713

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

vina2vi-0.0.6.tar.gz (10.5 kB view details)

Uploaded Source

Built Distribution

vina2vi-0.0.6-py3-none-any.whl (10.2 kB view details)

Uploaded Python 3

File details

Details for the file vina2vi-0.0.6.tar.gz.

File metadata

  • Download URL: vina2vi-0.0.6.tar.gz
  • Upload date:
  • Size: 10.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.10.0

File hashes

Hashes for vina2vi-0.0.6.tar.gz
Algorithm Hash digest
SHA256 8071ee62a682bbf9e29dd8fec45fccfc858d7172a10a405c8fef48c255196399
MD5 fd00e8e821cbd67b4f50d1c02e3e3583
BLAKE2b-256 52af485ec392ad08c281dfcc5988aef74efdbcb5bd4da238351dde6d2c9b13a2

See more details on using hashes here.

File details

Details for the file vina2vi-0.0.6-py3-none-any.whl.

File metadata

  • Download URL: vina2vi-0.0.6-py3-none-any.whl
  • Upload date:
  • Size: 10.2 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.10.0

File hashes

Hashes for vina2vi-0.0.6-py3-none-any.whl
Algorithm Hash digest
SHA256 edc81f55008dde6ef399f708b2585b631676b74c5ec03b4411d5828eb6b808fb
MD5 0f1f9ced3848c3ab34e18da7c0739433
BLAKE2b-256 3660d826407f97be104371e49f7eab42c7a24ed28e1aa93f511b2459e2e852e1

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page