Skip to main content

Library to split sticked Vietnamese words

Project description

https://badgen.net/pypi/v/vistickedword

A library to split a string of many Vietnamese words sticked together to single words. It, for example, split “khuckhuyu” to “khuc” and “khuyu”. This library is not supposed to split Vietnamese by semantics, so it won’t differentiate single or compound words. It will not, for example, split “bacsitrongbenhvien” to “bac si” + “trong” + “benh vien”. If you want such a feature, please use underthesea. Due to my personal need, this library currently doesn’t process fully marked words, like “họamikhônghótnữa”. However, it is trivial for library user to strip those marks before passing to ViStickedWord (using Unidecode).

To make convenient for programming, some terminologies are not used accurately like it should be in linguistic. Please don’t use my code as a source for learning Vietnamese grammar.


Thư viện để tách một chùm từ tiếng Việt viết dính liền thành các từ đơn riêng lẻ, ví dụ tách “khuckhuyu” thành “khuc”, “khuyu”. Thư viện này không có ý định tách từ dựa theo ngữ nghĩa, nên nó sẽ không phân biệt từ đơn, từ ghép của tiếng Việt. Ví dụ, nó sẽ ko tách cụm “bacsitrongbenhvien” thành “bac si” + “trong” + “benh vien”. Nếu bạn cần tính năng đó, nên sử dụng underthesea.

Do nhu cầu cá nhân nên hiện tại thư viện không xử lý từ có đầy đủ dấu, ví dụ “họamikhônghótnữa”. Tuy nhiên, người dùng thư viện có thể loại bỏ dấu trước khi truyền vào ViStickedWord. Việc đó không khó (dùng Unidecode).

Để thuận tiện cho việc lập trình, một số thuật ngữ không được dùng chính xác như cách dùng bên ngôn ngữ học. Vui lòng đừng xem code của tôi là nguồn tài liệu học ngữ pháp tiếng Việt.

Install

pip install vistickedword

Usage

from vistickedword import split_words

split_words('ngoanngoeo')

# Returns ('ngoan', 'ngoeo')

Credit

Developed by by Nguyễn Hồng Quân.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

vistickedword-0.9.5.tar.gz (6.6 kB view details)

Uploaded Source

Built Distribution

vistickedword-0.9.5-py3-none-any.whl (6.5 kB view details)

Uploaded Python 3

File details

Details for the file vistickedword-0.9.5.tar.gz.

File metadata

  • Download URL: vistickedword-0.9.5.tar.gz
  • Upload date:
  • Size: 6.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.0.10 CPython/3.8.2 Linux/5.4.0-42-generic

File hashes

Hashes for vistickedword-0.9.5.tar.gz
Algorithm Hash digest
SHA256 222e3de1b0f7e790087db25f3466458a9de461d607663bd19cf3787f92f0a022
MD5 f1a495f622061c5ddbe9d155f742b5ce
BLAKE2b-256 f8e3b1375b78a1d93e5a6e4ba239b76c5f6ac6a5fe1a852e71a5f1ca065db882

See more details on using hashes here.

File details

Details for the file vistickedword-0.9.5-py3-none-any.whl.

File metadata

  • Download URL: vistickedword-0.9.5-py3-none-any.whl
  • Upload date:
  • Size: 6.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.0.10 CPython/3.8.2 Linux/5.4.0-42-generic

File hashes

Hashes for vistickedword-0.9.5-py3-none-any.whl
Algorithm Hash digest
SHA256 5798ff6641c9f13d243bdd7d81577091436e41dfc66b4ee6ce1abf0037f524a7
MD5 2b92625756d540baac856dd865a3167b
BLAKE2b-256 70083d69416bc73f4839bdf51510672971b53a06d8c116b6a2c89ff37c7df425

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page