異体字正規化モジュール
Project description
異体字正規化モジュール
「髙(はしご高)」「﨑(立つ崎)」などの異体字を、標準文字(JIS文字集合に含まれる文字)へと変換します。
導入方法
$ pip install ja-cvu-normalizer
利用例
from ja_cvu_normalizer.ja_cvu_normalizer import JaCvuNormalizer
text = "髙橋"
ja_cvu_normalizer = JaCvuNormalizer()
print(ja_cvu_normalizer.normalize(text))
# -> 高橋
謝辞
resource/ISO-2022-JP.txt
は異字体変換テーブルのリポジトリから拝借させていただきました。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Close
Hashes for ja_cvu_normalizer-0.2.8-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 1a6152c52ee7556eaa5d03cc71c0e93c0a5eaab3d60b8607ffce4e1821303dda |
|
MD5 | 372c28259e352d5b36f07640ddf27228 |
|
BLAKE2b-256 | 8b73538cf5efadf9ee704945b21baf8c43168ae64787967b0eb0007db147acb8 |