異体字正規化モジュール
Project description
異体字正規化モジュール
「髙(はしご高)」「﨑(立つ崎)」などの異体字を、標準文字(JIS文字集合に含まれる文字)へと変換します。
導入方法
$ pip install ja-cvu-normalizer
利用例
from ja_cvu_normalizer.ja_cvu_normalizer import JaCvuNormalizer
text = "髙橋"
ja_cvu_normalizer = JaCvuNormalizer()
print(ja_cvu_normalizer.normalize(text))
# -> 高橋
謝辞
resource/ISO-2022-JP.txtは異字体変換テーブルのリポジトリから拝借させていただきました。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Close
Hashes for ja_cvu_normalizer-0.2.9-py3-none-any.whl
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 | 6f20bb813a76f4d6b8b856287d5cac990da8402448756b568f352733b19bab4b |
|
| MD5 | 0cbe7eda7cf1584b58fc20cc60c0cbeb |
|
| BLAKE2b-256 | 87015f2921cf727783e2ee5742ddd82bba0805dead1d47950a8904a1cdf541ed |