"異体字正規化モジュール"
Project description
異体字正規化モジュール
「髙(はしご高)」「﨑(立つ崎)」などの異体字を、標準文字(JIS文字集合に含まれる文字)へと変換します。
導入方法
$ pip install ja-cvu-normalizer
利用例
from ja_cvu_normalizer.ja_cvu_normalizer import JaCvuNormalizer
text = "髙橋"
ja_cvu_normalizer = JaCvuNormalizer()
print(ja_cvu_normalizer.normalize(text))
# -> 高橋
謝辞
resource/ISO-2022-JP.txt
は異字体変換テーブルのリポジトリから拝借させていただきました。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
ja_cvu_normalizer-0.2.7.tar.gz
(34.6 kB
view hashes)
Built Distribution
Close
Hashes for ja_cvu_normalizer-0.2.7-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 269e7a25f6cb7e13c8b7f878d10905d351eeda871a4e72592dcdeae3e3f4d9b2 |
|
MD5 | 0880a5324c7d025a5b7417e819e1d660 |
|
BLAKE2b-256 | 7f3a911c50317556ffebce43c7385da9bfe632ace40bcafe32b4c090662dd714 |