日本語のための日本語変換ライブラリ
Project description
ja_text_cleaner
ja_text_cleaner
は、日本語のための日本語変換ライブラリです。
パイプライン
内部処理で使われているライブラリと、主な処理過程の概要を次に示します。 現在は名前の処理にマッチするように設計されています。
わかち書き
- 制御文字・記号等のノイズを除去
- 形態素解析でわかち書き(sudachi)
読みがな取得
- わかち書きされたトークンの読み(全角カタカナ)を取得(sudachi)
- 辞書にヒットしない英字の読み(全角カタカナ)を取得(romkan)
- 辞書にヒットしない半角カタカナを全角カタカナに変換(jaconv)
その他
- 必要に応じて半角を全角に変換(mojimoji)
- 必要に応じてカタカナからひらがな・ヘボン式に変換(romkan)
システム要件
- Python 3.8+
インストール
ja_text_cleaner
のほかに、形態素解析(sudachi)で使用する辞書(sudachidict_core)が必要です。
pip install ja_text_cleaner sudachidict_core
始める
from ja_text_cleaner import name
# 制御文字・記号はノイズとして除去されます
name.Wakachi(" \t\n\xa0a\u3000-!_") # "a"
# 形態素解析結果はsudachiの処理結果に依存します
name.Wakachi("abc123あいうアイウアイウ日本!") # "abc 123 あ いう アイウアイウ 日本"
# CJK互換漢字はCJK統合漢字へ正規化(NFC・NFKC)されません
name.Wakachi("神") # "神"
name.Wakachi("日本太郎") # "日本 太郎"
name.Zenkaku("日本太郎") # "日本 太郎"
name.Katakana("日本太郎") # "ニッポン タロウ"
name.Hiragana("日本太郎") # "にっぽん たろう"
name.Romaji("日本太郎") # "nippon tarou"
name.Wakachi("nippon tarou") # "nippon tarou"
name.Zenkaku("nippon tarou") # "nippon tarou"
name.Katakana("nippon tarou") # "ニッポン タロウ"
name.Hiragana("nippon tarou") # "にっぽん たろう"
name.Romaji("nippon tarou") # "nippon tarou"
name.Wakachi("abc") # "abc"
name.Zenkaku("abc") # "abc"
name.Katakana("abc") # "エービーシー"
name.Hiragana("abc") # "えーびーしー"
name.Romaji("abc") # "e-bi-shi-"
name.Wakachi("伊藤") # "伊藤"
name.Zenkaku("伊藤") # "伊藤"
name.Katakana("伊藤") # "イトウ"
name.Hiragana("伊藤") # "いとう"
name.Romaji("伊藤") # "itou"
注意
本ライブラリは実験段階です。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
ja_text_cleaner-0.0.1.tar.gz
(8.5 kB
view details)
Built Distribution
File details
Details for the file ja_text_cleaner-0.0.1.tar.gz
.
File metadata
- Download URL: ja_text_cleaner-0.0.1.tar.gz
- Upload date:
- Size: 8.5 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.0.8 CPython/3.8.5 Linux/5.8.0-50-generic
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 8c9441da558a4180271fd1b8843b59a15abf976a2f8886a62cfa644abd6001c4 |
|
MD5 | ba12809a5e9ae01709dce7303428f9ad |
|
BLAKE2b-256 | 61879252a3ab604832b814ef3a62dd6c8e13c7d653cf61d08535beae119e4256 |
File details
Details for the file ja_text_cleaner-0.0.1-py3-none-any.whl
.
File metadata
- Download URL: ja_text_cleaner-0.0.1-py3-none-any.whl
- Upload date:
- Size: 9.4 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.0.8 CPython/3.8.5 Linux/5.8.0-50-generic
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 0f391d84646a88dae9f6fe954c4c5c267de2f155249bc1e9e2f7b8cfe0902442 |
|
MD5 | 8dabe1d569b0589353d94e34616bbd63 |
|
BLAKE2b-256 | 8e9e350738967fe44d15c7c9420cd6f46463ee01363317bd9617497129f7705d |