Skip to main content

日本語のための日本語変換ライブラリ

Project description

ja_text_cleaner

ja_text_cleanerは、日本語のための日本語変換ライブラリです。

パイプライン

内部処理で使われているライブラリと、主な処理過程の概要を次に示します。 現在は名前の処理にマッチするように設計されています。

わかち書き

  1. 制御文字・記号等のノイズを除去
  2. 形態素解析でわかち書き(sudachi)

読みがな取得

  1. わかち書きされたトークンの読み(全角カタカナ)を取得(sudachi)
  2. 辞書にヒットしない英字の読み(全角カタカナ)を取得(romkan)
  3. 辞書にヒットしない半角カタカナを全角カタカナに変換(jaconv)

その他

  1. 必要に応じて半角を全角に変換(mojimoji)
  2. 必要に応じてカタカナからひらがな・ヘボン式に変換(romkan)

システム要件

  • Python 3.8+

インストール

ja_text_cleanerのほかに、形態素解析(sudachi)で使用する辞書(sudachidict_core)が必要です。

pip install ja_text_cleaner sudachidict_core

始める

from ja_text_cleaner import name

# 制御文字・記号はノイズとして除去されます
name.Wakachi(" \t\n\xa0a\u3000-!_")  # "a"

# 形態素解析結果はsudachiの処理結果に依存します
name.Wakachi("abc123あいうアイウアイウ日本!")  # "abc 123 あ いう アイウアイウ 日本"

# CJK互換漢字はCJK統合漢字へ正規化(NFC・NFKC)されません
name.Wakachi("神")  # "神"

name.Wakachi("日本太郎")  # "日本 太郎"
name.Zenkaku("日本太郎")  # "日本 太郎"
name.Katakana("日本太郎")  # "ニッポン タロウ"
name.Hiragana("日本太郎")  # "にっぽん たろう"
name.Romaji("日本太郎")  # "nippon tarou"

name.Wakachi("nippon tarou")  # "nippon tarou"
name.Zenkaku("nippon tarou")  # "nippon tarou"
name.Katakana("nippon tarou")  # "ニッポン タロウ"
name.Hiragana("nippon tarou")  # "にっぽん たろう"
name.Romaji("nippon tarou")  # "nippon tarou"

name.Wakachi("abc")  # "abc"
name.Zenkaku("abc")  # "abc"
name.Katakana("abc")  # "エービーシー"
name.Hiragana("abc")  # "えーびーしー"
name.Romaji("abc")  # "e-bi-shi-"

name.Wakachi("伊藤")  # "伊藤"
name.Zenkaku("伊藤")  # "伊藤"
name.Katakana("伊藤")  # "イトウ"
name.Hiragana("伊藤")  # "いとう"
name.Romaji("伊藤")  # "itou"

注意

本ライブラリは実験段階です。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ja_text_cleaner-0.0.1.tar.gz (8.5 kB view hashes)

Uploaded Source

Built Distribution

ja_text_cleaner-0.0.1-py3-none-any.whl (9.4 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page