Skip to main content

日本語のための日本語変換ライブラリ

Project description

ja_text_cleaner

ja_text_cleanerは、日本語のための日本語変換ライブラリです。

パイプライン

内部処理で使われているライブラリと、主な処理過程の概要を次に示します。 現在は名前の処理にマッチするように設計されています。

わかち書き

  1. 制御文字・記号等のノイズを除去
  2. 形態素解析でわかち書き(sudachi)

読みがな取得

  1. わかち書きされたトークンの読み(全角カタカナ)を取得(sudachi)
  2. 辞書にヒットしない英字の読み(全角カタカナ)を取得(romkan)
  3. 辞書にヒットしない半角カタカナを全角カタカナに変換(jaconv)

その他

  1. 必要に応じて半角を全角に変換(mojimoji)
  2. 必要に応じてカタカナからひらがな・ヘボン式に変換(romkan)

システム要件

  • Python 3.8+

インストール

ja_text_cleanerのほかに、形態素解析(sudachi)で使用する辞書(sudachidict_core)が必要です。

pip install ja_text_cleaner sudachidict_core

始める

from ja_text_cleaner import name

# 制御文字・記号はノイズとして除去されます
name.Wakachi(" \t\n\xa0a\u3000-!_")  # "a"

# 形態素解析結果はsudachiの処理結果に依存します
name.Wakachi("abc123あいうアイウアイウ日本!")  # "abc 123 あ いう アイウアイウ 日本"

# CJK互換漢字はCJK統合漢字へ正規化(NFC・NFKC)されません
name.Wakachi("神")  # "神"

name.Wakachi("日本太郎")  # "日本 太郎"
name.Zenkaku("日本太郎")  # "日本 太郎"
name.Katakana("日本太郎")  # "ニッポン タロウ"
name.Hiragana("日本太郎")  # "にっぽん たろう"
name.Romaji("日本太郎")  # "nippon tarou"

name.Wakachi("nippon tarou")  # "nippon tarou"
name.Zenkaku("nippon tarou")  # "nippon tarou"
name.Katakana("nippon tarou")  # "ニッポン タロウ"
name.Hiragana("nippon tarou")  # "にっぽん たろう"
name.Romaji("nippon tarou")  # "nippon tarou"

name.Wakachi("abc")  # "abc"
name.Zenkaku("abc")  # "abc"
name.Katakana("abc")  # "エービーシー"
name.Hiragana("abc")  # "えーびーしー"
name.Romaji("abc")  # "e-bi-shi-"

name.Wakachi("伊藤")  # "伊藤"
name.Zenkaku("伊藤")  # "伊藤"
name.Katakana("伊藤")  # "イトウ"
name.Hiragana("伊藤")  # "いとう"
name.Romaji("伊藤")  # "itou"

注意

本ライブラリは実験段階です。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ja_text_cleaner-0.0.1.tar.gz (8.5 kB view details)

Uploaded Source

Built Distribution

ja_text_cleaner-0.0.1-py3-none-any.whl (9.4 kB view details)

Uploaded Python 3

File details

Details for the file ja_text_cleaner-0.0.1.tar.gz.

File metadata

  • Download URL: ja_text_cleaner-0.0.1.tar.gz
  • Upload date:
  • Size: 8.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.0.8 CPython/3.8.5 Linux/5.8.0-50-generic

File hashes

Hashes for ja_text_cleaner-0.0.1.tar.gz
Algorithm Hash digest
SHA256 8c9441da558a4180271fd1b8843b59a15abf976a2f8886a62cfa644abd6001c4
MD5 ba12809a5e9ae01709dce7303428f9ad
BLAKE2b-256 61879252a3ab604832b814ef3a62dd6c8e13c7d653cf61d08535beae119e4256

See more details on using hashes here.

File details

Details for the file ja_text_cleaner-0.0.1-py3-none-any.whl.

File metadata

  • Download URL: ja_text_cleaner-0.0.1-py3-none-any.whl
  • Upload date:
  • Size: 9.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.0.8 CPython/3.8.5 Linux/5.8.0-50-generic

File hashes

Hashes for ja_text_cleaner-0.0.1-py3-none-any.whl
Algorithm Hash digest
SHA256 0f391d84646a88dae9f6fe954c4c5c267de2f155249bc1e9e2f7b8cfe0902442
MD5 8dabe1d569b0589353d94e34616bbd63
BLAKE2b-256 8e9e350738967fe44d15c7c9420cd6f46463ee01363317bd9617497129f7705d

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page