Skip to main content

A library for adding readings and pronunciations to Kanji, numbers and alphabets

Project description

rubihuri

日本語テキストに対して漢字の読み方や発音を自動的に付与するPythonライブラリです。

インストール

MeCabmecab-ipadic-NEologd(推奨辞書)のインストールが必要になります。

Ubuntu の場合

MeCabのインストール

$ sudo apt install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file

mecab-ipadic-NEologdのインストール

# 辞書元になるデータを GitHub からクローン
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

# クローン先のリポジトリに移動
$ cd mecab-ipadic-neologd

# 辞書のインストール
$ ./bin/install-mecab-ipadic-neologd -n -y

辞書のインストールされているパスの確認

$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

mecab-ipadic-NEologd 公式キュメント

Windowsの場合

mecab-python3 を使っているのでWindowsにMeCab本体のインストールは不要です。

wslを使って mecab-ipadic-NEologd のインストール

wslとはWindows上で簡単にLinuxを動かすためのものです。

Microsoftのwslインストールドキュメント

PowerShellまたはコマンドプロンプトを管理者モードで開き以下のコマンドを実行。

wsl --install

インストール後、メッセージに従ってPCの再起動が必要になります。

再起動すると、ユーザ名の設定する必要があります。 設定すると以下の様にUbuntuにログインできます。

ユーザ名@DESKTOP-PJH30LR:

必要なパッケージのインストールをします。

$ sudo apt update
$ sudo apt upgrade
$ sudo apt install install make automake autoconf autotools-dev m4 mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file unzip

mecab-ipadic-NEologdのインストール

# 辞書元になるデータを GitHub からクローン
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

# クローン先のリポジトリに移動
$ cd mecab-ipadic-neologd

# 辞書のインストール
$ ./bin/install-mecab-ipadic-neologd -n -y

辞書のインストールされているパスの確認

$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

windowの任意のドライブに辞書をコピーするディレクトリを新しく作ります。 エクスプローラでもコマンドでもどちらでも構いません。

例でコマンドでwindowのCドライブに dicmecab-ipadic-neologd ディレクトリを新しく作ります。

/mnt/c はWindowsのCドライブを表します

$ mkdir /mnt/c/dicmecab-ipadic-neologd

先ほど作ったwindowのCドライブの dicmecab-ipadic-neologd に辞書をコピーします。

/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/ は辞書のインストール先の場所を確認して出てきたパスになります。

$ cp /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/* /mnt/c/dicmecab-ipadic-neologd

以下のコマンドで Ubuntu を抜けることができます。

exit

rubihuriのインストール

pip install rubihuri

使い方

基本的な使用方法

from rubihuri import Rubihuri

# mecab-unidic-NEologd辞書を使用してRubihuriのインスタンスを作成
rubihuri = Rubihuri(dic_path="path/to/mecab-ipadic-neologd")  # パスは環境によって異なる場合があります

# テスト用のテキスト
text = "今日の天気は晴れのち雨でした。"

# ひらがなで読みを付与
result = rubihuri.yomi_hiragana(text)
print(result)
# {今日の天気<きょうのてんき>}は{晴れ<はれ>}のち{雨<あめ>}でした

# カタカナで読みを付与
result = rubihuri.yomi_katakana(text)
print(result)
# {今日の天気<キョウノテンキ>}は{晴れ<ハレ>}のち{雨<アメ>}でした

# ひらがなで発音を付与
result = rubihuri.hatuon_hiragana(text)
print(result)
# {今日の天気<きょーのてんき>}は{晴れ<はれ>}のち{雨<あめ>}でした

# カタカナで発音を付与
result = rubihuri.hatuon_katakana(text)
print(result)
# {今日の天気<キョーノテンキ>}は{晴れ<ハレ>}のち{雨<アメ>}でした

カスタム設定

from rubihuri import Rubihuri

rubihuri1 = Rubihuri(
    dic_path="path/to/mecab-ipadic-neologd",  # 辞書パス
    left_brace="",      # 漢字を囲む左括弧
    right_brace="",     # 漢字を囲む右括弧
    left_delimiter="(",  # 読み/発音を囲む左記号
    right_delimiter=")"  # 読み/発音を囲む右記号
)

text = "今日の天気は晴れのち雨でした。"
result = rubihuri1.yomi_hiragana(text)
print(result)
# 今日の天気(きょうのてんき)は晴れ(はれ)のち雨(あめ)でした。

char_typeを指定することで文字種の設定 ("half"=半角のみ or "both"=半角・全角)することができます。 デフォルトは both です。

from rubihuri import Rubihuri

tagger = Rubihuri(
    dic_path="path/to/mecab-ipadic-neologd",  # 辞書パス
    char_type="half"
)

text = "PC2台とPC1台"
result = rubihuri1.yomi_hiragana(text)
print(result)
# PC2{台<だい>}と{P<ぴー>}{C1<しーわん>}{台<だい>}

ライセンス

このプロジェクトのライセンスはMIT Licenseです。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

rubihuri-0.1.2.tar.gz (6.4 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

rubihuri-0.1.2-py3-none-any.whl (6.7 kB view details)

Uploaded Python 3

File details

Details for the file rubihuri-0.1.2.tar.gz.

File metadata

  • Download URL: rubihuri-0.1.2.tar.gz
  • Upload date:
  • Size: 6.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.9

File hashes

Hashes for rubihuri-0.1.2.tar.gz
Algorithm Hash digest
SHA256 776011320b1517f55a609f066fe10a465f3ad745a7a96879b7b542837367d203
MD5 06cd1977d4e82bccb61f99c28062a15b
BLAKE2b-256 00df8b5ea182e517c611d91e690d0c807c53731c25b2d956b0a256a2ac31c226

See more details on using hashes here.

File details

Details for the file rubihuri-0.1.2-py3-none-any.whl.

File metadata

  • Download URL: rubihuri-0.1.2-py3-none-any.whl
  • Upload date:
  • Size: 6.7 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.9

File hashes

Hashes for rubihuri-0.1.2-py3-none-any.whl
Algorithm Hash digest
SHA256 cf26c6c5325457f8ab20b7e042f5ccc7e9ec1ee7601a0b8ad862bc4145f86cb8
MD5 486a0521d5684c464f37453afbde5399
BLAKE2b-256 7674f97928b8fa8b83755c813200edaf49f8668ae70153d03b8966e8a2d5e16b

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page