A library for adding readings and pronunciations to Kanji, numbers and alphabets
Project description
rubihuri
日本語テキストに対して漢字の読み方や発音を自動的に付与するPythonライブラリです。
インストール
MeCabとmecab-ipadic-NEologd(推奨辞書)のインストールが必要になります。
Ubuntu の場合
MeCabのインストール
$ sudo apt install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file
mecab-ipadic-NEologdのインストール
# 辞書元になるデータを GitHub からクローン
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# クローン先のリポジトリに移動
$ cd mecab-ipadic-neologd
# 辞書のインストール
$ ./bin/install-mecab-ipadic-neologd -n -y
辞書のインストールされているパスの確認
$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
Windowsの場合
mecab-python3 を使っているのでWindowsにMeCab本体のインストールは不要です。
wslを使って mecab-ipadic-NEologd のインストール
wslとはWindows上で簡単にLinuxを動かすためのものです。
PowerShellまたはコマンドプロンプトを管理者モードで開き以下のコマンドを実行。
wsl --install
インストール後、メッセージに従ってPCの再起動が必要になります。
再起動すると、ユーザ名の設定する必要があります。 設定すると以下の様にUbuntuにログインできます。
ユーザ名@DESKTOP-PJH30LR:
必要なパッケージのインストールをします。
$ sudo apt update
$ sudo apt upgrade
$ sudo apt install install make automake autoconf autotools-dev m4 mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file unzip
mecab-ipadic-NEologdのインストール
# 辞書元になるデータを GitHub からクローン
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# クローン先のリポジトリに移動
$ cd mecab-ipadic-neologd
# 辞書のインストール
$ ./bin/install-mecab-ipadic-neologd -n -y
辞書のインストールされているパスの確認
$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
windowの任意のドライブに辞書をコピーするディレクトリを新しく作ります。 エクスプローラでもコマンドでもどちらでも構いません。
例でコマンドでwindowのCドライブに dicmecab-ipadic-neologd ディレクトリを新しく作ります。
/mnt/c はWindowsのCドライブを表します
$ mkdir /mnt/c/dicmecab-ipadic-neologd
先ほど作ったwindowのCドライブの dicmecab-ipadic-neologd に辞書をコピーします。
/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/ は辞書のインストール先の場所を確認して出てきたパスになります。
$ cp /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/* /mnt/c/dicmecab-ipadic-neologd
以下のコマンドで Ubuntu を抜けることができます。
exit
rubihuriのインストール
pip install rubihuri
使い方
基本的な使用方法
from rubihuri import Rubihuri
# mecab-unidic-NEologd辞書を使用してRubihuriのインスタンスを作成
rubihuri = Rubihuri(dic_path="path/to/mecab-ipadic-neologd") # パスは環境によって異なる場合があります
# テスト用のテキスト
text = "今日の天気は晴れのち雨でした。"
# ひらがなで読みを付与
result = rubihuri.yomi_hiragana(text)
print(result)
# {今日の天気<きょうのてんき>}は{晴れ<はれ>}のち{雨<あめ>}でした
# カタカナで読みを付与
result = rubihuri.yomi_katakana(text)
print(result)
# {今日の天気<キョウノテンキ>}は{晴れ<ハレ>}のち{雨<アメ>}でした
# ひらがなで発音を付与
result = rubihuri.hatuon_hiragana(text)
print(result)
# {今日の天気<きょーのてんき>}は{晴れ<はれ>}のち{雨<あめ>}でした
# カタカナで発音を付与
result = rubihuri.hatuon_katakana(text)
print(result)
# {今日の天気<キョーノテンキ>}は{晴れ<ハレ>}のち{雨<アメ>}でした
カスタム設定
from rubihuri import Rubihuri
rubihuri1 = Rubihuri(
dic_path="path/to/mecab-ipadic-neologd", # 辞書パス
left_brace="", # 漢字を囲む左括弧
right_brace="", # 漢字を囲む右括弧
left_delimiter="(", # 読み/発音を囲む左記号
right_delimiter=")" # 読み/発音を囲む右記号
)
text = "今日の天気は晴れのち雨でした。"
result = rubihuri1.yomi_hiragana(text)
print(result)
# 今日の天気(きょうのてんき)は晴れ(はれ)のち雨(あめ)でした。
char_typeを指定することで文字種の設定 ("half"=半角のみ or "both"=半角・全角)することができます。 デフォルトは both です。
from rubihuri import Rubihuri
tagger = Rubihuri(
dic_path="path/to/mecab-ipadic-neologd", # 辞書パス
char_type="half"
)
text = "PC2台とPC1台"
result = rubihuri1.yomi_hiragana(text)
print(result)
# PC2{台<だい>}と{P<ぴー>}{C1<しーわん>}{台<だい>}
ライセンス
このプロジェクトのライセンスはMIT Licenseです。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file rubihuri-0.1.2.tar.gz.
File metadata
- Download URL: rubihuri-0.1.2.tar.gz
- Upload date:
- Size: 6.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
776011320b1517f55a609f066fe10a465f3ad745a7a96879b7b542837367d203
|
|
| MD5 |
06cd1977d4e82bccb61f99c28062a15b
|
|
| BLAKE2b-256 |
00df8b5ea182e517c611d91e690d0c807c53731c25b2d956b0a256a2ac31c226
|
File details
Details for the file rubihuri-0.1.2-py3-none-any.whl.
File metadata
- Download URL: rubihuri-0.1.2-py3-none-any.whl
- Upload date:
- Size: 6.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
cf26c6c5325457f8ab20b7e042f5ccc7e9ec1ee7601a0b8ad862bc4145f86cb8
|
|
| MD5 |
486a0521d5684c464f37453afbde5399
|
|
| BLAKE2b-256 |
7674f97928b8fa8b83755c813200edaf49f8668ae70153d03b8966e8a2d5e16b
|