LLM Japanese Kana-Kanji convetor
Project description
pyuino
pyuino は LLM の仕組みを利用したかな漢字変換です
厳密には Qwen3 モデルがベースになっていますが、入出力が変わっているため llama.cpp 等では 動かない ことを確認済みです
まだお試し版です。まともに動かないです。
インストール
PyPi からインストールできます
pip install pyuino
モデル・辞書ファイルの準備
下記の場所からモデルファイル及び辞書ファイルをダウンロードしてください
https://www.dropbox.com/scl/fo/03sverk4gsj3l8qmx9ltw/ACueNBsN8EwwSYP18v2a1lQ?rlkey=99ki15e75q3cx9ddmotzgcpah&st=2n8rooyz&dl=0
- config.json
- model.safetensors
- yuino_dict.pb
ダウンロードしたファイルは YuinoLM 下に配置してください
ToyBox の起動
ToyBox は pyuino のデモアプリケーションです
かなを入力すると、変換後のかな漢字を返します
$ pyuino-toybox
--Yuino TOY-BOX--
かな > はこねおんせんへようこそ
0.5473639369010925 ['[CLS]', '羽']
0.5501382946968079 ['[CLS]', '筐']
0.6909381747245789 ['[CLS]', 'はこね']
1.3568682670593262 ['[CLS]', 'はこね', 'お']
1.3223243355751038 ['[CLS]', '筐', 'ネオン']
1.4771115183830261 ['[CLS]', 'はこね', 'オンセ']
0.6929624676704407 ['[CLS]', '箱根温泉']
1.1179965436458588 ['[CLS]', '箱根温泉', 'へ']
1.5004573464393616 ['[CLS]', '箱根温泉', 'へよ']
1.525723159313202 ['[CLS]', '箱根温泉', 'へよう']
1.8744302093982697 ['[CLS]', '箱根温泉', 'へ', '楊子']
1.8722382485866547 ['[CLS]', '箱根温泉', 'へ', 'ようこそ']
箱根温泉へようこそ : 0.990405 sec
漢字: 箱根温泉へようこそ
サーバーの起動
現在 IBus-Anya を利用することを想定します
IBus-Anya 起動前に、下記コマンドでサーバー側を起動してください
docker run -d -p 30055:30055 -v $HOME/.local/share/yuino:/opt/pyuino/YuinoLM ghcr.io/yuino-im/pyuino -m /opt/pyuino/YuinoLM
使用モデル・データセット
Yuino では下記のモデル、及びデータセットを使用して学習しました
(ありがとうございます!!)
辞書
SudachiDict (WorksApplications)
https://github.com/WorksApplications/SudachiDict
LLMトークナイザ
LINE DistilBERT Japanese (LINE Corporation)
https://huggingface.co/line-corporation/line-distilbert-base-japanese
データセット
CC100(Japanese)
https://huggingface.co/datasets/range3/cc100-ja
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file pyuino-0.0.8.tar.gz.
File metadata
- Download URL: pyuino-0.0.8.tar.gz
- Upload date:
- Size: 17.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? Yes
- Uploaded via: twine/6.1.0 CPython/3.13.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4c9007464014dca5be9e7592e22e3bb7a2288885c054e4a6c2d5afaa744979c1
|
|
| MD5 |
c92af629069823dbf5fe80ab494df1a5
|
|
| BLAKE2b-256 |
8793dd53d3835d5de9ac73115170f7a90cfec2d2adf32c92ac1e7b327b9c809f
|
Provenance
The following attestation bundles were made for pyuino-0.0.8.tar.gz:
Publisher:
release.yml on yuino-im/pyuino
-
Statement:
-
Statement type:
https://in-toto.io/Statement/v1 -
Predicate type:
https://docs.pypi.org/attestations/publish/v1 -
Subject name:
pyuino-0.0.8.tar.gz -
Subject digest:
4c9007464014dca5be9e7592e22e3bb7a2288885c054e4a6c2d5afaa744979c1 - Sigstore transparency entry: 979718634
- Sigstore integration time:
-
Permalink:
yuino-im/pyuino@469d5791cfd1ba1b6d24a5d815d2bae0ea3b6cf5 -
Branch / Tag:
refs/tags/v0.0.8 - Owner: https://github.com/yuino-im
-
Access:
public
-
Token Issuer:
https://token.actions.githubusercontent.com -
Runner Environment:
github-hosted -
Publication workflow:
release.yml@469d5791cfd1ba1b6d24a5d815d2bae0ea3b6cf5 -
Trigger Event:
push
-
Statement type:
File details
Details for the file pyuino-0.0.8-py3-none-any.whl.
File metadata
- Download URL: pyuino-0.0.8-py3-none-any.whl
- Upload date:
- Size: 16.5 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? Yes
- Uploaded via: twine/6.1.0 CPython/3.13.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4bc31a0b03850ffa5091adbcf113daa29a2d5a2ce1d90f15a69c02eb31d7108e
|
|
| MD5 |
57e52089398db05329b5158b53bd96f8
|
|
| BLAKE2b-256 |
34948d34391a07b8ccfbde1c30e226657009b639e8fa51273ad4bb059fd1a118
|
Provenance
The following attestation bundles were made for pyuino-0.0.8-py3-none-any.whl:
Publisher:
release.yml on yuino-im/pyuino
-
Statement:
-
Statement type:
https://in-toto.io/Statement/v1 -
Predicate type:
https://docs.pypi.org/attestations/publish/v1 -
Subject name:
pyuino-0.0.8-py3-none-any.whl -
Subject digest:
4bc31a0b03850ffa5091adbcf113daa29a2d5a2ce1d90f15a69c02eb31d7108e - Sigstore transparency entry: 979718760
- Sigstore integration time:
-
Permalink:
yuino-im/pyuino@469d5791cfd1ba1b6d24a5d815d2bae0ea3b6cf5 -
Branch / Tag:
refs/tags/v0.0.8 - Owner: https://github.com/yuino-im
-
Access:
public
-
Token Issuer:
https://token.actions.githubusercontent.com -
Runner Environment:
github-hosted -
Publication workflow:
release.yml@469d5791cfd1ba1b6d24a5d815d2bae0ea3b6cf5 -
Trigger Event:
push
-
Statement type: