Sentence boundary disambiguation tool for Japanese texts
Project description
Bunkai
Bunkai is a sentence boundary (SB) disambiguation tool for Japanese texts.
Bunkaiは日本語文境界判定器です.
Quick Start
Install
$ pip install -U bunkai
Disambiguation without Models
$ echo -e '宿を予約しました♪!まだ2ヶ月も先だけど。早すぎかな(笑)楽しみです★\n2文書目の先頭行です。▁改行はU+2581で表現します。' \
| bunkai
宿を予約しました♪!│まだ2ヶ月も先だけど。│早すぎかな(笑)│楽しみです★
2文書目の先頭行です。▁│改行はU+2581で表現します。
- Feed a document as one line by using
▁
(U+2581) for line breaks.
1行は1つの文書を表します.文書中の改行は▁
(U+2581) で与えてください. - The output shows sentence boundaries with
│
(U+2502).
出力では文境界は│
(U+2502) で表示されます.
Disambiguation for Line Breaks with a Model
If you want to disambiguate sentence boundaries for line breaks, please add a --model
option with the path to the model.
改行記号に対しても文境界判定を行いたい場合は,--model
オプションを与える必要があります.
First, please install extras to use --model
option.
--model
オプションを利用するために、まずextraパッケージをインストールしてください.
$ pip install -U 'bunkai[lb]'
Second, please setup a model. It will take some time.
次にモデルをセットアップする必要があります.セットアップには少々時間がかかります.
$ bunkai --model bunkai-model-directory --setup
Then, please designate the directory.
そしてモデルを指定して動かしてください.
$ echo -e "文の途中で改行を▁入れる文章ってありますよね▁それも対象です。" | bunkai --model bunkai-model-directory
文の途中で改行を▁入れる文章ってありますよね▁│それも対象です。
Morphological Analysis Result
You can get morphological analysis results with --ma
option.
--ma
オプションを付与すると形態素解析結果が得られます.
$ echo -e '形態素解析し▁ます。結果を 表示します!' | bunkai --ma
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
▁
EOS
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
結果 名詞,副詞可能,*,*,*,*,結果,ケッカ,ケッカ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
記号,空白,*,*,*,*, ,*,*
表示 名詞,サ変接続,*,*,*,*,表示,ヒョウジ,ヒョージ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
! 記号,一般,*,*,*,*,!,!,!
EOS
Python Library
You can also use Bunkai as Python library.
BunkaiはPythonライブラリとしても使えます.
from bunkai import Bunkai
bunkai = Bunkai()
for sentence in bunkai("はい。このようにpythonライブラリとしても使えます!"):
print(sentence)
For more information, see examples.
ほかの例はexamplesをご覧ください.
Documents
References
- Yuta Hayashibe and Kensuke Mitsuzawa. Sentence Boundary Detection on Line Breaks in Japanese. Proceedings of The 6th Workshop on Noisy User-generated Text (W-NUT 2020), pp.71-75. November 2020. [PDF] [bib]
License
Apache License 2.0
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file bunkai-1.5.7.tar.gz
.
File metadata
- Download URL: bunkai-1.5.7.tar.gz
- Upload date:
- Size: 45.5 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.2.2 CPython/3.10.4 Linux/6.1.0-2-cloud-amd64
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 04ea4bb81d34ecbd16a08e88afc2fbafcae0ef7ba86564a8ea81c4f7da6b68c5 |
|
MD5 | c7433599db628b83c41afdac921e9bc9 |
|
BLAKE2b-256 | a4541b985512562ef7bc3103aa375512522ea0fd5f4a1e006bd0e267b9f5b495 |
File details
Details for the file bunkai-1.5.7-py3-none-any.whl
.
File metadata
- Download URL: bunkai-1.5.7-py3-none-any.whl
- Upload date:
- Size: 62.2 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.2.2 CPython/3.10.4 Linux/6.1.0-2-cloud-amd64
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 3454b357f944c5a89da8b01601485446680f5237d3a63d4361cc003e7c84ea40 |
|
MD5 | ce6a467c338d82a0e9d88f143e7307a6 |
|
BLAKE2b-256 | 944cec5a463519512d8482b175a0d7c98af9e44b0cf064ed081f77399554dcee |