Divide documents by character type
Project description
概要
文字列をひらがな、片仮名、漢字、数字、アルファベットごとに分割するツールです。 英日両文に適用可能ですが、ピリオドを含む一部の用語は適切に分割できない場合があります。 詳しくは、実行サンプルをご確認ください。
セットアップ
pip install divide-char-type
アンインストール
pip uninstall divide-char-type
使い方
from divide_char_type import divide_char_type
data = divide_char_type("今日の天気は晴れです。")
print(data[0])
戻り値
- 配列型
- 第0要素:字種分割した全体のリスト
- 第1要素:字種分割した全体の字種タイプリスト
- 第2要素:字種分割したひらがなのリスト
- 第3要素:字種分割したカタカナのリスト
- 第4要素:字種分割した漢字のリスト
- 第5要素:字種分割したアルファベットのリスト
- 第6要素:字種分割した数字のリスト
- 第7要素:字種分割したその他記号などのリスト
字種タイプリスト
- 0:平仮名
- 1:カタカナ
- 2:漢字
- 3:アルファベット
- 4:数字
- 5:その他記号など
実行サンプル
['1.0', ' ', 'is', ' ', 'number', '.']
['1', ',', '000', ' ', 'is', ' ', 'number', '.']
['u.s.a.', ' ', 'is', ' ', 'state', '.']
['u.k', '.', ' ', 'is', ' ', 'state', '.']
['e.g.', ',', ' ', 'th', ',', ' ', 'ch', ',', ' ', 'sh', ',', ' ', 'ph', ',', ' ', 'gh', ',', ' ', 'ng', ',', ' ', 'qu']
['state', ' ', 'include', ' ', 'u.s.', ' ', 'u.s.', ' ', 'is', ' ', 'state', '.']
['state', ' ', 'include', ' ', 'u.k', '.', ' ', 'u.k', '.', ' ', 'is', ' ', 'state', '.']
['u.s.', 'は', '国', 'です', '。']
['u.s', '.', 'は', '国', 'です', '。']
['あいうえおーかきくけこ']
['アイウエオーカキクケコ']
['今日', 'の', '天気', 'は', '晴', 'れです', '。\n', '明日', 'の', '天気', 'は', '曇', 'りです', '。\n']
['&&&', '1.0', '&&&']
実行速度
ライセンス
divide_char_type: Python Software Foundation License
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
divide-char-type-0.2.5.tar.gz
(4.5 kB
view hashes)
Built Distribution
Close
Hashes for divide_char_type-0.2.5-py2-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | c0976ad46aa2ea4567be00008645ded17732bc32f14e2409989240426e97b4e1 |
|
MD5 | cb8b5f3fee124375413a18afe401105b |
|
BLAKE2b-256 | f76c074eb6014222eaff09d0f2861dfbfbf13190752ef0f7e88506a8ca88c784 |