A micro tokenizer for Chinese
Project description
微型中文分词器
一个微型的中文分词器,目前提供了七种分词算法:
按照词语的频率(概率)来利用构建 DAG(有向无环图)来分词,使用 Trie Tree 构建前缀字典树
使用隐马尔可夫模型(Hidden Markov Model,HMM)来分词
融合 DAG 和 HMM 两种分词模型的结果,按照分词粒度最大化的原则进行融合得到的模型
正向最大匹配法
反向最大匹配法
双向最大匹配法
基于 CRF (Conditional Random Field, 条件随机场) 的分词方法
特点 / 特色
面向教育:可以导出 graphml 格式的图结构文件,辅助学习者理解算法过程
良好的分词性能:由于使用类似 结巴分词 的算法,具有良好的分词性能
具有良好的扩展性:使用和 结巴分词 一样的字典文件,可以轻松添加自定义字典
自定义能力强
提供工具和脚本帮助用户训练自己的分词模型而不是使用内建的模型
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
MicroTokenizer-0.18.0.tar.gz
(18.5 MB
view hashes)
Built Distribution
Close
Hashes for MicroTokenizer-0.18.0-py2.py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 6be669aaeaa886527ce2b84499b9a3209bc366e43b16d30f1dffd51b22ab1ab6 |
|
MD5 | 5c41efcc7fe16363e52af0d5f6e0c0b1 |
|
BLAKE2b-256 | bad244655fd3cfd82f2b881bc8cd6e3fae80b196b7d9dab904112238feb5d6c8 |