A small NLP tool package.
Project description
五艺(WuYi)
五艺是一个简易的中文自然语言处理工具
主要包括的功能有:中文分词、词性标注、情感分析、命名实体识别、关系抽取、关键词抽取、文本摘要、新词发现、文本聚类。
当前还在开发中。
安装
使用pip安装
pip install WuYi
中文分词
from wuyi import BasicTokenizer
tokenizer = BasicTokenizer()
text = "测试中文分词效果。"
tokens = tokenizer.tokenize(text=text)
print(tokens)
评价指标
from wuyi import ROUGE, BLEU
rouge = ROUGE()
bleu = BLEU()
hyp = "简单测试一下五艺的效果。"
ref = "测试是否能够正确输出。"
rouge_score = rouge.get_scores(hyp, ref, avg=True)
print(rouge_score)
bleu_score = bleu.get_scores(hyp, ref)
print(bleu_score)
开发进度
中文分词【未开始】
词性标注【未开始】
情感分析【未开始】
命名实体识别【未开始】
关系抽取【未开始】
关键词抽取【未开始】
文本摘要【未开始】
新词发现【未开始】
文本聚类【8.17开始】
数据评测指标【8.30开始】
文档结构
\examples 示例代码
\wuyi
\clustering 聚类算法[未完成]
kmeans.py K-Means算法[未完成]
\core 核心部分代码[未完成]
\tokenizers 分词部分代码[未完成]
BasicTokenizer.py 基础分词[完成]
\metric 指标部分代码[未完成]
BLEU.py bleu评测指标[完成]
ROUGE.py rouge评测指标[完成]
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
WuYi-0.0.6.tar.gz
(11.0 kB
view hashes)
Built Distribution
WuYi-0.0.6-py3-none-any.whl
(14.1 kB
view hashes)