Skip to main content

A small NLP tool package.

Project description

五艺(WuYi)

五艺是一个简易的中文自然语言处理工具
主要包括的功能有:中文分词、词性标注、情感分析、命名实体识别、关系抽取、关键词抽取、文本摘要、新词发现、文本聚类。
当前还在开发中。

安装

使用pip安装

pip install WuYi

中文分词

from wuyi import BasicTokenizer


tokenizer = BasicTokenizer()
text = "测试中文分词效果。"
tokens = tokenizer.tokenize(text=text)

print(tokens)

评价指标

from wuyi import ROUGE, BLEU


rouge = ROUGE()
bleu = BLEU()

hyp = "简单测试一下五艺的效果。"
ref = "测试是否能够正确输出。"

rouge_score = rouge.get_scores(hyp, ref, avg=True)
print(rouge_score)

bleu_score = bleu.get_scores(hyp, ref)
print(bleu_score)

开发进度

中文分词【未开始】
词性标注【未开始】
情感分析【未开始】
命名实体识别【未开始】
关系抽取【未开始】
关键词抽取【未开始】
文本摘要【未开始】
新词发现【未开始】
文本聚类【8.17开始】
数据评测指标【8.30开始】

文档结构

\examples  示例代码
\wuyi  
    \clustering  聚类算法[未完成]
        kmeans.py  K-Means算法[未完成]
    \core  核心部分代码[未完成]
    \tokenizers 分词部分代码[未完成]
        BasicTokenizer.py 基础分词[完成]
    \metric  指标部分代码[未完成]
        BLEU.py  bleu评测指标[完成]
        ROUGE.py  rouge评测指标[完成]

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

WuYi-0.0.6.tar.gz (11.0 kB view hashes)

Uploaded source

Built Distribution

WuYi-0.0.6-py3-none-any.whl (14.1 kB view hashes)

Uploaded py3

Supported by

AWS AWS Cloud computing Datadog Datadog Monitoring Facebook / Instagram Facebook / Instagram PSF Sponsor Fastly Fastly CDN Google Google Object Storage and Download Analytics Huawei Huawei PSF Sponsor Microsoft Microsoft PSF Sponsor NVIDIA NVIDIA PSF Sponsor Pingdom Pingdom Monitoring Salesforce Salesforce PSF Sponsor Sentry Sentry Error logging StatusPage StatusPage Status page