Syntax Error Data Enhancement
Project description
一键语法错误增强工具
欢迎使用一键语法错误增强工具,该工具可以进行14种语法错误的增强,不同行业可以根据自己的数据进行错误替换,来训练自己的语法和拼写模型。
使用:pip install ChineseErrorCorrector
开源不易,欢迎 star🌟
pypi:https://pypi.org/project/ChineseErrorCorrector/
介绍
一键语法错误增强工具,支持:
- 1.缺字漏字
- 2.错别字错误
- 3.缺少标点
- 4.错用标点
- 5.主语不明
- 6.谓语残缺
- 7.宾语残缺
- 8.其他成分残缺
- 9.虚词多余
- 10.其他成分多余
- 11.主语多余
- 12.语序不当
- 13.动宾搭配不当
- 14.其他搭配不当
注意
如果没有进行数据增强,则返回None
API
1.缺字漏字
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.lack_word("小明住在北京"))
# 输出:小明在北京
2.错别字错误
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.wrong_word("小明住在北京"))
# 输出:小明住在北鲸
3.缺少标点
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.lack_char("小明住在北京,热爱NLP。"))
# 输出:小明住在北京热爱NLP。
4.错用标点
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.wrong_char("小明住在北京"))
# 输出:小明住在北京。热爱NLP。
5.主语不明
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.unknow_sub("小明住在北京"))
# 输出:住在北京
6.谓语残缺
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.unknow_pred("小明住在北京"))
# 输出:小明在北京
7.宾语残缺
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.lack_obj("小明住在北京,热爱NLP。"))
# 输出:小明住在北京,热爱。
8.其他成分残缺
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.lack_others("小明住在北京,热爱NLP。"))
# 输出:小明住北京,热爱NLP。
9.虚词多余
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.red_fun("小明住在北京,热爱NLP。"))
# 输出:小明所住的在北京,热爱NLP。
10.其他成分多余
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.red_component("小明住在北京,热爱NLP。"))
# 输出:小明住在北京,热爱NLP。,看着
11.主语多余
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.red_sub("小明住在北京,热爱NLP。"))
# 输出:小明住在北京,小明热爱NLP。
12.语序不当
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.wrong_sentence_order("小明住在北京,热爱NLP。"))
# 输出:热爱NLP。,小明住在北京
13.动宾搭配不当
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.wrong_ver_obj("小明住在北京,热爱NLP。"))
# 输出:None ,即无法进行此类错误的增强
14.其他搭配不当
from ChineseErrorCorrector.dat import GrammarErrorDat
cged_tool = GrammarErrorDat()
print(cged_tool.other_wrong("小明住在北京,热爱NLP。"))
# 输出:None, 即无法进行此类错误的增强
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Close
Hashes for chineseerrorcorrector-1.5.0.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 13f0c6da757ca8f4de0763f3c923a17f82776be68e5c9a9786b2f8a0154da270 |
|
MD5 | be1fc7108a66a9f079b5c951bb26212e |
|
BLAKE2b-256 | 20b3f842f8d2dd32a000b9f9013bcaa064fa5af8d64f2c589f41f80700f043e1 |
Close
Hashes for ChineseErrorCorrector-1.5.0-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | b4c5dae44969ad6815c5059fc5c536a133c777ddba9d9754cf2b667c036722a9 |
|
MD5 | d92786125f500f4dd3d6279eb6add80a |
|
BLAKE2b-256 | 935f57ead717158c8eaf3863f86ed0914f7feafb9a184a35aecdda3d22597588 |