jionlp

Chinese NLP Preprocessing & Parsing

Project description

<a alt="jionlp logo">

    <img src="../../blob/master/image/jionlp_logo.jpg" style="width:300px;height:100px">

</a>

<a alt="License">

    <img src="https://img.shields.io/github/license/dongrixinyu/JioNLP?color=crimson" /></a>

<a alt="Size">

    <img src="https://img.shields.io/badge/size-19.3m-orange" /></a>

<a alt="Downloads">

    <img src="https://pepy.tech/badge/jionlp/month" /></a>

<a alt="Version">

    <img src="https://img.shields.io/badge/version-1.4.27-green" /></a>

<a href="https://github.com/dongrixinyu/JioNLP/pulse" alt="Activity">

    <img src="https://img.shields.io/github/commit-activity/m/dongrixinyu/JioNLP?color=blue" /></a>

——JioNLP：中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing & Parsing

——安装：`pip install jionlp`

——JioNLP在线版可快速试用部分功能

——关注微信公众号 “JioNLP” 可获取最新的 JioNLP 更新，及 NLP 资讯

——English version README.md

做 NLP 任务，需要清洗、过滤语料？用 JioNLP
做 NLP 任务，需要做信息抽取？用 JioNLP
做 NLP 任务，需要数据增强？用 JioNLP
做 NLP 任务，需要给模型添加偏旁、拼音、词典、繁体转换信息？用 JioNLP

总之，JioNLP 提供 NLP 任务预处理功能，准确、高效、零使用门槛，并提供一步到位的查阅入口。请下拉网页，查阅具体功能信息，并按 Ctrl + F 进行搜索。

Update 2022-11-028

更新正则判断类函数族

jio.check_any_chinese_char 检查文本中是否包含中文字符


>>> import jionlp as jio

>>> print(jio.check_any_chinese_char('【新华社消息】（北京时间）从昨天...'))



# True

Updata 2022-05-26

更新关键短语抽取

jio.keyphrase.extract_keyphrase 对一篇文本关键短语抽取


>>> import jionlp as jio

>>> text = '浑水创始人：七月开始调查贝壳，因为“好得难以置信” 2021年12月16日，做空机构浑水在社交媒体上公开表示，正在做空美股上市公司贝壳...'



>>> keyphrases = jio.keyphrase.extract_keyphrase(text)

>>> print(keyphrases)

>>> print(jio.keyphrase.extract_keyphrase.__doc__)



# ['浑水创始人', '开始调查贝壳', '做空机构浑水', '美股上市公司贝壳', '美国证监会']

JioNLP源站-关键短语抽取

Update 2022-07-02

更新时间语义解析

jio.parse_time 给定时间字符串，解析其为时间戳、时长等。

import time

import jionlp as jio

res = jio.parse_time('今年9月', time_base={'year': 2021})

res = jio.parse_time('零三年元宵节晚上8点半', time_base=time.time())

res = jio.parse_time('一万个小时')

res = jio.parse_time('100天之后', time.time())

res = jio.parse_time('四月十三', lunar_date=False)

res = jio.parse_time('每周五下午4点', time.time(), period_results_num=2)

print(res)



# {'type': 'time_span', 'definition': 'accurate', 'time': ['2021-09-01 00:00:00', '2021-09-30 23:59:59']}

# {'type': 'time_point', 'definition': 'accurate', 'time': ['2003-02-15 20:30:00', '2003-02-15 20:30:59']}

# {'type': 'time_delta', 'definition': 'accurate', 'time': {'hour': 10000.0}}

# {'type': 'time_span', 'definition': 'blur', 'time': ['2021-10-22 00:00:00', 'inf']}

# {'type': 'time_period', 'definition': 'accurate', 'time': {'delta': {'day': 7}, 

# {'type': 'time_point', 'definition': 'accurate', 'time': ['2022-04-13 00:00:00', '2022-04-13 23:59:59']}

#  'point': {'time': [['2021-07-16 16:00:00', '2021-07-16 16:59:59'],

#                     ['2021-07-23 16:00:00', '2021-07-23 16:59:59']], 'string': '周五下午4点'}}}

目前支持年月日、时分秒、星期、季节、季度、节日、农历、时间范围、时间段、时间周期、模糊时间代词等解析。
支持对未来时间优先选择，参数为ret_future(bool)。
关于时间语义解析
目前支持的所有测试用例

完整示例

JioNLP源站-时间抽取与解析

安装 Installation

python>=3.6 github 版本略领先于 pip


$ git clone https://github.com/dongrixinyu/JioNLP

$ cd ./JioNLP

$ pip install .

pip 安装


$ pip install jionlp

使用 Features

导入工具包，查看工具包的主要功能与函数注释


>>> import jionlp as jio

>>> print(jio.__version__)  # 查看 jionlp 的版本

>>> jio.help()  # 输入关键词搜索工具包是否包含某功能，如输入“回译”

>>> dir(jio)

>>> print(jio.extract_parentheses.__doc__)

在 Linux 系统，可使用以下命令做搜索：


$ jio_help

星级⭐代表优质特色功能

1.小工具集 Gadgets

| 功能 | 函数 |描述 |星级 |

|--------|-------|-------|-------|

|分句 |split_sentence|对文本按标点分句 |⭐|

|电话号码归属地、
运营商解析 |phone_location
cell_phone_location
landline_phone_location |给定一个电话号码（手机号、座机号）字符串，识别其中的省、市、运营商 ||

|公历农历日期互转|lunar2solar
solar2lunar |给定某公（农）历日期，将其转换为农（公）历 ||

|成语接龙 |idiom_solitaire|成语接龙，即前一成语的尾字和后一成语的首字（读音）相同 ||

|色情数据过滤 |- |- |

|反动数据过滤 |- |- |

2.数据增强

文本数据增强各方法说明

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|------|

|回译 |BackTranslation|给定一篇文本，采用各大厂云平台的机器翻译接口，
实现数据增强 |⭐ |

3.正则抽取与解析

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|-------|

|抽取括号中的内容 |extract_parentheses|抽取括号内容，包括 {}「」[]【】()（）<>《》 |⭐ |

|删除括号中的内容 |remove_parentheses|删除括号内容，包括 {}「」[]【】()（）<>《》 | |

4.文件读写工具

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|-------|

|按行读取文件 |read_file_by_iter |以迭代器形式方便按行读取文件，节省内存，
支持指定行数，跳过空行 ||

5.词典加载与使用

| 功能 | 函数 | 描述 |星级 |

|-----|-----|------|------|

6.实体识别(NER)算法辅助工具集

工具包 NER 数据规定说明

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|-------|

7.文本分类

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|------|

8.情感分析

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|-------|

9.分词

| 功能 | 函数 |描述 |星级 |

|--------|--------|-------|-------|

文献引用

若论文需要进行引用，可复制以下引用：

Chengyu Cui, JioNLP, (2020), GitHub repository, https://github.com/dongrixinyu/JioNLP

初衷

NLP 预处理与解析至关重要，且非常耗时。本 lib 能快速辅助完成各种琐碎的预处理、解析操作，加速开发进度，把有限的精力用在思考而非 code 上。
如有功能建议、bug，可通过 issue 按模板提出。
非常欢迎各位 NLP 开发者和研究者 合作完善本工具包，添加新功能 。

如本工具对您有帮助，请点一下右上角 star ⭐

或者扫码请作者喝杯咖啡 (●'◡'●)，谢谢啦！推荐优先使用【支付宝】 ~~

感谢致谢名单中赞助的小伙伴们，你们的打赏让我更有动力

做 NLP不易，欢迎加入自然语言处理 Wechat 交流群

请扫以下码，或wx搜索公众号JioNLP”，关注并回复【进群】

Project details

Release history Release notifications | RSS feed

1.5.17

Sep 26, 2024

1.5.15

Jul 5, 2024

1.5.14

May 22, 2024

1.5.11

Apr 26, 2024

1.5.9

Apr 1, 2024

1.5.7

Feb 5, 2024

1.5.6

Dec 12, 2023

1.5.5

Nov 14, 2023

1.5.4

Oct 13, 2023

1.5.2

Jul 26, 2023

1.4.41

Jun 12, 2023

1.4.40

May 11, 2023

1.4.39

May 1, 2023

1.4.38

Apr 29, 2023

1.4.35

Feb 20, 2023

1.4.33

Jan 16, 2023

1.4.30

Dec 28, 2022

1.4.28

Dec 2, 2022

This version

1.4.27

Nov 28, 2022

1.4.25

Nov 7, 2022

1.4.21

Sep 28, 2022

1.4.19

Sep 19, 2022

1.4.18

Sep 3, 2022

1.4.17

Aug 16, 2022

1.4.14

Jul 24, 2022

1.4.7

Jun 17, 2022

1.3.58

May 13, 2022

1.3.53

Mar 9, 2022

1.3.47

Dec 29, 2021

1.3.34

Sep 15, 2021

1.3.27

Aug 4, 2021

1.3.16

Mar 18, 2021

1.3.14

Feb 10, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

jionlp-1.4.27-py2.py3-none-any.whl (19.0 MB view hashes)

Uploaded Nov 28, 2022 Python 2 Python 3

Hashes for jionlp-1.4.27-py2.py3-none-any.whl

Hashes for jionlp-1.4.27-py2.py3-none-any.whl
Algorithm	Hash digest
SHA256	`ac10facbcbae2034e69f30f760413dd6159b98270e0cebb86da55605630baafa`
MD5	`3e75b534fc44954372fc4ec6e1a022aa`
BLAKE2b-256	`07c3cc967bc64f51d754a8e186cbba398d99c2ad991f4019a6cf8fff66612c86`

jionlp 1.4.27

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

——JioNLP：中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing & Parsing

——安装：pip install jionlp

——JioNLP在线版 可快速试用部分功能

——关注微信公众号 “JioNLP” 可获取最新的 JioNLP 更新，及 NLP 资讯

——English version README.md

总之，JioNLP 提供 NLP 任务预处理功能，准确、高效、零使用门槛，并提供一步到位的查阅入口。请下拉网页，查阅具体功能信息，并按 Ctrl + F 进行搜索。

Update 2022-11-028

更新 正则判断类函数族

jio.check_any_chinese_char 检查文本中是否包含中文字符

Updata 2022-05-26

更新 关键短语抽取

jio.keyphrase.extract_keyphrase 对一篇文本关键短语抽取

Update 2022-07-02

更新 时间语义解析

jio.parse_time 给定时间字符串，解析其为时间戳、时长等。

完整示例

安装 Installation

使用 Features

1.小工具集 Gadgets

2.数据增强

3.正则抽取与解析

4.文件读写工具

5.词典加载与使用

6.实体识别(NER)算法辅助工具集

7.文本分类

8.情感分析

9.分词

文献引用

初衷

如本工具对您有帮助，请点一下右上角 star ⭐

或者扫码请作者喝杯咖啡 (●'◡'●)，谢谢啦！推荐优先使用【支付宝】 ~~

做 NLP不易，欢迎加入自然语言处理 Wechat 交流群

请扫以下码，或wx搜索公众号JioNLP”，关注并回复【进群】

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distributions

Built Distribution

——安装：`pip install jionlp`

——JioNLP在线版可快速试用部分功能

更新正则判断类函数族

更新关键短语抽取

更新时间语义解析