jionlp-py39

Chinese NLPreprocessing & Parsing

Project description

<a alt="jionlp logo">

    <img src="../../blob/master/image/jionlp_logo.jpg" / style="width:300px;height:130px">

</a>

<a alt="License">

    <img src="https://img.shields.io/github/license/dongrixinyu/JioNLP?color=crimson" /></a>

<a alt="Size">

    <img src="https://img.shields.io/badge/size-19.9m-orange" /></a>

<a alt="Downloads">

    <img src="https://img.shields.io/badge/downloads-6k-yellow" /></a>

<a alt="Version">

    <img src="https://img.shields.io/badge/version-1.3.45-green" /></a>

<a href="https://github.com/dongrixinyu/JioNLP/pulse" alt="Activity">

    <img src="https://img.shields.io/github/commit-activity/m/dongrixinyu/JioNLP?color=blue" /></a>

——JioNLP：中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing

——安装：`pip install jionlp`

——JioNLP在线版可快速试用部分功能（测试版，可能存在不稳定）

做 NLP 任务，需要清洗、过滤语料？用 JioNLP
做 NLP 任务，需要做信息抽取？用 JioNLP
做 NLP 任务，需要数据增强？用 JioNLP
做 NLP 任务，需要给模型添加偏旁、拼音、词典、繁体转换信息？用 JioNLP

总之，JioNLP 提供 NLP 任务预处理功能，准确、高效、零使用门槛，并提供一步到位的查阅入口。

功能主要包括：文本清洗，删除HTML标签、删除异常字符、删除冗余字符，转换全角字母、数字、空格为半角，抽取及删除E-mail及域名、抽取及删除（手机号、座机号）电话号码、抽取及删除QQ号、抽取及删除括号内容、抽取及删除身份证号、抽取及删除IP地址、抽取及删除URL超链接、抽取及删除货币金额与单位，金额数字转大写汉字，时间语义解析，解析身份证号信息、解析手机号码归属地、解析座机区号归属地、解析手机号码运营商，按行快速读写文件，（多功能）停用词过滤，（优化的）分句，地址解析，新闻地域识别，繁简体转换，汉字转拼音，汉字偏旁、字形、四角编码、五笔编码拆解，基于词典的情感分析，色情数据过滤，反动数据过滤，关键短语抽取，抽取式文本摘要，成语接龙，成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、中国县级地名变更词典、世界地名词典，时间实体抽取，基于词典的NER，NER的字、词级别转换，NER的entity和tag格式转换，NER模型的预测阶段加速并行工具集，NER标注和模型预测的结果差异对比，NER标注数据集分割与统计，NER实体收集、文本分类标注数据集的分割与统计、回译数据增强、相邻近汉字换位数据增强、同音词替换数据增强、随机增删字符数据增强、实体替换数据增强、公历转农历日期、农历转公历日期

Update 2021-10-25

更新货币金额实体抽取

jio.ner.extract_money 从文本中抽取货币金额实体（不依赖模型，纯规则）。

配合 jio.parse_time 货币金额解析使用（见下一个 Update）

import jionlp as jio

text = '张三赔偿李大花人民币车费601,293.11元，工厂费大约一万二千三百四十五元,利息9佰日元，打印费人民币十块钱。'

res = jio.ner.extract_money(text, with_parsing=False)

print(res)



# [{'text': '601,293.11元', 'offset': [12, 23], 'type': 'money'},

#  {'text': '大约一万二千三百四十五元', 'offset': [27, 39], 'type': 'money'},

#  {'text': '9佰日元', 'offset': [42, 46], 'type': 'money'},

#  {'text': '人民币十块钱', 'offset': [50, 56], 'type': 'money'}]

Update 2021-10-25

更新货币金额解析

jio.parse_money 给定货币金额字符串，解析其标准金额、货币类型、精确度。

import jionlp as jio

text_list = ['约4.287亿美元', '两个亿卢布', '六十四万零一百四十三元一角七分', '3000多欧元'] 

moneys = [jio.parse_money(text) for text in text_list]



# 约4.287亿美元: {'num': '428700000.00', 'case': '美元', 'definition': 'blur'}

# 两个亿卢布: {'num': '200000000.00', 'case': '卢布', 'definition': 'accurate'}

# 六十四万零一百四十三元一角七分: {'num': '640143.17', 'case': '元', 'definition': 'accurate'}

# 3000多欧元: {'num': ['3000.00', '4000.00'], 'case': '欧元', 'definition': 'blur'}

支持纯数字格式，如：987273.3美元
支持大写中文金额，如：柒仟六佰零弎萬肆仟叁佰贰拾壹元伍分
支持混合格式，如：1.26万港元
支持修饰词解析，如：将近6万块钱、至少1000块钱以上
支持模糊金额解析，如：两万多元钱，6千多亿日元
支持口语化中文格式，如：三十五块三毛；但对于“三十五块八”这样的字符串，在文本中存在歧义，如“三十五块八颗糖”等，因此，jio.ner.extract_money 对于此字符串不予抽取，但parse_money可以将“三十五块八”看作完整的口语化金额，标准化为“35.80元”
支持多种常见货币类型：人民币，港元，澳门元，美元，日元，澳元，韩元，卢布，英镑，马克，法郎，欧元，加元，泰铢，台币等。

Update 2021-11-19

更新时间语义解析

jio.parse_time 给定时间字符串，解析其为时间戳、时长等。

import time

import jionlp as jio

res = jio.parse_time('今年9月', time_base={'year': 2021})

res = jio.parse_time('零三年元宵节晚上8点半', time_base=time.time())

res = jio.parse_time('一万个小时')

res = jio.parse_time('100天之后', time.time())

res = jio.parse_time('每周五下午4点', time.time())

print(res)



# {'type': 'time_span', 'definition': 'accurate', 'time': ['2021-09-01 00:00:00', '2021-09-30 23:59:59']}

# {'type': 'time_point', 'definition': 'accurate', 'time': ['2003-02-15 20:30:00', '2003-02-15 20:30:59']}

# {'type': 'time_delta', 'definition': 'accurate', 'time': {'hour': 10000.0}}

# {'type': 'time_span', 'definition': 'blur', 'time': ['2021-10-22 00:00:00', 'inf']}

# {'type': 'time_period', 'definition': 'accurate', 'time': {'delta': {'day': 7}, 

#  'point': {'time': ['2021-07-16 16:00:00', '2021-07-16 16:59:59'], 'string': '周五下午4点'}}}

目前支持年月日、时分秒、星期、季节、季度、节日、农历、时间范围、时间段、时间周期、模糊时间代词等解析。
支持对未来时间优先选择，参数为ret_future(bool)。
关于时间语义解析
目前支持的所有测试用例

完整示例

JioNLP在线版-时间抽取与解析

安装 Installation

python>=3.6 github 版本略领先于 pip


$ git clone https://github.com/dongrixinyu/JioNLP

$ cd ./JioNLP

$ pip install .

pip 安装


$ pip install jionlp

可能存在的问题


# 如安装失败，遇到安装时提示的 pkuseg、Microsoft Visual C++、gcc、g++ 等信息，

# 则说明是 pkuseg 安装失败，需要在相应系统中安装 C 和 C++ 编译器，重新安装。

# pip install pkuseg

# pkuseg 由于久未更新，对 python>=3.9 不兼容，若遇到调用报错，则须退回至 3.8 版本以下的解释器。

使用 Features

导入工具包，查看工具包的主要功能与函数注释


>>> import jionlp as jio

>>> jio.help()  # 输入关键词搜索工具包是否包含某功能，如输入“回译”

>>> dir(jio)

>>> print(jio.extract_parentheses.__doc__)

在 Linux 系统，可使用以下命令做搜索：


$ jio_help

星级⭐代表优质特色功能

1.小工具集 Gadgets

| 功能 | 函数 | 描述 | 星级 |

| ---------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---- |

| 分句 | split_sentence | 对文本按标点分句 | ⭐ |

| 色情数据过滤 | | |

| 反动数据过滤 | | |

2.数据增强

文本数据增强各方法说明

| 功能 | 函数 | 描述 | 星级 |

| -------------------------------------------------------------------------- | ---------------------- | -------------------------------------------------------------------------------------------- | ---- |

| 回译 | BackTranslation | 给定一篇文本，采用各大厂云平台的机器翻译接口，
实现数据增强 | ⭐ |

3.正则抽取与解析

| 功能 | 函数 | 描述 | 星级 |

| ------------------------------------------------------------------------------------------- | --------------------- | ------------------------------------------------------------------------------------------------------------------ | ---- |

| 抽取括号中的内容 | extract_parentheses | 抽取括号内容，包括 {}「」[]【】()（）<>《》 | ⭐ |

| 删除括号中的内容 | remove_parentheses | 删除括号内容，包括 {}「」[]【】()（）<>《》 | |

4.文件读写工具

| 功能 | 函数 | 描述 | 星级 |

| -------------------------------------------------------------------------------- | ------------------ | -------------------------------------------------------------------------- | ---- |

5.词典加载与使用

| 功能 | 函数 | 描述 | 星级 |

| -------------------------------------------------------------------------------------- | ------------------------------ | ------------------------------------------------ | ---- |

6.实体识别(NER)算法辅助工具集

工具包 NER 数据规定说明

| 功能 | 函数 | 描述 | 星级 |

| ------------------------------------------------------------------------------------------------------------------ | ---------------------------------------------------------------- | ----------------------------------------------------------------------------- | ---- |

7.文本分类

| 功能 | 函数 | 描述 | 星级 |

| ---------------------------------------------------------------------------------------------- | ------------------ | ------------------------------------------------------------------------------------ | ---- |

8.情感分析

| 功能 | 函数 | 描述 | 星级 |

| ------------------------------------------------------------------------------------ | ---------------- | ----------------------------------------------------- | ---- |

9.分词

| 功能 | 函数 | 描述 | 星级 |

| -------------------------------------------------------------------- | -------- | --------------------------------------------- | ---- |

初衷

NLP 预处理与解析至关重要，且非常耗时。本 lib 能快速辅助完成各种琐碎的预处理、解析操作，加速开发进度，把有限的精力用在思考而非 code 上。
如有功能建议、bug，可通过 issue 按模板提出。
如感兴趣合作完善本工具包，请参考 TODO.txt 文件进行功能添加。

做 NLP不易，欢迎加入自然语言处理 Wechat 交流群

如以下码失效，请先添加 vx：dongrixinyu89

如本工具对您有帮助，可以点一下右上角 star ⭐。扫码请作者喝杯咖啡 (●'◡'●)

Project details

Release history Release notifications | RSS feed

This version

1.3.45

Dec 4, 2021

1.3.44

Dec 4, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

jionlp-py39-1.3.45.tar.gz (19.0 MB view details)

Uploaded Dec 4, 2021 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

jionlp_py39-1.3.45-py3-none-any.whl (19.0 MB view details)

Uploaded Dec 4, 2021 Python 3

File details

Details for the file jionlp-py39-1.3.45.tar.gz.

File metadata

Download URL: jionlp-py39-1.3.45.tar.gz
Upload date: Dec 4, 2021
Size: 19.0 MB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/3.7.0 importlib_metadata/4.8.2 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.7

File hashes

Hashes for jionlp-py39-1.3.45.tar.gz
Algorithm	Hash digest
SHA256	`8b5fd09090ec10d96300f461da4f9fb034dc00ca5c78caeda0753f1d8fc21ecb`
MD5	`364aaaab10bef1f085ae07a92d3b3c25`
BLAKE2b-256	`3a720146e19d3b7e9c79e89e01736380243bb5ddec9838d0a9c7b6093885859e`

See more details on using hashes here.

File details

Details for the file jionlp_py39-1.3.45-py3-none-any.whl.

File metadata

Download URL: jionlp_py39-1.3.45-py3-none-any.whl
Upload date: Dec 4, 2021
Size: 19.0 MB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/3.7.0 importlib_metadata/4.8.2 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.7

File hashes

Hashes for jionlp_py39-1.3.45-py3-none-any.whl
Algorithm	Hash digest
SHA256	`81244221cef7fe2c5087b86be528a8de4cc9869a685d2cade189366eebd3d525`
MD5	`8108762f45dfe99944fdd408ddf316a2`
BLAKE2b-256	`6cf2ab4f300f528788a2c4ef131d079e19020962ab476e9031ee98c864092181`

See more details on using hashes here.

jionlp-py39 1.3.45

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

——JioNLP：中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing

——安装：pip install jionlp

——JioNLP在线版 可快速试用部分功能（测试版，可能存在不稳定）

总之，JioNLP 提供 NLP 任务预处理功能，准确、高效、零使用门槛，并提供一步到位的查阅入口。

Update 2021-10-25

更新 货币金额实体抽取

jio.ner.extract_money 从文本中抽取货币金额实体（不依赖模型，纯规则）。

配合 jio.parse_time 货币金额解析使用（见下一个 Update）

Update 2021-10-25

更新 货币金额解析

jio.parse_money 给定货币金额字符串，解析其标准金额、货币类型、精确度。

Update 2021-11-19

更新 时间语义解析

jio.parse_time 给定时间字符串，解析其为时间戳、时长等。

完整示例

安装 Installation

使用 Features

1.小工具集 Gadgets

2.数据增强

3.正则抽取与解析

4.文件读写工具

5.词典加载与使用

6.实体识别(NER)算法辅助工具集

7.文本分类

8.情感分析

9.分词

初衷

做 NLP不易，欢迎加入自然语言处理 Wechat 交流群

如以下码失效，请先添加 vx：dongrixinyu89

如本工具对您有帮助，可以点一下右上角 star ⭐。扫码请作者喝杯咖啡 (●'◡'●)

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

——安装：`pip install jionlp`

——JioNLP在线版可快速试用部分功能（测试版，可能存在不稳定）

更新货币金额实体抽取

更新货币金额解析

更新时间语义解析