中文停用词大全
Project description
pystopwords
简介
中文停用词大全,支持Python接口。
目前只专注于中文,未来考虑加入多语言支持。
使用方法
from pystopwords import stopwords
stopwords函数返回一个停用词set,有两个参数:
- langs: string,支持的语言,目前仅支持中文(zh)
- source: string, 停用词来源,目前支持
- baidu: 百度停用词表
- hit: 哈工大停用词表
- ict: 中科院计算所停用词表
- scu: 四川大学机器智能实验室停用词库
- cn: 广为流传未知来源的中文停用词表
- marimo: Marimo multi-lingual stopwords collection 内的中文停用词
- iso: Stopwords ISO 内的中文停用词
- all: 上述所有停用词并集
默认参数是stopwords(langs='zh', source='all')
from pystopwords import stopwords
# 默认的参数为:
# all_stopwords = stopwords(langs='zh', source='all')
all_stopwords = stopwords()
# 可以选择不同的来源
baidu_stopwords = stopwords(source='baidu')
hit_stopwords = stopwords(source='hit')
来源说明
名称 | 来源 | 来源url | 个数 | 备注 |
---|---|---|---|---|
ict | 中科院计算所 | 1207 | 网络上大部分很多链接失效,而且一共1207个,不是网传的1208个 | |
baidu | 百度 | 1429 | ||
hit | 哈工大 | 767 | ||
scu | 四川大学机器智能实验室 | 976 | ||
cn | 未知来源 | 746 | ||
marimo | koheiw | https://github.com/koheiw/marimo | 387 | 原始文件有更细致的分类体系 |
iso | stopwords-iso | https://github.com/stopwords-iso/stopwords-iso | 794 | 原始文件支持很多语言 |
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
pystopwords-0.0.1.tar.gz
(28.7 kB
view hashes)
Built Distribution
Close
Hashes for pystopwords-0.0.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | ff7c5c4e95ec7dd1ae50f7ad6353d1affc645e9ef913d900efc4f1f6b077233c |
|
MD5 | 976546d9b5ea1518f89da1058b8240e7 |
|
BLAKE2b-256 | 39046b27ab9a16e06d0c2c0f1585187c1892dbd24377b33d0aad2cdb6a00f651 |