Skip to main content

datasetstation 快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题

Project description

datasetstation

datasetstation 快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题

  • 不用等了很久,结果 Timeout
  • 不用每次写不规范的数据预处理代码
  • 数据可视化分析不规范、每次都要重写非常麻烦
  • 兼容 Tensorflow、Pytorch、HG Transformers 等主流的建模工具,一次数据处理,多平台数据建模
  • 学习数据处理和分析的方法和流程,帮助你更懂数据

快速使用

pip install datasetstation

# 在 jupyter 中使用,执行下面命令
jupyter nbextension enable --py widgetsnbextension
jupyter labextension install jupyter-matplotlib
from datasetstation import load_dataset, list_datasets

# 打印支持的数据集
print(list_datasets())

# 加载数据及并打印并第一个样本
hotel_review = load_dataset('hotel-review')
print(hotel_review['train'][0])

# 处理数据集 - 给每个样本增加一个文本长度的特征
hotel_review = hotel_review.map(lambda x: {"length": len(x["text"])})

# 结合 transformers 库,快速使用各种模型处理任务
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')

tokenized_dataset = hotel_review.map(lambda x: tokenizer(x['text']), batched=True)

更多的关于 dataset 的操作,请参考 Huggingface Datasets 文档

目前支持数据集

数据集 介绍
hotel-review 【英文】酒店评价情感分析
imdb 【英文】电影评论情感分析
new-title-chinese 【中文】新闻标题
chinese-hotel-review 【中文】携程酒店评价情感分析
dbms 【中文】豆瓣电影评论、打分数据
ez-douban 【中文】豆瓣电影信息、打分、评论
waimai-review-10k 【中文】外卖评价数据 10k 条,正负两种情绪
weibo-senti-100k 【中文】微博情感分析 100k 条,正负两种情绪
simplifyweibo-4-moods 【中文】微博情感分析,喜悦、愤怒、厌恶、低落四种情绪
eshopping-10-cats 【中文】电商 10 种商品评价,正负情感
squad 【英文】Stanford Question Answering Dataset (SQuAD)
stopwords-cn 【中文】中文停用词表
stopwords-hit 【中文】哈工大停用词表
stopwords-baidu 【中文】百度停用词表
stopwords-scu 【中文】四川大学机器智能实验室停用词库
tangshi 唐诗全集
songshi 宋诗全集
songci 宋词全集
lunyu 论语
shijing 诗经
nalanxingde 纳兰性德诗集
multi_movie_genre 多种电影类别分类

(陆续上传更多中文数据集)如果你有数据集,希望也能快速使用,请联系作者公众号 @春阳CYang。存储空间有限,先到先得!

使用方法和版本迭代

每个版本详细的变更日志和使用方法。

如果觉得有帮助,希望能给我个星星⭐️

协议

Apache License

Copyright on (c) 2022-present CYang

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

datasetstation-1.0.1.10.tar.gz (43.5 kB view details)

Uploaded Source

File details

Details for the file datasetstation-1.0.1.10.tar.gz.

File metadata

  • Download URL: datasetstation-1.0.1.10.tar.gz
  • Upload date:
  • Size: 43.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.8.13

File hashes

Hashes for datasetstation-1.0.1.10.tar.gz
Algorithm Hash digest
SHA256 9d956bd98a4d6a680391d1ab35e2df76e164106cf442e1fe84e4af64e17b76a5
MD5 e8cae9059df4ba3e36ac858e28194cdc
BLAKE2b-256 d73f89167a8407ed58f528aa08167332bd78cdc2ce6191501d97fbe26b8ac76b

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page