Data Cleaner for multiple files
Project description
Table对象VS. Pandas DataFrame
- 每个Table必有一个字符串的name属性;
- 每个Table有一个字符串可选的description属性,用于描述Table自身
- 每个Table的行索引总是为默认的RangeIndex;
- 每个Table的列索引将总是字符串且独一无二且单层,且不为缺失值;
- 每个Table的列索引将具有额外标签column_labels用于描述列索引;
- 每个Table的类型转换系统将是简化后的Nullable数据类型;
- 每个Table的HTML显示,会显示列的简化类型
MultiTable VS. DiskCache
-
每个MultiTable的值总是Table对象
-
每个MultiTable的size_limit将为当前磁盘的free disk_usage*0.95 以及cull_limit将为0;
-
每个MultiTable的with语句退出后不仅close cache数据库还删除数据库;
-
增加concat, reshape, eval, aggregate, format操作五个数据pipeline方法:
- concat: 横向/纵向合并 (不新增值但改变维度)
- reshape: 长转宽/宽转长 (改变形状和行列值)
- mutate: 基于现有列计算新列; (根据已有列修改列但不改变维度)
- aggregate: 加总列信息为更小行数的列; (根据已有列,创建新Table) (比如从个体加总成家庭层面)
- format: 列排序/行排序/表名/表描述/列值范围/列值替换/列数据类型/列名重命名/列名标签 (不改变行列值和形状)
-
区分add和update方法: add仅仅在key不存在时使用, update则将可以更新存在的key; 使用选项来设置是否lock source
-
通过构造表达式来
-
增加IO:
- from_csv
- from_tsv
- from_pickle
- from_stata
- to_csv
- to_tsv
- to_pickle
- to_stata
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
tidydata-0.1.19.tar.gz
(21.8 kB
view hashes)
Built Distribution
tidydata-0.1.19-py3-none-any.whl
(24.0 kB
view hashes)
Close
Hashes for tidydata-0.1.19-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | db7e9dc8cd609b75a73a46e2ddf1e7cca0dd8c4809430613754fbf2c43c68353 |
|
MD5 | 65c72d29f93f9147c3181b52e7eea85b |
|
BLAKE2b-256 | c9cf79b57c5aeabe3a3251cee0ec40951cb0691d49b1a7def11217b4375ed568 |