Skip to main content

A data dump tool

Project description

ddump

ddump(Data Dump)数据转存工具。主要解决以下问题:

  1. 数据库的增量转存
  2. API数据转存的通用模式
  3. 数据的本地文件组织方案

本工具定位是数据下载,文件目录和文件名的组织方式以实现增量下载和减少下载量为首要目标,读取是否方便为次要目标。
用户可能需要根据自己的使用习惯,将数据转存成其它格式,如导入到数据库等

为何使用文件存储,而不用数据库

  1. 没有表结构的情况下,to_sql保存格式的效率很低,提前准备表结构又麻烦
  2. 金融类数据特殊,并不需要随机访问。全量加载或按日期加载都是更常用的方法
  3. 数据备份分享时,文件更方便

为何采用Parquet文件格式

  1. csv格式,文本格式,读写慢,容易丢失精度
  2. pickle格式,只能在Python下使用
  3. HDF5格式,强大灵活,跨语言
  4. parquet格式,列式存储,支持直接读取文件夹。跨语言,常用于大数据处理

安装

pip install ddump -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade # 国内镜像下载

pip install ddump -i https://pypi.org/simple --upgrade # 国外官方源下载

开发

pip install -e .

数据库转存

请访问 数据库转存文档

API转存

请访问 API转存文档

数据库工具

在开发本项目时,提炼了一个数据库ORM工具,它是对sqlalchemy的进一步封装,简单易用,可以直接映射已经存在的表。使用方法仿照聚宽的数据接口。

from ddump.db.tool import DbTool

db = DbTool(url="mysql+pymysql://user:pasword@127.0.0.1:3306/tushare?charset=utf8")
db.show_tables()

db.describe('FDT_STK_AUDIT')

q = db.query(db.FDT_STK_AUDIT).limit(10)
df = db.run_query(q)
df

样例

参考 examples,内有常见的几个库的调用示例,欢迎大家提供更多的案例

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ddump-0.2.1.tar.gz (19.9 kB view details)

Uploaded Source

Built Distribution

ddump-0.2.1-py3-none-any.whl (23.5 kB view details)

Uploaded Python 3

File details

Details for the file ddump-0.2.1.tar.gz.

File metadata

  • Download URL: ddump-0.2.1.tar.gz
  • Upload date:
  • Size: 19.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.20

File hashes

Hashes for ddump-0.2.1.tar.gz
Algorithm Hash digest
SHA256 4ed3430428e862bbb4070626feb3fa220f092261f9fc6aba6d0c20295959f475
MD5 48e7c60db5377d5cfa228dd9ad959fd4
BLAKE2b-256 95a2747c2db465a0c592409b16595b68b43a157b4e2467ae1291a22c9414a650

See more details on using hashes here.

File details

Details for the file ddump-0.2.1-py3-none-any.whl.

File metadata

  • Download URL: ddump-0.2.1-py3-none-any.whl
  • Upload date:
  • Size: 23.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.20

File hashes

Hashes for ddump-0.2.1-py3-none-any.whl
Algorithm Hash digest
SHA256 bc5c759522b88af2cf4a749f5c8e43cf496fe559dc351686ab625db2749ca059
MD5 984aba76b29eddf0118b3adcca3890e1
BLAKE2b-256 d390abb2cd51ae3ad0605f35c7acaef03f10741f3e7f04e2e7a0def215e357c4

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page