ETF数据中心,自动选择最优数据源获取ETF历史K线数据
Project description
ETFDataHub - ETF数据中心
一个专注于ETF数据的统一金融数据获取库,自动选择最优数据源获取ETF和股票的历史K线数据。
✨ 特性
- 🔄 多数据源支持: 集成东方财富、Tushare、Baostock、同花顺、新浪财经等多个数据源
- 🎯 智能选择: 根据数据质量自动选择最佳数据源
- 🛡️ 故障容错: 自动重试和降级机制,确保数据获取的可靠性
- 📊 标准格式: 统一的输出格式,包含完整的OHLCV数据
- 🚀 简单易用: 一行代码获取高质量金融数据
- 📈 ETF专注: 专注于ETF日线行情数据的获取和质量评估
- 🔧 配置灵活: 支持环境变量配置敏感信息
- 📋 详细日志: 完善的日志记录,便于调试和监控
📦 安装
pip install -e .
🚀 快速开始
from ETFDataHub import get_etf_k_data
# 获取创业板ETF最近30天的数据
df = get_etf_k_data('159915')
# 获取指定日期范围的数据
df = get_etf_k_data('159915', '20240101', '20241201')
# 显示调试信息
df = get_etf_k_data('159915', debug=True)
# 指定数据源
df = get_etf_k_data('159915', sources=['eastmoney', 'sina'])
print(df.head())
📊 数据源质量评估
数据源优先级
- 东方财富 (数据完整性高,覆盖范围广,更新及时)
- Tushare Pro (数据质量最高,专业金融数据)
- 同花顺 (数据质量高,功能完整)
- Baostock (免费开源,数据稳定可靠)
- 新浪财经 (作为备用数据源)
数据质量评估指标
- 完整性: 数据是否完整,无缺失值
- 准确性: 数据是否准确,无异常值
- 一致性: 不同数据源之间的数据是否一致
- 及时性: 数据更新是否及时
- 稳定性: 数据源是否稳定可靠
数据源对比分析
| 数据源 | 数据完整性 | 覆盖范围 | 数据质量 | 接口稳定性 | 推荐指数 |
|---|---|---|---|---|---|
| 东方财富 | ✅ 高 | ✅ 完整 | ✅ 准确 | ✅ 稳定 | ⭐⭐⭐⭐⭐ |
| Tushare | ✅ 高 | ✅ 完整 | ✅ 专业 | ✅ 稳定 | ⭐⭐⭐⭐⭐ |
| 同花顺 | ✅ 高 | ✅ 完整 | ✅ 准确 | ⚠️ 需配置 | ⭐⭐⭐⭐ |
| Baostock | ✅ 中 | ✅ 完整 | ✅ 准确 | ✅ 稳定 | ⭐⭐⭐⭐ |
| 新浪财经 | ⚠️ 有限 | ⚠️ 有限 | ✅ 准确 | ✅ 稳定 | ⭐⭐ |
🔧 API 参考
get_etf_k_data()
获取ETF的历史K线数据。
参数:
fund_code(str): ETF代码,如 '159915'beg(str, 可选): 开始日期,格式 'YYYYMMDD',默认 '20200101'end(str, 可选): 结束日期,格式 'YYYYMMDD',默认今天debug(bool, 可选): 是否显示调试信息,默认 Falsesources(list, 可选): 指定数据源列表,如 ['eastmoney', 'sina']
返回:
pd.DataFrame: 包含完整K线数据的DataFrame
evaluate_data_sources()
评估所有数据源的质量。
参数:
fund_code(str, 可选): ETF代码,用于测试beg(str, 可选): 开始日期end(str, 可选): 结束日期debug(bool, 可选): 是否显示调试信息
返回:
dict: 包含各个数据源质量评估结果的字典
compare_data_sources()
对比不同数据源的数据。
参数:
fund_code(str): ETF代码beg(str): 开始日期end(str): 结束日期debug(bool, 可选): 是否显示调试信息
返回:
dict: 包含各个数据源数据对比结果的字典
test_etf_coverage()
测试ETF覆盖范围。
参数:
etf_list(list, 可选): ETF代码列表days(int, 可选): 测试天数,默认 30debug(bool, 可选): 是否显示调试信息
返回:
dict: 包含ETF覆盖测试结果的字典
📊 使用示例
1. 基本使用
# 获取上证50ETF数据
df = get_etf_k_data('510050')
print("上证50ETF数据:")
print(df.head())
print(f"数据条数: {len(df)}")
# 获取沪深300ETF数据
df = get_etf_k_data('510300')
print("\n沪深300ETF数据:")
print(df.head())
print(f"数据条数: {len(df)}")
2. 数据源质量评估
from ETFDataHub import evaluate_data_sources
# 评估数据源质量
quality_result = evaluate_data_sources('510050', '20240101', '20240131', debug=True)
print("数据源质量评估结果:")
for source, quality in quality_result.items():
print(f"{source}:")
print(f" 综合评分: {quality['overall']:.2f}")
print(f" 完整性: {quality['completeness']:.2f}")
print(f" 准确性: {quality['accuracy']:.2f}")
print(f" 一致性: {quality['consistency']:.2f}")
print(f" 及时性: {quality['timeliness']:.2f}")
print(f" 稳定性: {quality['stability']:.2f}")
3. 数据源对比
from ETFDataHub import compare_data_sources
# 对比数据源
comparison = compare_data_sources('510050', '20240101', '20240131', debug=True)
print("数据源对比结果:")
print(f"最佳数据源: {comparison['best_source']}")
print(f"最佳数据源得分: {comparison['best_score']:.2f}")
print("各数据源得分:")
for source, score in comparison['scores'].items():
print(f" {source}: {score:.2f}")
4. ETF覆盖测试
from ETFDataHub import test_etf_coverage
# 测试主流ETF覆盖情况
result = test_etf_coverage(debug=True)
print("ETF覆盖测试结果:")
print(f"测试ETF数量: {len(result['etfs'])}")
print(f"成功获取数据的ETF: {result['success_count']}")
print(f"成功率: {result['success_rate']:.2f}%")
# 查看详细结果
for etf, status in result['etfs'].items():
print(f"{etf}: {'成功' if status['success'] else '失败'}")
if 'error' in status:
print(f" 错误: {status['error']}")
🧪 测试
运行所有测试
pytest src/tests/
测试单个数据源
# 测试新浪数据源
python -m data_sources.sina
# 测试东方财富数据源
python -m data_sources.eastmoney
🔧 配置说明
环境变量配置
在项目根目录创建 .env 文件:
# Tushare Pro API Token
TUSHARE_TOKEN=your_tushare_token_here
# 日志级别
LOG_LEVEL=INFO
数据源配置
可以通过 sources 参数指定使用的数据源:
# 只使用东方财富和Tushare
df = get_etf_k_data('510050', sources=['eastmoney', 'tushare'])
# 只使用Baostock和新浪
df = get_etf_k_data('510050', sources=['baostock', 'sina'])
📋 数据字段说明
| 字段 | 说明 | 类型 |
|---|---|---|
| 日期 | 交易日期 | datetime.date |
| 开盘 | 开盘价 | float |
| 收盘 | 收盘价 | float |
| 最高 | 最高价 | float |
| 最低 | 最低价 | float |
| 成交量 | 成交量 | int |
| 成交额 | 成交金额 | float |
| 涨跌幅 | 涨跌幅百分比 | float |
| 涨跌额 | 涨跌金额 | float |
| 振幅 | 振幅百分比 | float |
| 换手率 | 换手率百分比 | float |
⚠️ 免责声明
本库仅供学习和研究使用,不构成投资建议。使用本库获取的金融数据进行投资决策所产生的一切风险由用户自行承担。请遵守相关法律法规,尊重金融数据提供商的使用条款。
🤝 贡献
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 打开 Pull Request
📞 支持
如果您在使用过程中遇到问题,请:
- 查看日志信息
- 检查网络连接
- 确认数据源配置正确
- 提交 Issue 描述问题
📄 许可证
MIT License
📊 项目状态
- ✅ 东方财富数据源:稳定可用
- ✅ Tushare数据源:稳定可用
- ✅ 同花顺数据源:稳定可用(只返回最近140天数据)
- ✅ Baostock数据源:稳定可用(只支持2026-01-05之后数据)
- ✅ 新浪数据源:稳定可用
🌟 推荐使用
对于ETF数据获取,推荐使用以下组合:
- 首选: 东方财富 + Tushare (数据质量最高)
- 备用: 同花顺 + Baostock + 新浪 (多源备份)
- 完整: 东方财富 + Tushare + 同花顺 + Baostock + 新浪 (全方位覆盖)
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file etfdatahub-1.0.0.tar.gz.
File metadata
- Download URL: etfdatahub-1.0.0.tar.gz
- Upload date:
- Size: 31.0 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
92353aa3991b2e9a7d2830aea8f2909982888451333dfc608c5556ea6cba3e2f
|
|
| MD5 |
d75b1dff52424a0da33fa41e5f576c1b
|
|
| BLAKE2b-256 |
fbbe5ff25a946a675acd5c2fe61b0666310c86793c40d9e85be77eeacdee2f77
|
File details
Details for the file etfdatahub-1.0.0-py3-none-any.whl.
File metadata
- Download URL: etfdatahub-1.0.0-py3-none-any.whl
- Upload date:
- Size: 39.0 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
eb6fd757a5a357b63454c4a3432ec57ac9dee4da698d7a9af5d586a46b6b771f
|
|
| MD5 |
bf82a5c42473ca424b3054ce278f7e5f
|
|
| BLAKE2b-256 |
9c0c2886b2b492932bb5f642dfb5c5262c588d8483a1477eb599ff458744d19e
|