Competitive intelligence monitoring system for AI training datasets, tracking labs, vendors, and open-source releases
Project description
📡 AI Dataset Radar
面向 AI Agent 的训练数据竞争情报系统
Competitive intelligence system for AI training datasets
🎯 全源覆盖 86 HF orgs · 50 GitHub orgs · 71 博客 · 125 X 账户 · 5 Reddit 社区 ⚡ 高性能异步 aiohttp 全链路并发,500+ 请求同时执行 🤖 智能体原生 MCP 17 工具 + REST API 19 端点 + Skills 7 命令 📊 竞品分析 竞品矩阵 · 数据集谱系 · 组织关系图谱三维交叉分析 🔔 异常告警 7 条规则自动检测,Email + Webhook 推送
🏗️ 架构
flowchart TD
subgraph S[" 6 数据源"]
direction LR
S1["HuggingFace 86 orgs"] ~~~ S2["GitHub 50 orgs"] ~~~ S3["博客 71 源"]
S4["论文 arXiv+HF"] ~~~ S5["X 125 账户"] ~~~ S6["Reddit 5 社区"]
end
S --> T["Trackers — aiohttp 异步并发采集"]
T --> A["Analyzers — 分类 · 趋势 · 竞品矩阵 · 谱系 · 组织图谱"]
subgraph O[" 输出"]
direction LR
O1["JSON 结构化"] ~~~ O2["Markdown 报告"] ~~~ O3["AI Insights"]
end
A --> O
subgraph I[" Agent 接口"]
direction LR
I1["REST API 19 端点"] ~~~ I2["MCP 17 工具"] ~~~ I3["Skills 7 命令"] ~~~ I4["Dashboard 12 Tab"]
end
O --> I
快速开始
git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env # 编辑填入 Token(GITHUB_TOKEN / ANTHROPIC_API_KEY 等)
# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7
# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe
# Docker
docker compose run scan
产出文件(按日期子目录):
data/reports/2026-02-08/
├── intel_report_*.json # 结构化数据 (Agent)
├── intel_report_*.md # 原始报告 (人类)
├── intel_report_*_insights_prompt.md # 分析提示 (LLM 输入)
├── intel_report_*_insights.md # AI 分析报告 (决策层)
├── intel_report_*_changes.md # 日报变化追踪
└── recipe/ # DataRecipe 分析 (--recipe)
环境变量、RSSHub 配置、Docker 部署、调度设置详见
.env.example和 系统架构。
使用方式
CLI
python src/main_intel.py --days 7 # 基础扫描(首次全量,后续增量)
python src/main_intel.py --days 7 --recipe # + DataRecipe
python src/main_intel.py --full-scan --days 7 # 强制全量扫描
python src/main_intel.py --days 7 --api-insights # 显式调用 LLM API
命令参考
| 环境 | 行为 |
|---|---|
| 默认 | 保存 prompt 文件,由 Claude Code 环境 LLM 分析 |
--api-insights |
调用 LLM API(Anthropic/Kimi/DeepSeek 等)生成 _insights.md |
--no-insights |
跳过 insights |
REST API + Dashboard
python agent/api.py
# → http://localhost:8080/dashboard(Web 仪表盘)
# → http://localhost:8080/docs(API 文档)
Dashboard 预览(12 Tab 面板)
启动
python agent/api.py后访问http://localhost:8080/dashboard。包含概览、数据集、GitHub、论文、博客、Reddit、竞品矩阵、谱系、组织图谱、搜索、趋势 11 个面板。
核心端点:
| 类别 | 端点 |
|---|---|
| 数据查询 | /datasets · /github · /papers · /blogs · /reddit |
| 分析 | /matrix · /lineage · /org-graph · /trends · /search · /alerts |
| 操作 | /scan · /summary · /config · /schema · /tools |
完整端点列表、代码示例(OpenAI / Anthropic / LangChain)见 Agent 集成文档。
MCP Server
⚙️ MCP 配置
{
"mcpServers": {
"radar": {
"command": "uv",
"args": ["--directory", "/path/to/ai-dataset-radar", "run", "python", "mcp_server/server.py"]
}
}
}
17 个工具(scan/search/diff/trend/history/reddit/matrix/lineage/org-graph/alerts 等)及配置详情见 MCP 文档。
Claude Code Skills
在 Claude Code 中输入 / 即可调用,覆盖完整的竞争情报工作流:
| 命令 | 用途 | 类型 | 是否联网 |
|---|---|---|---|
/scan |
运行扫描 + 自动生成 AI 分析报告 | 采集 | 是 |
/brief |
快速情报简报(5 条发现 + 行动建议) | 阅读 | 否 |
/search 关键词 |
跨 6 源搜索(数据集/GitHub/论文/博客/X/Reddit) | 查询 | 否 |
/diff |
对比两次报告(新增/消失/变化) | 对比 | 否 |
/deep-dive 目标 |
组织/数据集/分类深度分析 | 分析 | 否 |
/recipe 数据集ID |
DataRecipe 逆向分析(成本/Schema/难度) | 深潜 | 是 |
/radar |
通用情报助手(路由到其他 Skill) | 入口 | — |
典型工作流:
/scan --days 7 --recipe # 1. 每周采集
/brief # 2. 晨会快速浏览
/search RLHF # 3. 按主题搜索
/deep-dive NVIDIA # 4. 聚焦某组织
/recipe allenai/Dolci # 5. 深入某数据集
/diff # 6. 周对比变化
设计原则:
- 环境 LLM 接管:
ANTHROPIC_API_KEY未设置时,/scan让 Claude Code 自身作为分析引擎 - 纯本地读取:
/brief、/search、/diff、/deep-dive不触发网络请求 - 交叉引用:每个 Skill 的输出中推荐相关的后续 Skill
数据源
| 来源 | 数量 | 覆盖 |
|---|---|---|
| HuggingFace | 86 orgs | 67 Labs + 27 供应商(含机器人、欧洲、亚太) |
| 博客 | 71 源 | 实验室 + 研究者 + 独立博客 + 数据供应商 |
| GitHub | 50 orgs | AI Labs + 中国开源 + 机器人 + 数据供应商 |
| 论文 | 2 源 | arXiv (cs.CL/AI/LG/CV/RO) + HF Papers |
| X/Twitter | 125 账户 | 13 类别,CEO/Leaders + 研究者 + 机器人 |
| 5 社区 | MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology |
Data Pipeline 生态
🗺️ 生态架构图
graph LR
Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
Recipe --> Synth["🔄 Synth<br/>数据合成"]
Recipe --> Label["🏷️ Label<br/>数据标注"]
Synth --> Check["✅ Check<br/>数据质检"]
Label --> Check
Check --> Audit["🔬 Audit<br/>模型审计"]
Audit --> Hub["🎯 Hub<br/>编排层"]
Hub --> Sandbox["📦 Sandbox<br/>执行沙箱"]
Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
Recorder --> Reward["⭐ Reward<br/>过程打分"]
style Radar fill:#0969da,color:#fff,stroke:#0969da
| 层 | 项目 | PyPI 包 | 说明 | 仓库 |
|---|---|---|---|---|
| 情报 | AI Dataset Radar | knowlyr-radar | 竞争情报、趋势分析 | You are here |
| 分析 | DataRecipe | knowlyr-datarecipe | 逆向分析、Schema 提取、成本估算 | GitHub |
| 生产 | DataSynth | knowlyr-datasynth | LLM 批量合成、种子数据扩充 | GitHub |
| 生产 | DataLabel | knowlyr-datalabel | 轻量标注、多标注员合并 | GitHub |
| 质检 | DataCheck | knowlyr-datacheck | 规则验证、重复检测、分布分析 | GitHub |
| 质检 | ModelAudit | knowlyr-modelaudit | 蒸馏检测、模型指纹、身份验证 | GitHub |
| Agent | knowlyr-agent | knowlyr-sandbox / recorder / reward / hub | 沙箱 + 录制 + Reward + 编排 | GitHub |
DataRecipe 联动详情(评分公式、输出结构、MCP 双服务配置)见 DataRecipe 文档。
开发路线
| 能力 | 说明 | 解锁场景 |
|---|---|---|
| ✅ 7 条规则 × 4 类别,指纹去重,Email/Webhook 分发 | 从"手动查看"变为"主动通知",情报系统的本质闭环 | |
| ✅ 水位线驱动智能窗口,后续扫描仅处理新增数据 | 扫描频率从日级提升至小时级,API 调用量降一个量级 | |
| 时序持久化 | 每日快照写入 SQLite,支持跨月趋势查询 | 长周期趋势分析、季度报告、组织活跃度变化曲线 |
| 推送分发 | 周报/日报自动推送到 Slack、飞书、邮件、Webhook | 团队被动消费情报,无需主动登录查看 |
| 交互式图谱 | D3.js force-directed 组织关系图 + Sankey 谱系图 | 可视化发现隐藏的组织协作模式和数据集派生链 |
| 自定义监控规则 | 用户自建关键词/组织/阈值过滤器,YAML 或 Web UI 配置 | 不同团队关注不同赛道,无需改代码 |
已完成里程碑见 CHANGELOG.md。
开发
# 安装依赖
pip install -r requirements.txt && playwright install chromium
cp .env.example .env
# 运行测试 (919 个用例)
pytest
# 代码格式化 + lint
ruff check src/
ruff format src/
测试覆盖: 34 个测试文件,919 个测试用例。
CI: GitHub Actions,Tag push 自动发布。定时任务 (daily.yml) 支持每日自动扫描。
License
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file ai_dataset_radar-0.1.0.tar.gz.
File metadata
- Download URL: ai_dataset_radar-0.1.0.tar.gz
- Upload date:
- Size: 254.6 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
3474f467c55b4f21df49fe33f65a1291b487ff39d50e56e447ee6b444371f048
|
|
| MD5 |
4627a7793a5683157a7137d5d2103dbd
|
|
| BLAKE2b-256 |
7c478c05a60edf0e4715e1148639a38f4844ed364cf0036dda370c9341f1d973
|
File details
Details for the file ai_dataset_radar-0.1.0-py3-none-any.whl.
File metadata
- Download URL: ai_dataset_radar-0.1.0-py3-none-any.whl
- Upload date:
- Size: 200.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
889c34e6c0988f17b32c75687ec7be665f01ba1018fe499cb03583cc65f3a505
|
|
| MD5 |
09c802003fa3bb0860cb5183fb2483f6
|
|
| BLAKE2b-256 |
4dc68f990833e880b09e8cb671eeeb964dec5097be277637d5867d5563e6f710
|