Skip to main content

Competitive intelligence monitoring system for AI training datasets, tracking labs, vendors, and open-source releases

Project description

📡 AI Dataset Radar

面向 AI Agent 的训练数据竞争情报系统
Competitive intelligence system for AI training datasets

CI Python 3.10+ License: MIT
Tests Agent Ready MCP

快速开始 · 使用方式 · 数据源 · 生态 · 文档

🎯 全源覆盖 86 HF orgs · 50 GitHub orgs · 71 博客 · 125 X 账户 · 5 Reddit 社区 ⚡ 高性能异步 aiohttp 全链路并发,500+ 请求同时执行 🤖 智能体原生 MCP 17 工具 + REST API 19 端点 + Skills 7 命令 📊 竞品分析 竞品矩阵 · 数据集谱系 · 组织关系图谱三维交叉分析 🔔 异常告警 7 条规则自动检测,Email + Webhook 推送

🏗️ 架构
flowchart TD
    subgraph S[" 6 数据源"]
        direction LR
        S1["HuggingFace 86 orgs"] ~~~ S2["GitHub 50 orgs"] ~~~ S3["博客 71 源"]
        S4["论文 arXiv+HF"] ~~~ S5["X 125 账户"] ~~~ S6["Reddit 5 社区"]
    end

    S --> T["Trackers — aiohttp 异步并发采集"]
    T --> A["Analyzers — 分类 · 趋势 · 竞品矩阵 · 谱系 · 组织图谱"]

    subgraph O[" 输出"]
        direction LR
        O1["JSON 结构化"] ~~~ O2["Markdown 报告"] ~~~ O3["AI Insights"]
    end

    A --> O

    subgraph I[" Agent 接口"]
        direction LR
        I1["REST API 19 端点"] ~~~ I2["MCP 17 工具"] ~~~ I3["Skills 7 命令"] ~~~ I4["Dashboard 12 Tab"]
    end

    O --> I

快速开始

git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env  # 编辑填入 Token(GITHUB_TOKEN / ANTHROPIC_API_KEY 等)

# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7

# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe

# Docker
docker compose run scan

产出文件(按日期子目录):

data/reports/2026-02-08/
├── intel_report_*.json                # 结构化数据 (Agent)
├── intel_report_*.md                  # 原始报告 (人类)
├── intel_report_*_insights_prompt.md  # 分析提示 (LLM 输入)
├── intel_report_*_insights.md         # AI 分析报告 (决策层)
├── intel_report_*_changes.md          # 日报变化追踪
└── recipe/                            # DataRecipe 分析 (--recipe)

环境变量、RSSHub 配置、Docker 部署、调度设置详见 .env.example系统架构


使用方式

CLI

python src/main_intel.py --days 7                  # 基础扫描(首次全量,后续增量)
python src/main_intel.py --days 7 --recipe          # + DataRecipe
python src/main_intel.py --full-scan --days 7       # 强制全量扫描
python src/main_intel.py --days 7 --api-insights    # 显式调用 LLM API
命令参考
环境 行为
默认 保存 prompt 文件,由 Claude Code 环境 LLM 分析
--api-insights 调用 LLM API(Anthropic/Kimi/DeepSeek 等)生成 _insights.md
--no-insights 跳过 insights

REST API + Dashboard

python agent/api.py
# → http://localhost:8080/dashboard(Web 仪表盘)
# → http://localhost:8080/docs(API 文档)
Dashboard 预览(12 Tab 面板)

Dashboard Overview

启动 python agent/api.py 后访问 http://localhost:8080/dashboard。包含概览、数据集、GitHub、论文、博客、Reddit、竞品矩阵、谱系、组织图谱、搜索、趋势 11 个面板。

核心端点:

类别 端点
数据查询 /datasets · /github · /papers · /blogs · /reddit
分析 /matrix · /lineage · /org-graph · /trends · /search · /alerts
操作 /scan · /summary · /config · /schema · /tools

完整端点列表、代码示例(OpenAI / Anthropic / LangChain)见 Agent 集成文档

MCP Server

⚙️ MCP 配置
{
  "mcpServers": {
    "radar": {
      "command": "uv",
      "args": ["--directory", "/path/to/ai-dataset-radar", "run", "python", "mcp_server/server.py"]
    }
  }
}

17 个工具(scan/search/diff/trend/history/reddit/matrix/lineage/org-graph/alerts 等)及配置详情见 MCP 文档

Claude Code Skills

在 Claude Code 中输入 / 即可调用,覆盖完整的竞争情报工作流:

命令 用途 类型 是否联网
/scan 运行扫描 + 自动生成 AI 分析报告 采集
/brief 快速情报简报(5 条发现 + 行动建议) 阅读
/search 关键词 跨 6 源搜索(数据集/GitHub/论文/博客/X/Reddit) 查询
/diff 对比两次报告(新增/消失/变化) 对比
/deep-dive 目标 组织/数据集/分类深度分析 分析
/recipe 数据集ID DataRecipe 逆向分析(成本/Schema/难度) 深潜
/radar 通用情报助手(路由到其他 Skill) 入口

典型工作流:

/scan --days 7 --recipe   # 1. 每周采集
/brief                    # 2. 晨会快速浏览
/search RLHF              # 3. 按主题搜索
/deep-dive NVIDIA         # 4. 聚焦某组织
/recipe allenai/Dolci     # 5. 深入某数据集
/diff                     # 6. 周对比变化

设计原则:

  • 环境 LLM 接管ANTHROPIC_API_KEY 未设置时,/scan 让 Claude Code 自身作为分析引擎
  • 纯本地读取/brief/search/diff/deep-dive 不触发网络请求
  • 交叉引用:每个 Skill 的输出中推荐相关的后续 Skill

数据源

来源 数量 覆盖
HuggingFace 86 orgs 67 Labs + 27 供应商(含机器人、欧洲、亚太)
博客 71 源 实验室 + 研究者 + 独立博客 + 数据供应商
GitHub 50 orgs AI Labs + 中国开源 + 机器人 + 数据供应商
论文 2 源 arXiv (cs.CL/AI/LG/CV/RO) + HF Papers
X/Twitter 125 账户 13 类别,CEO/Leaders + 研究者 + 机器人
Reddit 5 社区 MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology

供应商分类、X 账户明细、数据集分类体系见 数据源文档。 输出 JSON Schema 见 输出规范


Data Pipeline 生态

🗺️ 生态架构图
graph LR
    Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
    Recipe --> Synth["🔄 Synth<br/>数据合成"]
    Recipe --> Label["🏷️ Label<br/>数据标注"]
    Synth --> Check["✅ Check<br/>数据质检"]
    Label --> Check
    Check --> Audit["🔬 Audit<br/>模型审计"]
    Audit --> Hub["🎯 Hub<br/>编排层"]
    Hub --> Sandbox["📦 Sandbox<br/>执行沙箱"]
    Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
    Recorder --> Reward["⭐ Reward<br/>过程打分"]
    style Radar fill:#0969da,color:#fff,stroke:#0969da
项目 PyPI 包 说明 仓库
情报 AI Dataset Radar knowlyr-radar 竞争情报、趋势分析 You are here
分析 DataRecipe knowlyr-datarecipe 逆向分析、Schema 提取、成本估算 GitHub
生产 DataSynth knowlyr-datasynth LLM 批量合成、种子数据扩充 GitHub
生产 DataLabel knowlyr-datalabel 轻量标注、多标注员合并 GitHub
质检 DataCheck knowlyr-datacheck 规则验证、重复检测、分布分析 GitHub
质检 ModelAudit knowlyr-modelaudit 蒸馏检测、模型指纹、身份验证 GitHub
Agent knowlyr-agent knowlyr-sandbox / recorder / reward / hub 沙箱 + 录制 + Reward + 编排 GitHub

DataRecipe 联动详情(评分公式、输出结构、MCP 双服务配置)见 DataRecipe 文档


开发路线

能力 说明 解锁场景
异常检测与告警 ✅ 7 条规则 × 4 类别,指纹去重,Email/Webhook 分发 从"手动查看"变为"主动通知",情报系统的本质闭环
增量扫描 ✅ 水位线驱动智能窗口,后续扫描仅处理新增数据 扫描频率从日级提升至小时级,API 调用量降一个量级
时序持久化 每日快照写入 SQLite,支持跨月趋势查询 长周期趋势分析、季度报告、组织活跃度变化曲线
推送分发 周报/日报自动推送到 Slack、飞书、邮件、Webhook 团队被动消费情报,无需主动登录查看
交互式图谱 D3.js force-directed 组织关系图 + Sankey 谱系图 可视化发现隐藏的组织协作模式和数据集派生链
自定义监控规则 用户自建关键词/组织/阈值过滤器,YAML 或 Web UI 配置 不同团队关注不同赛道,无需改代码

已完成里程碑见 CHANGELOG.md

开发

# 安装依赖
pip install -r requirements.txt && playwright install chromium
cp .env.example .env

# 运行测试 (919 个用例)
pytest

# 代码格式化 + lint
ruff check src/
ruff format src/

测试覆盖: 34 个测试文件,919 个测试用例。

CI: GitHub Actions,Tag push 自动发布。定时任务 (daily.yml) 支持每日自动扫描。

License

MIT


knowlyr 数据工程生态 · 训练数据竞争情报

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ai_dataset_radar-0.1.0.tar.gz (254.6 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

ai_dataset_radar-0.1.0-py3-none-any.whl (200.1 kB view details)

Uploaded Python 3

File details

Details for the file ai_dataset_radar-0.1.0.tar.gz.

File metadata

  • Download URL: ai_dataset_radar-0.1.0.tar.gz
  • Upload date:
  • Size: 254.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.14.2

File hashes

Hashes for ai_dataset_radar-0.1.0.tar.gz
Algorithm Hash digest
SHA256 3474f467c55b4f21df49fe33f65a1291b487ff39d50e56e447ee6b444371f048
MD5 4627a7793a5683157a7137d5d2103dbd
BLAKE2b-256 7c478c05a60edf0e4715e1148639a38f4844ed364cf0036dda370c9341f1d973

See more details on using hashes here.

File details

Details for the file ai_dataset_radar-0.1.0-py3-none-any.whl.

File metadata

File hashes

Hashes for ai_dataset_radar-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 889c34e6c0988f17b32c75687ec7be665f01ba1018fe499cb03583cc65f3a505
MD5 09c802003fa3bb0860cb5183fb2483f6
BLAKE2b-256 4dc68f990833e880b09e8cb671eeeb964dec5097be277637d5867d5563e6f710

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page