MCP server for extracting content from Douyin and Xiaohongshu (videos, images, and text)
Project description
抖音和小红书内容提取 MCP 服务器
一个基于 Model Context Protocol (MCP) 的服务器,支持从抖音和小红书分享链接提取视频、图片和文本内容。
📋 项目声明
官方文档地址: https://github.com/yzfly/douyin-mcp-server
请以本项目的 README.md 文件为准,了解项目的功能特性、使用方法、API 配置说明等详细信息。
重要提醒: 第三方平台如因自身 MCP Server 功能支持度限制而无法正常使用,请联系相应平台方。本项目不提供任何形式的技术支持或保证,用户需自行承担使用本项目可能产生的任何损失或损害。
法律声明:
- 本项目基于 Apache 2.0 协议发布
- 本项目仅供学习和研究使用,不得用于任何违法或违规目的
- 本项目的使用必须遵守相关法律法规
- 本项目的作者和贡献者不对项目的任何部分承担法律责任
✨ 功能特性
抖音功能
- 🎵 无水印视频获取 - 从抖音分享链接获取高质量无水印视频
- 🎧 智能音频提取 - 自动从视频中提取音频内容
- 📝 AI 文本识别 - 使用先进的语音识别技术提取文本内容
小红书功能(新增)
- 📱 视频/图文提取 - 支持小红书视频笔记和图文笔记
- 📝 文案提取 - 自动提取笔记的文案内容
- 🖼️ 图片获取 - 提取笔记中的所有图片链接
- 🎤 视频语音识别 - 从视频笔记中提取语音文本(需要API密钥)
通用功能
- 🧹 自动清理 - 智能清理处理过程中的临时文件
- 🔧 灵活配置 - 支持自定义 API 配置,默认使用 阿里云百炼 API
🚀 快速开始
步骤 1:获取 API 密钥
前往 阿里云百炼 API 获取您的 API 密钥:
步骤 2:配置 API 密钥
创建 config.json 配置文件:
{
"api_key": "sk-your-api-key-here",
"model": "paraformer-v2",
"language_hints": ["zh", "en"],
"temp_dir": "temp"
}
步骤 3:配置 Claude Desktop
在 Claude Desktop、Cherry Studio 等支持 MCP Server 的应用配置文件中添加以下配置:
{
"mcpServers": {
"douyin-mcp": {
"command": "python3.11",
"args": ["-m", "douyin_mcp_server.server"]
}
}
}
步骤 3:开始使用
配置完成后,您就可以在支持的应用中正常调用 MCP 工具了。
⚙️ API 配置说明
当前版本(>= 1.2.0)
最新版本默认使用阿里云百炼 API,具有以下优势:
- ✅ 识别效果更好
- ✅ 处理速度更快
- ✅ 本地资源消耗更小
配置步骤:
- 前往 阿里云百炼 开通 API 服务
- 获取 API Key 并配置到
config.json文件中的api_key字段
旧版本兼容(<= 1.1.0)
如果您需要使用旧版本,请使用以下配置:
{
"mcpServers": {
"douyin-mcp": {
"command": "uvx",
"args": ["douyin-mcp-server@1.1.0"],
"env": {
"DOUYIN_API_KEY": "your-api-key-here"
}
}
}
}
注意: 旧版本使用硅基流动 API,需要在 硅基流动 注册账号并获取 API Key。
🛠️ 工具说明
get_douyin_download_link
获取抖音视频的无水印下载链接。
参数:
share_link(string): 抖音分享链接或包含链接的文本
返回:
- JSON 格式的下载链接和视频信息
特点: 无需 API 密钥即可使用
extract_douyin_text
完整的文本提取工具,一站式完成视频到文本的转换。
处理流程:
- 解析抖音分享链接
- 直接使用视频 URL 进行语音识别
- 返回提取的文本内容
参数:
share_link(string): 抖音分享链接或包含链接的文本model(string, 可选): 语音识别模型,默认使用paraformer-v2
配置要求:
config.json: 包含阿里云百炼 API 密钥的配置文件(必需)
parse_douyin_video_info
轻量级视频信息解析工具。
参数:
share_link(string): 抖音分享链接
特点: 仅解析视频基本信息,不下载视频文件
资源访问
douyin://video/{video_id}: 通过视频 ID 获取详细信息
🛠️ 小红书工具说明
get_xiaohongshu_content
获取小红书笔记的完整内容(视频/图文)。
参数:
share_link(string): 小红书分享链接或包含链接的文本
返回:
- JSON 格式,包含视频链接、文案、图片、作者等信息
特点: 无需 API 密钥即可使用,支持视频和图文两种类型
extract_xiaohongshu_text
提取小红书笔记的文案内容。
参数:
share_link(string): 小红书分享链接或包含链接的文本
返回:
- 笔记的文案内容(纯文本,包含标题、描述、标签)
特点: 无需 API 密钥即可使用
extract_xiaohongshu_video_text
从小红书视频笔记中提取语音文本内容。
参数:
share_link(string): 小红书分享链接或包含链接的文本model(string, 可选): 语音识别模型,默认使用paraformer-v2
返回:
- 提取的文本内容(包含文案和语音内容)
配置要求:
config.json: 包含阿里云百炼 API 密钥的配置文件(必需)
get_xiaohongshu_images
获取小红书笔记中的所有图片链接。
参数:
share_link(string): 小红书分享链接或包含链接的文本
返回:
- JSON 格式的图片链接列表
特点: 无需 API 密钥即可使用
资源访问
xiaohongshu://note/{note_id}: 通过笔记 ID 获取详细信息
📦 系统要求
运行环境
- Python: 3.10 或更高版本
依赖库
requests- HTTP 请求处理ffmpeg-python- 音视频处理tqdm- 进度条显示mcp- Model Context Protocol 支持dashscope- 阿里云百炼 API 客户端beautifulsoup4- HTML 解析(用于小红书内容提取)
⚠️ 注意事项
- 🔑 API 密钥必需:视频语音识别功能需要有效的阿里云百炼 API 密钥
- 🆓 部分功能免费:获取下载链接、提取文案等功能无需 API 密钥
- 📱 格式支持:支持大部分抖音视频格式和小红书内容格式
- 🚀 性能优化:使用阿里云百炼 API 获得更快更准确的识别效果
- 📝 小红书支持:支持视频笔记和图文笔记两种类型
🔧 开发指南
本地开发环境搭建
# 克隆项目
git clone https://github.com/yzfly/douyin-mcp-server.git
cd douyin-mcp-server
# 安装依赖(开发模式)
pip install -e .
运行测试
# 启动服务器进行测试
python -m douyin_mcp_server.server
Claude Desktop 本地开发配置
确保项目根目录存在 config.json 配置文件,然后在 Claude Desktop 配置文件中添加:
{
"mcpServers": {
"douyin-mcp": {
"command": "python3.11",
"args": [
"-m",
"douyin_mcp_server.server"
],
"cwd": "/path/to/your/douyin-mcp-server"
}
}
}
⚠️ 免责声明
使用风险
- 使用者对本项目的使用完全自主决定,并自行承担所有风险
- 作者对使用者因使用本项目而产生的任何损失、责任或风险概不负责
代码质量
- 本项目基于现有知识和技术开发,作者努力确保代码的正确性和安全性
- 但不保证代码完全没有错误或缺陷,使用者需自行评估和测试
第三方依赖
- 本项目依赖的第三方库、插件或服务遵循各自的开源或商业许可
- 使用者需自行查阅并遵守相应协议
- 作者不对第三方组件的稳定性、安全性及合规性承担责任
法律合规
- 使用者必须自行研究相关法律法规,确保使用行为合法合规
- 任何违反法律法规导致的法律责任和风险,均由使用者自行承担
- 禁止使用本工具从事任何侵犯知识产权的行为
- 开发者不参与、不支持、不认可任何非法内容的获取或分发
数据处理
- 本项目不对使用者的数据收集、存储、传输等处理活动的合规性承担责任
- 使用者应自行遵守相关法律法规,确保数据处理行为合法正当
责任限制
- 使用者不得将项目作者、贡献者或相关方与使用行为联系起来
- 不得要求作者对使用项目产生的任何损失或损害负责
- 基于本项目的二次开发、修改或编译程序与原作者无关
知识产权
- 本项目不授予使用者任何专利许可
- 若使用本项目导致专利纠纷或侵权,使用者自行承担全部风险和责任
- 未经书面授权,不得用于商业宣传、推广或再授权
服务终止
- 作者保留随时终止向违反声明的使用者提供服务的权利
- 可能要求违规使用者销毁已获取的代码及衍生作品
- 作者保留在不另行通知的情况下更新本声明的权利
⚠️ 重要提醒:在使用本项目前,请认真阅读并完全理解上述免责声明。如有疑问或不同意任何条款,请勿使用本项目。继续使用即视为完全接受上述声明并自愿承担所有风险和后果。
📄 许可证
Apache License 2.0
👨💻 作者
- yzfly - yz.liu.me@gmail.com
- GitHub: https://github.com/yzfly
🤝 贡献
欢迎提交 Issue 和 Pull Request!我们期待您的参与和贡献。
📝 更新日志
v1.2.0 (最新)
- 🚀 性能提升:更快、更准确的视频文案提取
- 🔄 API 升级:切换到阿里云百炼 API,显著提升识别准确率
- 🔧 配置更新:环境变量从
DOUYIN_API_KEY更新为DASHSCOPE_API_KEY
v1.1.0
- 🐛 问题修复:修复提取视频时文件名过长导致的错误
v1.0.0
- 🎉 首次发布:初始版本
- ✨ 核心功能:支持抖音视频文本提取
- 🔗 链接获取:支持获取无水印视频下载链接
- 🔐 环境配置:从环境变量读取 API 密钥
- 🧹 自动清理:自动清理临时文件
- ⚙️ 灵活配置:支持自定义 API 配置
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file douyin_xhs_mcp_server-1.3.0.tar.gz.
File metadata
- Download URL: douyin_xhs_mcp_server-1.3.0.tar.gz
- Upload date:
- Size: 119.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.14
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
591c15a9705aa644f65cdd79b869749e2a2a76b2d0e43f395eaf66d4e28c3b45
|
|
| MD5 |
c6d769a57cdcee90a52c52a2b9a0bce8
|
|
| BLAKE2b-256 |
abc5a2c934800334462bc21ee26b7c2ec5e6fd14316fc236e7ace3ea40e32269
|
File details
Details for the file douyin_xhs_mcp_server-1.3.0-py3-none-any.whl.
File metadata
- Download URL: douyin_xhs_mcp_server-1.3.0-py3-none-any.whl
- Upload date:
- Size: 21.2 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.11.14
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
e6820b8b959515405e17331bb127f875a946a39c697bfe82f3901a96e97cc3d9
|
|
| MD5 |
b12378944891d34c0f2fec338284e63e
|
|
| BLAKE2b-256 |
a48413ec4c0b8457bd418d582d2784c48708cc2fc6e5e1c903b47dcdb15fa209
|