Skip to main content

Web GUI for AutoGLM Phone Agent - AI-powered Android automation

Project description

autoglm-gui

AutoGLM-GUI

AutoGLM 手机助手的现代化 Web 图形界面 - 让 AI 自动化操作 Android 设备变得简单

🎉 双模型协作架构现已上线!决策大模型 + 视觉小模型,智能任务规划与精准执行分离,性能提升 60%!🎉

Python License PyPI
欢迎加入讨论交流群

English Documentation

✨ 特性

  • 🧠 双模型协作 - 🆕 决策大模型 + 视觉小模型协作架构,智能任务规划与精准执行分离,支持三种工作模式(DEEP/FAST/TURBO)
  • 完全无线配对 - 🆕 支持 Android 11+ 二维码扫码配对,无需数据线即可连接设备
  • 多设备并发控制 - 同时管理和控制多个 Android 设备,设备间状态完全隔离
  • 对话式任务管理 - 通过聊天界面控制 Android 设备
  • Workflow 工作流 - 🆕 预定义常用任务,一键快速执行,支持创建、编辑、删除和管理
  • 实时屏幕预览 - 基于 scrcpy 的低延迟视频流,随时查看设备正在执行的操作
  • 直接操控手机 - 在实时画面上直接点击、滑动操作,支持精准坐标转换和视觉反馈
  • 零配置部署 - 支持任何 OpenAI 兼容的 LLM API
  • ADB 深度集成 - 通过 Android Debug Bridge 直接控制设备(支持 USB 和 WiFi)
  • 模块化界面 - 清晰的侧边栏 + 设备面板设计,功能分离明确

📥 快速下载

一键下载桌面版(免配置环境):

操作系统 下载链接 说明
🪟 Windows (x64) 📦 下载便携版 EXE 适用于 Windows 10/11,免安装
🍎 macOS (Apple Silicon) 📦 下载 DMG 适用于 M 芯片 Mac
🐧 Linux (x64) 📦 下载 AppImage | deb | tar.gz 通用格式,支持主流发行版

使用说明:

  • Windows: 下载后直接双击 .exe 文件运行,无需安装
  • macOS: 下载后双击 .dmg 文件,拖拽到应用程序文件夹。首次打开可能需要在「系统设置 → 隐私与安全性」中允许运行
  • Linux:
    • AppImage(推荐): 下载后添加可执行权限 chmod +x AutoGLM*.AppImage,然后直接运行
    • deb: 适用于 Debian/Ubuntu 系统,使用 sudo dpkg -i autoglm*.deb 安装
    • tar.gz: 便携版,解压后运行 ./AutoGLM\ GUI/autoglm-gui

💡 提示: 桌面版已内置所有依赖(Python、ADB 等),无需手动配置环境。首次运行时需配置模型服务 API。


或者使用 Python 包(需要 Python 环境):

# 通过 pip 安装(推荐)
pip install autoglm-gui

# 或使用 uvx 免安装运行(需先安装 uv)
uvx autoglm-gui

📸 界面预览

双模型协作架构

决策大模型(GLM-4.7)+ 视觉小模型(AutoGLM-Phone) 双模型协作系统,智能规划与精准执行分离,更好地处理复杂任务

架构特点:

  • 🧠 决策大模型:负责任务分析、计划制定、复杂决策和内容生成
  • 👁️ 视觉小模型:负责屏幕识别、定位元素和执行具体操作
  • 🔄 智能协作:大模型规划任务,小模型批量执行,异常时自动重新规划
  • 三种模式
    • DEEP:深度思考模式,适合复杂任务,每步都详细分析
    • FAST:快速响应模式,适合简单任务,简洁高效
    • TURBO:极速模式,一次性生成操作序列,性能最优

核心优势:

  • 📈 更强智能:大模型提供更深入的任务理解和规划能力
  • 🛡️ 异常恢复:自动检测屏幕卡死、操作失败等异常,智能重试和重新规划
  • 💰 成本优化:TURBO 模式大幅减少大模型调用次数,降低 API 成本
  • 📊 实时可见:流式展示思考过程,透明化决策逻辑
双模型协作界面

任务开始

任务开始

任务执行完成

任务结束

多设备控制

多设备控制

🚀 快速开始

🎯 模型服务配置

AutoGLM-GUI 只需要一个 OpenAI 兼容的模型服务。你可以:

  • 使用官方已托管的第三方服务
    • 智谱 BigModel:--base-url https://open.bigmodel.cn/api/paas/v4--model autoglm-phone--apikey <你的 API Key>
    • ModelScope:--base-url https://api-inference.modelscope.cn/v1--model ZhipuAI/AutoGLM-Phone-9B--apikey <你的 API Key>
  • 或自建服务:参考上游项目的部署文档用 vLLM/SGLang 部署 zai-org/AutoGLM-Phone-9B,启动 OpenAI 兼容端口后将 --base-url 指向你的服务。

示例:

# 使用智谱 BigModel
pip install autoglm-gui
autoglm-gui \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model autoglm-phone \
  --apikey sk-xxxxx

# 使用 ModelScope
pip install autoglm-gui
autoglm-gui \
  --base-url https://api-inference.modelscope.cn/v1 \
  --model ZhipuAI/AutoGLM-Phone-9B \
  --apikey sk-xxxxx

# 指向你自建的 vLLM/SGLang 服务
pip install autoglm-gui
autoglm-gui --base-url http://localhost:8000/v1 --model autoglm-phone-9b

前置要求

  • Python 3.10+
  • Android 设备(Android 11+ 支持完全无线配对,无需数据线)
  • 已安装 ADB 并添加到系统 PATH(桌面版已内置)
  • 一个 OpenAI 兼容的 API 端点

关于设备连接

  • Android 11+:支持二维码扫码配对,完全无需数据线即可连接和控制设备
  • Android 10 及更低版本:需要先通过 USB 数据线连接并开启无线调试,之后可拔掉数据线无线使用

快捷运行(推荐)

无需手动准备环境,直接安装运行:

# 通过 pip 安装并启动
pip install autoglm-gui
autoglm-gui --base-url http://localhost:8080/v1

也可以使用 uvx 免安装启动,自动启动最新版(需已安装 uv,安装教程):

uvx autoglm-gui --base-url http://localhost:8080/v1

传统安装

# 从源码安装
git clone https://github.com/your-repo/AutoGLM-GUI.git
cd AutoGLM-GUI
uv sync

# 构建前端(必须)
uv run python scripts/build.py

# 启动服务
uv run autoglm-gui --base-url http://localhost:8080/v1

启动后,在浏览器中打开 http://localhost:8000 即可开始使用!

🔄 升级指南

检查当前版本

# 查看已安装的版本
pip show autoglm-gui

# 或使用命令行参数
autoglm-gui --version

升级到最新版本

使用 pip 升级:

# 升级到最新版本
pip install --upgrade autoglm-gui

📖 使用说明

多设备管理

AutoGLM-GUI 支持同时控制多个 Android 设备:

  1. 设备列表 - 左侧边栏自动显示所有已连接的 ADB 设备
  2. 设备选择 - 点击设备卡片切换到对应的控制面板
  3. 状态指示 - 清晰显示每个设备的在线状态和初始化状态
  4. 状态隔离 - 每个设备有独立的对话历史、配置和视频流

设备状态说明

  • 🟢 绿点:设备在线
  • ⚪ 灰点:设备离线
  • ✓ 标记:设备已初始化

📱 二维码无线配对(Android 11+ 推荐)

完全无需数据线,手机和电脑只需在同一 WiFi 网络即可:

  1. 手机端准备

    • 打开「设置」→「开发者选项」→ 开启「无线调试」
    • 保持手机和电脑连接到同一个 WiFi 网络
  2. 电脑端操作

    • 点击界面左下角的 ➕ 「添加无线设备」按钮
    • 切换到「配对设备」标签页
    • 二维码自动生成,等待扫码
  3. 手机端扫码

    • 在「无线调试」页面,点击「使用二维码配对设备」
    • 扫描电脑上显示的二维码
    • 配对成功后,设备会自动出现在设备列表中

特点

  • ✅ 完全无需数据线
  • ✅ 一键扫码即可配对
  • ✅ 自动发现并连接设备
  • ✅ 适用于 Android 11 及以上版本

AI 自动化模式

  1. 连接设备 - 使用上述任一方式连接设备(推荐 Android 11+ 的二维码配对)
  2. 选择设备 - 在左侧边栏选择要控制的设备
  3. 初始化 - 点击"初始化设备"按钮配置 Agent
  4. 对话 - 描述你想要做什么(例如:"去美团点一杯霸王茶姬的伯牙绝弦")
  5. 观察 - Agent 会逐步执行操作,每一步的思考过程和动作都会实时显示

🧠 双模型协作模式

双模型模式通过决策大模型视觉小模型的协作,实现更强大的任务执行能力:

工作模式选择

在设备面板上,可以选择三种双模型工作模式��

1. 🚀 TURBO 模式(推荐,性能最优)

  • 特点:一次性生成完整操作序列,批量执行
  • 优势
    • 大模型调用次数最少,API 成本最低
    • 执行速度最快,适合可预测的常规任务
    • 自动异常检测和恢复,遇到问题自动重新规划
  • 适用场景:订外卖、打车、应用内导航等流程明确的任务
  • 示例"打开微信给张三发消息说我到了"

2. 🎯 DEEP 模式(深度思考)

  • 特点:每步都详细分析,决策最智能
  • 优势
    • 处理复杂任务能力强
    • 每步都有完整的思考过程
    • 异常处理更全面
  • 适用场景:需要智能决策的复杂任务
  • 示例"在小红书上找5个关于健身的帖子并评论"

3. ⚡ FAST 模式(快速响应)

  • 特点:简化提示词,快速决策
  • 优势
    • 响应速度快
    • 适合简单任务
  • 适用场景:简单操作、明确指令
  • 示例"打开美团"

双模型配置

决策大模型配置(需要较高智能的模型):

  • 推荐模型:GLM-4.7、GPT-4、Claude 等
  • 智谱 BigModel
    • Base URL: https://open.bigmodel.cn/api/paas/v4
    • Model: glm-4.7
    • API Key: 你的智谱 API Key

视觉小模型配置(需要视觉能力的模型):

  • 推荐模型:AutoGLM-Phone-9B
  • 智谱 BigModel
    • Base URL: https://open.bigmodel.cn/api/paas/v4
    • Model: autoglm-phone
    • API Key: 你的智谱 API Key

假设一个任务需要 10 步操作:

模式 大模型调用次数 说明
TURBO 1-2 次 1次规划 + 异常时1次重新规划
DEEP 10 次 每步都调用大模型决策
FAST 10 次 每步都调用大模型(简化版)

结论:TURBO 模式可节省 80-90% 的大模型 API 成本

手动控制模式

除了 AI 自动化,你也可以直接在实时画面上操控手机:

  1. 实时画面 - 设备面板右侧显示手机屏幕的实时视频流(基于 scrcpy)
  2. 点击操作 - 直接点击画面中的任意位置,操作会立即发送到手机
  3. 滑动手势 - 按住鼠标拖动实现滑动操作(支持滚轮滚动)
  4. 视觉反馈 - 每次操作都会显示涟漪动画和成功/失败提示
  5. 精准转换 - 自动处理屏幕缩放和坐标转换,确保操作位置准确
  6. 显示模式 - 支持自动、视频流、截图三种显示模式切换

Workflow 工作流管理

将常用任务保存为 Workflow,实现一键快速执行:

创建和管理 Workflow

  1. 进入管理页面 - 点击左侧导航栏的 Workflows 图标(📋)
  2. 新建 Workflow - 点击右上角"新建 Workflow"按钮
  3. 填写信息
    • 名称:给 Workflow 起一个简短易记的名称(如:"订购霸王茶姬")
    • 任务内容:详细描述要执行的任务(如:"去美团点一杯霸王茶姬的伯牙绝弦,要去冰,加珍珠")
  4. 保存 - 点击保存按钮即可

管理操作

  • 编辑 - 点击 Workflow 卡片上的"编辑"按钮修改内容
  • 删除 - 点击"删除"按钮移除不需要的 Workflow
  • 预览 - Workflow 卡片显示任务内容的前几行预览

快速执行 Workflow

在 Chat 界面执行已保存的 Workflow:

  1. 选择设备 - 确保已选择并初始化目标设备
  2. 打开 Workflow 选择器 - 点击输入框旁边的 Workflow 按钮(📋 图标)
  3. 选择要执行的任务 - 从列表中点击你想执行的 Workflow
  4. 自动填充 - 任务内容会自动填入输入框
  5. 发送执行 - 点击发送按钮开始执行

使用场景示例

  • 📱 日常任务:订外卖、打车、查快递
  • 🎮 游戏操作:每日签到、领取奖励
  • 📧 消息发送:固定内容的消息群发
  • 🔄 重复操作:定期执行的维护任务

🛠️ 开发指南

快速开发

# 后端开发(自动重载)
uv run autoglm-gui --base-url http://localhost:8080/v1 --reload

# 前端开发服务器(热重载)
cd frontend && pnpm dev

### 构建和打包

```bash
# 仅构建前端
uv run python scripts/build.py

# 构建完整包
uv run python scripts/build.py --pack

📝 开源协议

Apache License 2.0

许可证说明

AutoGLM-GUI 打包了 ADB Keyboard APK (com.android.adbkeyboard),该组件使用 GPL-2.0 许可证。ADB Keyboard 组件作为独立工具使用,不影响 AutoGLM-GUI 本身的 MIT 许可。

详见:AutoGLM_GUI/resources/apks/ADBKeyBoard.LICENSE.txt

🙏 致谢

本项目基于 Open-AutoGLM 构建,感谢 zai-org 团队在 AutoGLM 上的卓越工作。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

autoglm_gui-1.3.1.tar.gz (5.8 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

autoglm_gui-1.3.1-py3-none-any.whl (5.8 MB view details)

Uploaded Python 3

File details

Details for the file autoglm_gui-1.3.1.tar.gz.

File metadata

  • Download URL: autoglm_gui-1.3.1.tar.gz
  • Upload date:
  • Size: 5.8 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.7

File hashes

Hashes for autoglm_gui-1.3.1.tar.gz
Algorithm Hash digest
SHA256 52c454c2548b3570ab394dad862eb7ef4fe69c26be65e17252d30a418152aa38
MD5 0db3e262bcebabbaa9d08317abdc083a
BLAKE2b-256 dc80bbf34c86648aa89b59ad4aeb48245c5a04eda5a15e015523401515c68395

See more details on using hashes here.

Provenance

The following attestation bundles were made for autoglm_gui-1.3.1.tar.gz:

Publisher: release.yml on suyiiyii/AutoGLM-GUI

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file autoglm_gui-1.3.1-py3-none-any.whl.

File metadata

  • Download URL: autoglm_gui-1.3.1-py3-none-any.whl
  • Upload date:
  • Size: 5.8 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.7

File hashes

Hashes for autoglm_gui-1.3.1-py3-none-any.whl
Algorithm Hash digest
SHA256 04aeff6736afbfe81b1cff367f532d9c1307c68f3eb322c8568f8676f464eed2
MD5 531d7ac42bd4b91ab8450e7d38bf8d1b
BLAKE2b-256 346ebe47b89a291591901ea8b72bd9154fa862b7ac467655ac113978e1e6d7e4

See more details on using hashes here.

Provenance

The following attestation bundles were made for autoglm_gui-1.3.1-py3-none-any.whl:

Publisher: release.yml on suyiiyii/AutoGLM-GUI

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page