Skip to main content

PageEyes Agent 是一个轻量级 UI Agent,通过自然语言指令驱动,无需编写脚本既可实现Web、Android平台的UI自动化任务。

Project description

PageEyes Agent

PageEyes Agent 是基于 Pydantic AI 框架开发的一个轻量级 UI Agent, 其中元素信息感知能力依靠 OmniParserV2 模型,整个 Agent 的优势在于不依赖视觉语言大模型, 即使小参数的 LLM 也能胜任路径规划能力,同时支持多平台(Web、Android),目前主要包含以下功能:

  1. 完全由自然语言指令驱动,无需编写脚本,既可实现自动化测试,UI巡检等任务
  2. 跨平台、夸端支持,在 Python 环境中安装 page-eyes 库和配置 OmniParser 服务后即可开始 Web、Android 平台的自动化任务,未来还将继续支持iOS平台
  3. 支持多种大模型接入,包括DeepSeek、OpenAI、千问等,默认使用 DeepSeek V3 模型,后续会支持更多大模型接入
  4. 可通过自然语言进行断言,并生成详细的执行日志和报告,方便测试人员查看执行过程和结果

安装

pip install page-eyes

使用示例

import asyncio

from page_eyes.agent import WebAgent, MobileAgent


async def main():
    # Web 端
    ui_agent = await WebAgent.create(simulate_device='iPhone 15 Pro')

    # 移动端
    # ui_agent = await MobileAgent.create(serial='android-udid')

    report = await ui_agent.run(
        ('1.打开 url "https://yobang.tencentmusic.com/chart/uni-chart/rankList/"\n'
         '2.点击"查找icon"\n'
         '3.在搜索输入框中输入"小美满"\n'
         '4.点击"小美满> "\n'
         '5.点击"日榜"'
         ))


if __name__ == "__main__":
    asyncio.run(main())

更新日志

  • 2025-09-03

    1. 支持等待、停留等自然语言操作
    2. 支持传递 OmniParser Key 鉴权
    3. 断言支持判断页面/屏幕中是否存在某个关键字
  • 2025-08-01

    1. 精简了系统提示词,每次调用使用更少的token
    2. 优化报告的记录和生成逻辑,解决步骤偶然错乱的问题
    3. 优化工具的参数,实现最小化参数,减少token
    4. 优化了等待逻辑,实现更精准的等待,不需要统一等待1s
    5. 截图、解析改成异步,并发不阻塞
    6. 优化浏览器配置,支持使用持久化缓存,二次启动页面速度更快
  • 2025-07-28

    1. 增加滚动和滑动操作
    2. 支持H5 swiper 组件滑动
  • 2025-06-25

    1. 优化 LLM Graph 控制
    2. 更新配置模式
  • 2025-06-09

    1. 支持 Web Agent 模式
    2. 增加执行报告和过程实时渲染
    3. 重构同步方法为异步
  • 2025-06-04

    1. 支持移动端 Agent 模式
    2. 增加click input open_url 工具
    3. 支持接入 OmniParser 进行元素解析

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

page_eyes-0.2.2.tar.gz (236.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

page_eyes-0.2.2-py3-none-any.whl (182.5 kB view details)

Uploaded Python 3

File details

Details for the file page_eyes-0.2.2.tar.gz.

File metadata

  • Download URL: page_eyes-0.2.2.tar.gz
  • Upload date:
  • Size: 236.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.6.9

File hashes

Hashes for page_eyes-0.2.2.tar.gz
Algorithm Hash digest
SHA256 dda77c49bcccc9485ec18cea75d79f2dbac360437e6d472d2dd8d0a028a830bc
MD5 ec21140c7aca213df2d55d75b80cc850
BLAKE2b-256 43295492f5869b7a3504fda2b1ee6a056a7b57ca5115d06feda97a123046b37d

See more details on using hashes here.

File details

Details for the file page_eyes-0.2.2-py3-none-any.whl.

File metadata

  • Download URL: page_eyes-0.2.2-py3-none-any.whl
  • Upload date:
  • Size: 182.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.6.9

File hashes

Hashes for page_eyes-0.2.2-py3-none-any.whl
Algorithm Hash digest
SHA256 d1c53f9e74b88b6231cca4b777adc6b15475ab6036c32f1acdeb0f018fe95ab5
MD5 d6bb3e62ef20731ce21ad7a5aeefd2f5
BLAKE2b-256 3214bfef572068ed5a674110e4e05050be76bb48b3c92e9c5f7d5b45a3f2ce5f

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page