豆包手机比较火,然后前段时间看到智谱开源的手机端AI Agent框架Open-AutoGLM,立即下载体验;

项目基于Python,clone项目后pip安装依赖等等,很快啊,挂上梯子不到三分钟就装好了,根据文档给手机开adb,接下来的事情就简单了;

智谱AI开放平台创建个apikey,直接一条命令

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey e**********************

就能进任务交互模式,然后就可以开始在cmd里输入内容来操作手机。

Enter your task: 打开支付宝,进行扫码


==================================================
💭 思考过程:
--------------------------------------------------
用户要求打开支付宝并进行扫码。我需要:
1. 首先启动支付宝应用
2. 然后在支付宝中进行扫码操作

当前屏幕显示的是系统桌面,我可以看到一些应用图标,包括QQ、微信、多邻国、腾讯会议、飞书、支付宝等。

我可以看到支付宝的图标在右下角,显示为"支付宝"。我可以直接点击它,或者使用Launch命令启动支付宝应用。

使用Launch命令会更直接和可靠。支付宝的应用名称是"支付宝"。

让我先启动支付宝应用。


==================================================
⏱️  性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 1.945s
思考完成延迟:        2.830s
总推理时间:          2.995s
==================================================
Parsing action: do(action="Launch", app="支付宝")
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "do",
  "action": "Launch",
  "app": "支付宝"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
屏幕显示还是在系统桌面,支付宝应用似乎还没有完全打开。屏幕上显示"聊天社交"标题,以及一些应用图标(QQ、微信、多邻国、腾讯会议、飞书、支付宝)。

支付宝图标在右下角。让我等待一下,看看应用是否会加载。或者我可以直接点击支付宝图标来启动应用。

让我等待一下,看看应用是否会自动加载。

==================================================
⏱️  性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 2.002s
思考完成延迟:        2.637s
总推理时间:          2.803s
==================================================
Parsing action: do(action="Wait", duration="1 seconds")
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "do",
  "action": "Wait",
  "duration": "1 seconds"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
屏幕还是显示同样的桌面,支付宝应用似乎没有打开。这可能是因为应用启动需要更多时间,或者Launch命令没有成功。

让我尝试直接点击支付宝图标。支付宝图标在右下角,位置大约在坐标(758, 557)附近。

==================================================
⏱️  性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 2.148s
思考完成延迟:        2.593s
总推理时间:          2.780s
==================================================
Parsing action: do(action="Tap", element=[758,557])
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "do",
  "action": "Tap",
  "element": [
    758,
    557
  ]
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
太好了!支付宝应用已经成功打开。我可以看到支付宝的主界面,包括:
- 顶部有搜索框(宠物保险)
- 主要功能按钮:扫一扫、收付款、出行、卡包
- 其他功能:市民中心、淘票票、转账、花呗、手机营业厅等
- 我的常用:我的信用卡、中油好客、支付宝会员、蚂蚁保、淘宝闪购
- 最近消息:Steam付款成功¥24.96、支付宝会员消息
- 底部导航栏:首页、理财、消息、我的

现在我需要点击"扫一扫"按钮来进行扫码操作。扫一扫按钮在左上角,位置大约在坐标(120, 143)附近。

==================================================
⏱️  性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 1.973s
思考完成延迟:        3.151s
总推理时间:          3.364s
==================================================
Parsing action: do(action="Tap", element=[120,143])
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "do",
  "action": "Tap",
  "element": [
    120,
    143
  ]
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
完美!支付宝的扫码界面已经打开。我可以看到:
- 屏幕中央是黑色的相机取景区域
- 顶部左侧有返回按钮
- 顶部右侧有相机图标和更多选项(三个点)
- 中间有"轻触照亮"提示
- 底部有三个选项:
  - 收付款(左侧)
  - 相册(右侧)
  - 扫码(中间,当前选中,显示蓝色下划线)
  - 探一下(右侧)
- 底部导航栏显示:扫码、探一下

现在扫码功能已经成功打开,用户可以开始扫描二维码了。任务已经完成。

==================================================
⏱️  性能指标:
--------------------------------------------------
首 Token 延迟 (TTFT): 1.859s
思考完成延迟:        2.905s
总推理时间:          3.518s
==================================================
Parsing action: finish(message="任务完成!我已成功打开支付宝并进入扫码界面。现在你可以看到支付宝的扫码功能已经激活,屏幕中央是相机取景区域,底部有"扫码"选项已选中(显示蓝色下划线)。你可以将手机摄像头对准二维码进行扫描,或者点击"收付款"进行其他操作。")
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "finish",
  "message": "任务完成!我已成功打开支付宝并进入扫码界面。现在你可以看到支付宝的扫码功能已经激活,屏幕中央是相机取景区域,底部有\"扫码\"选项已选中(显示蓝色下划线)。你可以将手机摄像头对准二维码进行扫描,或者点击\"收付款\"进行其他操作。"
}
==================================================


🎉 ================================================
✅ 任务完成: 任务完成!我已成功打开支付宝并进入扫码界面。现在你可以看到支付宝的扫码功能已经激活,屏幕中央是相机取景区域 ,底部有"扫码"选项已选中(显示蓝色下划线)。你可以将手机摄像头对准二维码进行扫描,或者点击"收付款"进行其他操作。
==================================================


Result: 任务完成!我已成功打开支付宝并进入扫码界面。现在你可以看到支付宝的扫码功能已经激活,屏幕中央是相机取景区域,底部有"扫码"选项已选中(显示蓝色下划线)。你可以将手机摄像头对准二维码进行扫描,或者点击"收付款"进行其他操作。