AI代理从聊天走向行动,谁能真正为你“跑腿”上网?OpenAI的Atlas之后,谷歌也亮出了它的王牌——直接集成在全球最流行的Chrome浏览器中的Auto Browse功能。作为AI Pro和AI Ultra订阅者的预览功能,它承诺能代替用户自动完成网页任务。但承诺与现实之间有多大差距?我们对其进行了为期数天的深度实测,结果既有惊喜,也有令人扶额的瞬间。

核心看点:

  1. 游戏高手但“死脑筋”:能理解并玩转网页游戏2048,但缺乏人类灵活应变能力,对指令理解过于字面化。
  2. 跨平台协作遇阻:在谷歌自家YouTube Music上“迷路”,却在Spotify上顺利完成任务,暴露了AI对复杂UI的识别短板。
  3. 无法“守株待兔”:与当前多数AI代理一样,难以执行需要长时间监控网页动态的任务,成本与效率是主要瓶颈。

实测一:挑战网页游戏2048,AI是策略大师还是“一根筋”?

任务目标:让Auto Browse自动玩网页游戏2048,目标是获得高分。

指令与过程:我们首先发现了一个关键限制:Auto Browse无法模拟键盘箭头键操作。谷歌的解释是,这对于“生产力任务”并非必需。这迫使我们将测试转向一个提供屏幕方向按钮的2048游戏版本

Auto Browse正在玩2048游戏 Auto Browse通过点击屏幕按钮操作2048游戏。图片来源:Ryan Whitwam

启动后,AI代理确实展现了对游戏规则的理解,能够进行合并方块的操作。然而,其行为模式暴露了当前AI的典型特点:

  • 思考耗时:偶尔会为下一步“思考”20-30秒。
  • 指令理解僵化:当棋盘上无法进行任何合并时(它将其理解为“用完移动次数”),即使棋盘仍有空格,它也会停止。人类玩家此时可能会选择走一步“废棋”来调整布局,但AI需要额外的明确指令才会继续。

在约20分钟的测试中,它共移动149次,合成了最高128的方块。

深度解读:此测试揭示了AI代理在理解任务意图与灵活执行之间的鸿沟。它更像一个严格遵守操作规程的实习生,而非能洞察全局的专家。谷歌选择不支持箭头键,或许是基于对主流办公、购物等“生产力”场景的权衡,但也因此牺牲了在更广泛交互场景下的潜力。这背后是AI行动能力(Action)与常识推理(Common Sense Reasoning)尚未完全打通的技术现状。

实测二:创建音乐播放列表,为何在自家地盘“翻车”?

任务目标:根据Minnesota Public Radio电台一小时的播放记录,在流媒体平台创建对应歌单。

指令与过程:最初的指令是“收听直播一小时并记录歌曲”。然而,与OpenAI的Atlas类似,Auto Browse几乎拒绝执行任何需要长时间“驻守”页面监控的任务。这主要源于运行AI代理的计算成本极高,让其“发呆”监听是笔不划算的账。

我们调整策略,利用电台官网提供的过往播放列表页面。修改指令后,Auto Browse成功获取了过去一小时的歌曲列表(尽管它严格地抓取了一个“整点时段”的数据,而非滚动的最近60分钟)。

Auto Browse在Spotify上创建的播放列表 Auto Browse成功在Spotify上创建了播放列表。图片来源:Ryan Whitwam*

随后,戏剧性的一幕出现:当要求它将歌曲添加到YouTube Music(谷歌自家服务)时,AI代理竟然找不到“添加按钮”而失败。相反,切换到Spotify后,它一次成功。

深度解读:这次“翻车”极具讽刺意味,也暴露了深层问题:

  1. 实时交互的瓶颈:当前基于大模型的AI代理在需要持续感知、判断和反应的动态任务中(如监控直播、玩实时游戏)能力有限,这不仅是技术问题,更是经济成本问题。
  2. UI识别的“阿喀琉斯之踵”:AI在相对标准、结构清晰的界面(如Spotify)上表现良好,但面对设计独特或元素复杂的页面(如YouTube Music)时容易“迷路”。这表明其计算机视觉(CV)与文档对象模型(DOM)理解能力的融合仍需加强。谷歌自家产品间的协同失灵,也反映了大型企业内部不同团队产品在AI适配上的步调不一。

实测三:扫描分类邮件,隐私与效率的平衡术

任务目标:从个人Gmail收件箱中,筛选出过去一周来自公关(PR)人员的邮件并列出摘要。

注:原文此处未提供完整测试细节,基于其行文逻辑进行合理延伸与解读

潜在挑战与意义:此类任务涉及对邮件内容语义的理解、发件人身份的判断(区分普通邮件与PR邮件)以及信息提取。这恰恰是AI代理可以大显身手的领域——替代繁琐的人工筛选。

然而,这也将AI代理推向了隐私与安全的敏感地带。授予AI访问个人邮件的权限,需要极高的信任度和可靠的安全保障。谷歌如何在此功能中设计权限控制、数据是否会上传处理、AI的判断逻辑是否透明,都将成为用户关心的焦点。

深度解读:邮件处理测试指向了AI代理发展的核心方向之一:成为真正的个人数字助理。这不仅要求AI具备强大的自然语言处理(NLP)能力,更要求其运行在可信执行环境(TEE)或完全本地化模型中,以保障用户隐私。未来,成功的AI代理必须是能力强大且值得信赖的“数字管家”。

结论:Auto Browse是未来助手,还是“半成品”?

经过多轮实测,Chrome的Auto Browse展现了一个处于早期但潜力巨大的AI代理雏形:

  • 优势:凭借Chrome的生态优势,触达能力无与伦比。在定义清晰、界面标准的任务上,它能有效节省用户时间。
  • 局限:对复杂、动态任务的处理能力不足,对指令的理解缺乏灵活性,且在不同网站UI前的表现不稳定。

它标志着浏览器正从“信息窗口”向“智能执行终端”演进。然而,从“能做一些事”到“可靠地做好各种事”,谷歌和整个行业仍需在AI的可靠性、成本控制、跨平台理解以及隐私安全等方面完成艰巨的攀登。

对于普通用户而言,目前可以将其视为一个有趣的、处理简单重复任务的实验性工具,但绝不应依赖其处理重要或紧急事务。AI代理的普及之路,道阻且长。


原文参考We let Chrome’s Auto Browse agent surf the web for us—here’s what happened