AI代理实战：Chrome Auto Browse自动上网，结果令人意外

当AI代理从聊天走向行动，谁能真正为你“跑腿”上网？OpenAI的Atlas之后，谷歌也亮出了它的王牌——直接集成在全球最流行的Chrome浏览器中的Auto Browse功能。作为AI Pro和AI Ultra订阅者的预览功能，它承诺能代替用户自动完成网页任务。但承诺与现实之间有多大差距？我们对其进行了为期数天的深度实测，结果既有惊喜，也有令人扶额的瞬间。

核心看点：
游戏高手但“死脑筋”：能理解并玩转网页游戏2048，但缺乏人类灵活应变能力，对指令理解过于字面化。
跨平台协作遇阻：在谷歌自家YouTube Music上“迷路”，却在Spotify上顺利完成任务，暴露了AI对复杂UI的识别短板。
无法“守株待兔”：与当前多数AI代理一样，难以执行需要长时间监控网页动态的任务，成本与效率是主要瓶颈。

实测一：挑战网页游戏2048，AI是策略大师还是“一根筋”？

任务目标：让Auto Browse自动玩网页游戏2048，目标是获得高分。

指令与过程：我们首先发现了一个关键限制：Auto Browse无法模拟键盘箭头键操作。谷歌的解释是，这对于“生产力任务”并非必需。这迫使我们将测试转向一个提供屏幕方向按钮的2048游戏版本。

Auto Browse正在玩2048游戏 Auto Browse通过点击屏幕按钮操作2048游戏。图片来源：Ryan Whitwam

启动后，AI代理确实展现了对游戏规则的理解，能够进行合并方块的操作。然而，其行为模式暴露了当前AI的典型特点：

思考耗时：偶尔会为下一步“思考”20-30秒。
指令理解僵化：当棋盘上无法进行任何合并时（它将其理解为“用完移动次数”），即使棋盘仍有空格，它也会停止。人类玩家此时可能会选择走一步“废棋”来调整布局，但AI需要额外的明确指令才会继续。

在约20分钟的测试中，它共移动149次，合成了最高128的方块。

深度解读：此测试揭示了AI代理在理解任务意图与灵活执行之间的鸿沟。它更像一个严格遵守操作规程的实习生，而非能洞察全局的专家。谷歌选择不支持箭头键，或许是基于对主流办公、购物等“生产力”场景的权衡，但也因此牺牲了在更广泛交互场景下的潜力。这背后是AI行动能力（Action）与常识推理（Common Sense Reasoning）尚未完全打通的技术现状。

实测二：创建音乐播放列表，为何在自家地盘“翻车”？

任务目标：根据Minnesota Public Radio电台一小时的播放记录，在流媒体平台创建对应歌单。

指令与过程：最初的指令是“收听直播一小时并记录歌曲”。然而，与OpenAI的Atlas类似，Auto Browse几乎拒绝执行任何需要长时间“驻守”页面监控的任务。这主要源于运行AI代理的计算成本极高，让其“发呆”监听是笔不划算的账。

我们调整策略，利用电台官网提供的过往播放列表页面。修改指令后，Auto Browse成功获取了过去一小时的歌曲列表（尽管它严格地抓取了一个“整点时段”的数据，而非滚动的最近60分钟）。

Auto Browse在Spotify上创建的播放列表 Auto Browse成功在Spotify上创建了播放列表。图片来源：Ryan Whitwam*

随后，戏剧性的一幕出现：当要求它将歌曲添加到YouTube Music（谷歌自家服务）时，AI代理竟然找不到“添加按钮”而失败。相反，切换到Spotify后，它一次成功。

深度解读：这次“翻车”极具讽刺意味，也暴露了深层问题：

实时交互的瓶颈：当前基于大模型的AI代理在需要持续感知、判断和反应的动态任务中（如监控直播、玩实时游戏）能力有限，这不仅是技术问题，更是经济成本问题。
UI识别的“阿喀琉斯之踵”：AI在相对标准、结构清晰的界面（如Spotify）上表现良好，但面对设计独特或元素复杂的页面（如YouTube Music）时容易“迷路”。这表明其计算机视觉（CV）与文档对象模型（DOM）理解能力的融合仍需加强。谷歌自家产品间的协同失灵，也反映了大型企业内部不同团队产品在AI适配上的步调不一。

实测三：扫描分类邮件，隐私与效率的平衡术

任务目标：从个人Gmail收件箱中，筛选出过去一周来自公关（PR）人员的邮件并列出摘要。

（注：原文此处未提供完整测试细节，基于其行文逻辑进行合理延伸与解读）

潜在挑战与意义：此类任务涉及对邮件内容语义的理解、发件人身份的判断（区分普通邮件与PR邮件）以及信息提取。这恰恰是AI代理可以大显身手的领域——替代繁琐的人工筛选。

然而，这也将AI代理推向了隐私与安全的敏感地带。授予AI访问个人邮件的权限，需要极高的信任度和可靠的安全保障。谷歌如何在此功能中设计权限控制、数据是否会上传处理、AI的判断逻辑是否透明，都将成为用户关心的焦点。

深度解读：邮件处理测试指向了AI代理发展的核心方向之一：成为真正的个人数字助理。这不仅要求AI具备强大的自然语言处理（NLP）能力，更要求其运行在可信执行环境（TEE）或完全本地化模型中，以保障用户隐私。未来，成功的AI代理必须是能力强大且值得信赖的“数字管家”。

结论：Auto Browse是未来助手，还是“半成品”？

经过多轮实测，Chrome的Auto Browse展现了一个处于早期但潜力巨大的AI代理雏形：

优势：凭借Chrome的生态优势，触达能力无与伦比。在定义清晰、界面标准的任务上，它能有效节省用户时间。
局限：对复杂、动态任务的处理能力不足，对指令的理解缺乏灵活性，且在不同网站UI前的表现不稳定。

它标志着浏览器正从“信息窗口”向“智能执行终端”演进。然而，从“能做一些事”到“可靠地做好各种事”，谷歌和整个行业仍需在AI的可靠性、成本控制、跨平台理解以及隐私安全等方面完成艰巨的攀登。

对于普通用户而言，目前可以将其视为一个有趣的、处理简单重复任务的实验性工具，但绝不应依赖其处理重要或紧急事务。AI代理的普及之路，道阻且长。

原文参考：We let Chrome’s Auto Browse agent surf the web for us—here’s what happened

实测一：挑战网页游戏2048，AI是策略大师还是“一根筋”？#

实测二：创建音乐播放列表，为何在自家地盘“翻车”？#

实测三：扫描分类邮件，隐私与效率的平衡术#

结论：Auto Browse是未来助手，还是“半成品”？#

实测一：挑战网页游戏2048，AI是策略大师还是“一根筋”？

实测二：创建音乐播放列表，为何在自家地盘“翻车”？

实测三：扫描分类邮件，隐私与效率的平衡术

结论：Auto Browse是未来助手，还是“半成品”？