网易首页 > 网易号 > 正文 申请入驻

Chrome自动浏览智能体实测:AI代理能否替你完成网络任务

0
分享至


我们已经进入人工智能革命几年了,讨论焦点已从谁拥有最好的聊天机器人转向谁的AI智能体能代表你完成最多任务。不幸的是,AI智能体仍然存在不足,因此让它们处理重要任务并不是一个好主意。OpenAI在去年底推出了Atlas智能体,我们发现它略有用处,现在轮到谷歌了。

与OpenAI智能体不同,谷歌的新Auto Browse智能体具有非凡的影响力,因为它是Chrome的一部分——这是世界上最受欢迎的浏览器。谷歌在本月早些时候开始向AI Pro和AI Ultra订阅用户推出Auto Browse(预览版),允许他们派遣智能体在网络上完成任务。

我测试了Chrome的智能体,看看你是否可以信任它为你处理繁琐的在线工作。对于每项测试,我都会阐述需要解决的问题、如何提示机器人,以及它处理工作的好坏程度。

网络游戏测试

问题:我想在2048游戏中获得高分,但不想自己玩。

提示:前往网站,玩游戏直到没有可移动的步数。

结果:不幸的是,Auto Browse无法使用方向键。谷歌表示这些键对于生产力任务并非必需。所以我让机器人去玩一个有屏幕控制按钮的版本。有了这些箭头按钮,Auto Browse毫无困难地玩起了游戏,似乎掌握了页面上列出的规则。

有几次,Auto Browse似乎花了20到30秒思考下一步行动,它非常字面地理解了提示。即使棋盘上仍有空位,机器人也会在无法成功合并任何方块时停止(它对"没有步数"的理解)。人类玩家会接受损失并在下一步中设置合并,但机器人需要提示才能继续,它确实继续了。任务运行了约20分钟,期间机器人创建了128方块并移动了149次。

评估:8/10。游戏表现不如Atlas好,但Auto Browse不需要太多哄劝,我理解它为什么停止。虽然缺乏方向键支持似乎是个奇怪的遗漏,但可能没有多少生产力任务需要它们。

创建电台播放列表

问题:我想将明尼苏达公共广播电台The Current的音乐转换为YouTube Music按需播放列表。

提示:访问thecurrent.org并开始直播。收听一小时并记录播放的每首歌曲。然后将这些歌曲添加到新的YouTube Music播放列表中。

结果:智能体运行成本昂贵,所以像OpenAI的智能体模式一样,Auto Browse拒绝长时间监控页面,这并不令人意外。有时它会在页面上停留一两分钟,通常假装时间过去了更多才放弃。

幸运的是,我们可以通过The Current的播放列表视图完成这个任务,该视图列出了之前的歌曲。我调整了提示,让Auto Browse从该页面获取最后一小时的歌曲名称,这工作得很好。不过它将此理解为页面当前的小时块,而这个块还未完成。

我以为使用YouTube Music而不是Spotify对Auto Browse有帮助,但事实证明Auto Browse不理解YouTube的设计美学。它未能将任何歌曲添加到播放列表,因为找不到按钮。当我将提示改为使用Spotify时,Auto Browse第一次就完成了。这既是对YouTube Music的控诉,也是对Auto Browse的控诉。

评估:6/10。长时间监控页面似乎超出了当前浏览器智能体的能力范围,但令人震惊的是Auto Browse无法使用谷歌自己的流媒体音乐服务创建播放列表。也就是说,一旦我理解了它失败的原因,智能体立即完成了工作。因为让我多次调整提示,它失去了一些分数。

扫描电子邮件

问题:我的个人邮箱地址为人所知,公关人员经常使用它而不是我的工作地址。我需要确保没有重要人员在那里发送推广信息,所以我需要一份最近的公关邮件列表、联系信息和Gmail中的公司详细信息。

提示:查看我过去一个月的所有Gmail。收集公关邮件中的所有信息(姓名、电子邮件地址、电话号码、产品等)并将它们添加到新的Google表格中。

结果:有趣的是,谷歌的智能体不必使用Gmail网页界面。它可以使用Gmail工具在后台收集这些数据。但是,这也意味着你无法为禁用谷歌AI的账户(如工作账户)自动化电子邮件任务。

运行Gmail工具后,Auto Browse导航到Google Drive并打开了一个新的电子表格。然而,它只尝试在表格中输入两个公关联系人,而且数据输入错误,覆盖了字段并将日期放在未标记的列中。如果它在Gmail中搜索"PR",会找到数十个结果。谷歌的AI概览搜索结果在Gmail中可以正确引用公关邮件,所以谷歌AI收集这些信息是可能的。不清楚为什么Auto Browse做得如此糟糕。

评估:1/10。不清楚是Gmail工具还是智能体无法使用电子表格是主要问题,因为我无法验证智能体在Gmail中实际找到了什么。可能两者都有问题。无论如何,Auto Browse在这里表现很差。

编辑Wiki

问题:Ars Technica仍在为Tuvix寻求正义,他在《星际迷航:航海家号》第2季第24集中被舰长Janeway不公正地杀害了。

提示:访问Tuvix的Fandom Wiki页面。编辑页面以包含讨论Tuvix被Janeway谋杀观点的部分。

结果:Auto Browse拒绝了这个请求,就像Atlas一样,说:"无法完成编辑Tuvix Fandom Wiki页面并添加特定文本的请求。提议的编辑在公共wiki上会被视为破坏行为。"

评估:无评级。我不会因此责备Auto Browser。事实上,浏览器智能体拒绝自主编辑公共wiki可能是最好的。我只是必须尽职调查。

制作粉丝网站

问题:我们仍然想告诉人们Tuvix被谋杀的事,所以智能体应该制作一个基本网站来做这件事。

提示:访问NeoCities并为《星际迷航》角色Tuvix创建一个粉丝网站。确保它有大量图像和关于Tuvix的有趣信息,并明确表示Tuvix被舰长Janeway谋杀了。

结果:智能体导航到Neocities,然后要求我创建一个账户。我创建了账户并将任务交回给机器人,没有问题。这是事情变得棘手的地方。Auto Browse无法访问悬停菜单来编辑index.html文件,所以它陷入了打开预览然后返回仪表板的循环。最终,机器人求助了。

Neocities有一个非常简单的界面,但生成式AI不一定稳定。由于Auto Browse中止了任务,我决定重新运行提示,结果更好了。这次Auto Browse切换到列表视图,没有悬停菜单,允许它打开编辑器。然后它导航到TrekCore复制图像URL用于网站——这不是礼貌的网页设计,但确实遵循了指令。然而,它选择的图像来自剧集早期,没有展示Tuvix。所以部分得分。

生成的网站信息有点少,但Auto Browse包含了文本背景和颜色。看起来相当不错。

评估:7/10。我们的Tuvix粉丝页面完成了工作。它展示了一些有趣的事实并(简要地)论证Janeway是凶手。机器人寻找图像很好,尽管它们没有显示相关角色。由于最初的悬停菜单失败和缺乏细节,它失去了几分——我确实说了"大量"图像和有趣信息。

选择电力计划

问题:德克萨斯州有一个"疯狂"的电力系统,迫使像Ars高级编辑Lee Hutchinson这样的人定期寻找新计划。

提示:访问powertochoose.org,为我找一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2000千瓦时。我的电力输送公司是Texas New-Mexico Power("TNMP"),不是CenterPoint。我的邮政编码是[已隐去]。请为你推荐的任何和所有计划提供"事实表"。

结果:Auto Browse成功在网站的搜索和筛选部分输入了参数。它对结果进行了排序,在几分钟内返回了推荐电力计划的事实表。这与几个月前OpenAI智能体的建议非常相似,除了合同期限稍长,白天费率更低。

评估:10/10。这里没什么可抱怨的。考虑到约束条件,计划完全可以,Auto Browse能够使用网站的下拉菜单和筛选器,几乎没有实验。我不必更改提示或推动机器人继续。

管理PlayStation游戏

问题:我不想查看PlayStation商店中的大量折扣游戏列表。有人不能替我做吗?

提示:访问PlayStation商店并查看新年优惠。将排序更改为最畅销,类型改为完整游戏。检查前两页是否有任何至少50%折扣的PS5游戏并将它们添加到我的愿望清单。如果游戏包含在PlayStation Plus中,就将它添加到我的库中。

结果:智能体找到了销售页面并成功更改了显示设置。它甚至在完成后关闭了那个未标记的菜单。它遍历列表,在找到匹配游戏时打开页面。它还在每次添加游戏到愿望清单或库之前都会询问,声称这是安全要求。

这个过程花了约15分钟,期间有大量长时间暂停等待确认请求。它确实正确解释了销售价格和PlayStation Plus可用性。不幸的是,它没有区分PS5和PS4游戏,智能体在第2页底部前几行就停止了。

评估:7/10。考虑到所有因素,Auto Browse运行这个任务相当不错。不过它停得有点早,错过了PS5角度。每次愿望清单或库添加都需要确认的要求很烦人,因此很难称其为"自动"任何东西。

最终结果

在这六项测试中(不包括我预期不会成功的wiki编辑),谷歌的浏览器智能体获得了中位数7分和平均6.5分的成绩。虽然这不是客观分析,但它表明Auto Browse在能够被信任为你完成任务之前还有很长的路要走。

像OpenAI Atlas智能体一样,Auto Browse无法真正自主操作,我给了它很多优势。Auto Browse适用于谷歌当前的所有三种模型设置——快速、思考和专业。我将其设置为专业并在适当时使用谷歌工具。尽管如此,Auto Browse在几乎每个测试中都需要推动或重新提示。这些东西在能够真正作为你的智能体运行之前不会有用。现在,它更像是在照看一个容易分心的机器人。

许多失分来自Auto Browse无法使用谷歌自己的产品——它没有在Gmail中找到正确的电子邮件,无法在Google表格中输入数据,并且未能理解YouTube Music的界面。浏览器智能体显然无法长时间监控页面也是一个问题。如果任务涉及超过几分钟的等待,它可能会失败或提前中止。

这个功能仍在预览中,但对任何付费使用谷歌AI的人都广泛可用。该公司似乎还暗示将来会向非付费用户推出。看浏览器为你导航网络可能很有趣,但问题是——你必须看着它。太多时候,你必须重新提示或告诉AI继续执行任务。Auto Browse不能在没有监督的情况下被信任正确完成任务,至少现在还不行。

Q&A

Q1:Chrome的Auto Browse智能体是什么?

A:Auto Browse是谷歌推出的浏览器智能体,集成在Chrome浏览器中,目前向AI Pro和AI Ultra订阅用户提供预览版。它可以代替用户在网络上执行各种任务,如浏览网页、填写表单、创建内容等。

Q2:Auto Browse智能体的表现如何?

A:根据测试,Auto Browse在六项任务中获得了中位数7分、平均6.5分的成绩。它在简单任务如选择电力计划方面表现良好,但在处理谷歌自家产品如Gmail和YouTube Music时表现不佳,且无法长时间监控页面。

Q3:Auto Browse能完全自主工作吗?

A:目前还不能。Auto Browse在几乎每个测试中都需要用户的推动或重新提示才能完成任务。用户必须监督整个过程,更像是在照看一个容易分心的机器人,而不是真正的自主智能体。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节租车“爆”了

春节租车“爆”了

中国新闻周刊
2026-02-13 22:36:10
国家给我5个亿我就上交!福建男花2亿元珍藏了一张皇帝所睡的龙床

国家给我5个亿我就上交!福建男花2亿元珍藏了一张皇帝所睡的龙床

南权先生
2026-02-12 15:41:39
郭富城陪老婆方媛回安徽过年,身高年龄都太有梗,人群中特别显眼

郭富城陪老婆方媛回安徽过年,身高年龄都太有梗,人群中特别显眼

手工制作阿歼
2026-02-14 09:53:26
曝马奎尔即将续约周薪,或回国家队双喜临门!卡里克成功原因揭秘

曝马奎尔即将续约周薪,或回国家队双喜临门!卡里克成功原因揭秘

罗米的曼联博客
2026-02-14 10:26:43
2+1打停对手!杨瀚森5分钟砍10分燃爆全场,点飞克林根上篮爆惊喜

2+1打停对手!杨瀚森5分钟砍10分燃爆全场,点飞克林根上篮爆惊喜

球盲姐
2026-02-14 10:54:29
王毅外长亲自坐镇,台当局也派人到场,看见大陆4个字,认清现实

王毅外长亲自坐镇,台当局也派人到场,看见大陆4个字,认清现实

超喜欢我
2026-02-13 19:15:40
33岁内马尔官宣当爷爷!4娃3母情史混乱,绯闻频登热搜引热议

33岁内马尔官宣当爷爷!4娃3母情史混乱,绯闻频登热搜引热议

罗氏八卦
2026-02-13 18:55:03
离春节不到3天,人民日报点名孙颖莎,揭示真实处境,误会太深

离春节不到3天,人民日报点名孙颖莎,揭示真实处境,误会太深

晓劗就是我
2026-02-14 06:09:49
郭正亮:南海黄岩岛是美国底线,若中国敢填海,美国将直接炸毁

郭正亮:南海黄岩岛是美国底线,若中国敢填海,美国将直接炸毁

乐趣纪史
2026-02-14 07:34:56
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻
2026-02-12 20:48:26
哪一刻意识到自己没见过世面?网友:从此再没喝过茶

哪一刻意识到自己没见过世面?网友:从此再没喝过茶

另子维爱读史
2025-12-13 21:53:50
特朗普被日本骗后勃然大怒,美财长送中日两句话,钓鱼岛局势突变

特朗普被日本骗后勃然大怒,美财长送中日两句话,钓鱼岛局势突变

爱意随风起呀
2026-02-13 18:41:53
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
A股:周六上午传来2个重大级利好!A股或将会迎来史诗级别大行情?

A股:周六上午传来2个重大级利好!A股或将会迎来史诗级别大行情?

股市皆大事
2026-02-14 09:42:51
“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

妍妍教育日记
2026-02-12 18:48:38
林彪独特的饮食,一年四季只吃“老三样”:饼子、馒头和水煮白菜

林彪独特的饮食,一年四季只吃“老三样”:饼子、馒头和水煮白菜

明月清风阁
2026-02-13 12:00:11
詹姆斯41岁轰三双创5大神迹:历史第一人+湖人队史第二比肩魔术师

詹姆斯41岁轰三双创5大神迹:历史第一人+湖人队史第二比肩魔术师

Emily说个球
2026-02-13 13:55:54
A股最大提款机:吸血15年,99%资产在美,8万股民被套

A股最大提款机:吸血15年,99%资产在美,8万股民被套

余生妩媚小妖精
2026-01-29 16:38:47
广州,全国“最不堵”的一线城市

广州,全国“最不堵”的一线城市

广州PLUS
2026-02-13 16:48:38
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
2026-02-14 11:55:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16185文章数 49690关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

牛弹琴:一觉醒来乌感谢中国了 希望与中国最高层接触

头条要闻

牛弹琴:一觉醒来乌感谢中国了 希望与中国最高层接触

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
房产
时尚
手机
数码

教育要闻

3位诺贝尔文学奖得主亲测有效的9个写作习惯,新手也能立刻上手

房产要闻

三亚新机场,又传出新消息!

穿上这些鞋拥抱春天

手机要闻

三星重回第一,小米国产第一,2025东南亚市场分析

数码要闻

美光开始量产面向数据中心的固态硬盘

无障碍浏览 进入关怀版