网易首页 > 网易号 > 正文 申请入驻

你敢信?GPT-5的电脑操作水平只比人类低2%了

0
分享至



机器之心报道

机器之心编辑部

Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。

其中「计算机使用智能体」(computer-use agent,CUA)是一种能够直接在电脑环境中代替人类执行操作的智能体。它和传统的对话式 AI 不同,不只是回答问题,而是模拟人类使用鼠标、键盘和操作软件来完成任务。在该领域,Simular Research 推出的框架 Agent S 是典型代表之一

一年前,Agent S 在 CUA 基准测试「OSWorld 」上取得了 20.6% 的成绩。此后能力继续扩展,Agent S2 将业界水平提升到了 48.8%。就在昨日,Agent S3 又刷新了自身记录,将性能拉升到了 69.9%,超出先前的 SOTA 10%,接近人类水平的 72%



加州大学圣巴巴拉分校助理教授、Simular 研究负责人 Xin Eric Wang表示,「接下来是超越人类的计算机使用」。

在技术层面,Agent S3 直接在 Agent S2 的基础之上构建,通过简化框架并引入原生的代码智能体,将 OSWorld 上的性能提升至 62.6%,实现了新的 SOTA。

不仅如此,Agent S3 还首次引入了并行扩展的 CUA 框架 ——Behavior Best-of-N (bBoN),它不再依赖单次智能体运行,而是从多次 rollout(执行过程)中挑选最佳结果。这种方法解锁了可扩展的性能提升,使准确率从 62.6% 提高到 69.9%,并展示了智能体框架如何仅凭借扩展多样化运行次数,就能获得持续改进。



目前,Agent S3 已经放出了相关论文,并且完全开源。



  • 论文标题:The Unreasonable Effectiveness of Scaling Agents for Computer Use
  • arXiv 地址:https://arxiv.org/pdf/2510.02250
  • 代码地址:https://github.com/simular-ai/Agent-S

接下来看 Agent S3 的技术和实验细节。

方法改进

计算机使用智能体(CUA)描绘了这样一个未来:软件自己运行,帮你订票、填写表格、操作应用,而你无需亲自动手。

但在当下,即便是最强的 CUA,在任务变得冗长复杂时也常常出错。一次误点、一次延迟响应,或者一个意外的弹窗,都可能让整个执行过程偏离轨道。小错误会不断叠加,本该顺畅的自动化最终变成了挫败感。

这正是 CUA 面临的核心瓶颈:高方差(即高波动性)。同一个智能体,可能这一次顺利完成任务,而下一次却完全失败。这种不一致性让 CUA 难以预测,也凸显了在复杂、日常工作流中实现可靠性的巨大挑战。



缓解这种脆弱性的一个自然方法是并行扩展(Wide Scaling):与其简单地接受单个智能体的一次执行结果,不如扩大智能体数量,让它们并行生成多个执行过程,再从中选择最佳结果。

这种并行扩展的思路利用了一个事实:尽管单个智能体往往不够理想,但它们通常会在不同的任务子集上互补成功。不过,对 CUA 进行规模扩展也带来了独特的挑战。

长时间跨度的执行轨迹信息密度极高,且包含多模态细节,其中大多数与任务成功无关,这使得轨迹的表示、理解和比较变得困难。同时,评估本身也并非易事:许多计算机使用任务本身存在多种有效解法,而自动化评估往往难以判断某条轨迹是否真正正确。

因此,要实现对 CUA 的有效并行扩展,需要全新的应对方法:

  • 在紧凑编码长轨迹的同时,保留与任务相关的语义;
  • 可靠地评估多样化的解题路径,从而识别出成功的执行结果。

针对此,Agent S3 引入了Behavior Best-of-N (bBoN)来实现 CUA 的并行扩展,包括以下两个关键组件:

(1) 行为叙事生成(Behavior Narrative Generation)

本文的方法从生成事实开始。原始的智能体运行包含大量逐步的细节,其中许多无关紧要或冗余。通过生成「事实」,将这些嘈杂的运行过程转化为简洁的陈述,只关注那些与任务成功直接相关的信息。而将这些事实串联起来,就形成了一个「行为叙事」,它清晰地总结了智能体在每一步的操作,使其运行过程更加可解释,也更易于比较。

(2) 行为最佳选择评判(Behavior Best-of-N Judge)

在得到行为叙事后,进一步应用评判机制来决定哪一次运行最能完成任务。与直接比较原始输出不同,评判过程基于每个行为叙事中的事实进行决策。通过跨运行引用这些事实,评判者可以进行对比推理,从而判断哪一次尝试最为有效,并最终选出最佳执行结果。



另外,上个版本 Agent S2 采用了管理者 — 工作者(manager–worker)分层结构。但是随着基础模型的增强,这种层级反而成了不必要的开销。

因此,Agent S3 对框架进行了精简,移除了这一层级结构,并引入了一个原生代码智能体,能够直接生成和执行代码。这样不仅让解决方案更加多样,既能处理代码任务,也能覆盖图形界面(GUI)任务,同时可靠性也得到了提升。

这些改进共同带来了约 13% 的性能提升,使 Agent S3 在单次运行上的表现达到 62.6%,刷新当前 SOTA。

实验结果

在改进基线的基础上,本文的核心贡献 Behavior Best-of-N (bBoN),在 GPT-5 上实现了 69.9% 的成功率(SR),相比 Agent S3 的单次运行提升了 7.3 个百分点;在 GPT-5 Mini 上实现了 60.2% 的成功率,提升幅度为 10.4 个百分点

考虑到人类的表现大约为 72%,这些结果凸显了 bBoN 不仅大幅超越了现有方法,而且已经接近人类水平的能力。



此外,本文还在单次运行设定(不使用扩展)下,将 Agent S3 与 Agent S2 进行了对比。结果显示,Behavior Best-of-N 带来了 13.8% 的成功率提升,使每个任务的 LLM 调用次数减少了 52.3%,平均任务完成时间缩短了 62.4%。因此,Agent S3 不仅能力更强,而且效率更高。



增加智能体运行次数实现扩展

在 OSWorld 上,本文发现随着智能体运行次数的增加,性能会逐步提升。当并行运行 10 次智能体时,性能达到最高:GPT-5 的表现为 69.9%,GPT-5 Mini 的表现为 60.2%。



如何选择混合模型集成?

bBoN 可以在不同模型之间扩展。下表展示了 bBoN 在使用不同混合模型组合时的成功率和任务覆盖率。任务覆盖率的计算方式是:只要在某个任务中至少有一条轨迹正确,就认为该任务成功,即 Pass@N。

观察结果如下:

  • GPT-5 + Gemini 2.5 Pro 的组合实现了 66.7% 的最高成功率和 78.0% 的任务覆盖率,这表明选择由能力互补且多样化的模型构成的混合模型集成,可以获得最佳性能,并将上限提升到最高。
  • 最具多样性的混合(All) 相比任何单模型组合,取得了更高的任务覆盖率(75.4%),这证明了多样性是提升成功率上限的关键。
  • 再次强调,GPT-5 + Gemini 2.5 Pro 的混合组合不仅实现了最高的成功率(66.7%),任务覆盖率也达到了 78.0%,说明模型的多样性选择能够带来最优表现和最高上限。



行为叙事与其他轨迹表示的对比

本文对行为叙事表示进行了消融实验。对比对象包括:

  • 仅截图基线
  • 简单描述基线(即对每张截图单独生成描述)

结果表明,行为叙事在 bBoN 中是一种更有效的表示方式,相比最佳基线提升了 3.4%。这说明仅依靠截图难以充分理解任务过程,而有必要在状态转变之间生成事实,而不是仅仅描述单一状态。



评判器对比

本文对 bBoN Judge 和 WebJudge 进行了对比。其中对 WebJudge 进行了修改,使其能够在多个轨迹中进行选择,方法是对轨迹进行独立排序,并选出排名最高的。

总体而言,bBoN Judge 的表现优于 WebJudge;而 WebJudge 相比单纯的多次运行平均性能,只带来了有限的提升。另外,随着运行次数的增加,bBoN Judge 的扩展性表现更好。



评判器与人类的一致性

本文考察了评判器可能提升性能的任务(占 OSWorld 的 44%),结果发现评判器在 78.4% 的任务上做出了正确选择。进一步复核后发现:评判器实际上在 92.8% 的任务上是正确的,这意味着 OSWorld 的真实性能更接近 76.3%。

这一结果表明,评判器与人类偏好具有较高的一致性,使其成为评估 CUA 任务的一个颇具前景的工具。



更多实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
公园人工湖清淤,湖底捞出12辆共享单车,每辆车上都绑一具人形模特

公园人工湖清淤,湖底捞出12辆共享单车,每辆车上都绑一具人形模特

悬案解密档案
2025-10-29 13:36:28
恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

史行途
2025-11-01 11:40:29
大陆若实施“武统”,韩国是否采取行动? 李在明的回答相当干脆

大陆若实施“武统”,韩国是否采取行动? 李在明的回答相当干脆

奥字侃剧
2025-10-25 17:05:36
今年油价跌9次,大降超1.5元/升,下次油价11月10日调整或上涨

今年油价跌9次,大降超1.5元/升,下次油价11月10日调整或上涨

油价早知道
2025-11-02 00:20:28
70岁以上必看:人到晚年才悟出的10个真相,早知道早清醒建议收藏

70岁以上必看:人到晚年才悟出的10个真相,早知道早清醒建议收藏

情感大使馆
2025-10-31 10:12:48
郭德纲带王惠视察上海德云社,比老婆显娇小,后脑勺都胖出褶子了

郭德纲带王惠视察上海德云社,比老婆显娇小,后脑勺都胖出褶子了

心静物娱
2025-11-03 11:20:38
可控核聚变概念开盘活跃

可控核聚变概念开盘活跃

每日经济新闻
2025-11-03 09:36:07
深成指、创业板指均跌超1%

深成指、创业板指均跌超1%

每日经济新闻
2025-11-03 09:57:05
她因美貌受骚扰,拒绝导演七次后被雪藏多年,43岁又凭实力翻红

她因美貌受骚扰,拒绝导演七次后被雪藏多年,43岁又凭实力翻红

艳儿说电影
2025-11-03 11:18:38
铁卫一剑封喉,福法纳送礼迈尼昂扑点,AC米兰1-0罗马紧追领头羊

铁卫一剑封喉,福法纳送礼迈尼昂扑点,AC米兰1-0罗马紧追领头羊

钉钉陌上花开
2025-11-03 05:45:54
玄学提醒:想要命好,一定要学会避谶

玄学提醒:想要命好,一定要学会避谶

诗词中国
2025-11-01 21:36:55
吴石牺牲后,伟人很后悔:最大错误就是没集中两个野战军攻打台湾

吴石牺牲后,伟人很后悔:最大错误就是没集中两个野战军攻打台湾

知鉴明史
2025-10-22 18:58:14
窦靖童宋妍霏懒理网络传闻,去朋友家做客,回家路上遛狗画面温馨

窦靖童宋妍霏懒理网络传闻,去朋友家做客,回家路上遛狗画面温馨

心静物娱
2025-11-03 11:17:12
杜兰特:塔图姆季后赛伤到跟腱,但他现在恢复好得难以置信

杜兰特:塔图姆季后赛伤到跟腱,但他现在恢复好得难以置信

懂球帝
2025-11-03 09:58:44
专整中国人?小米日本官网的小字比中国的小字大2.6倍,亮1.8倍

专整中国人?小米日本官网的小字比中国的小字大2.6倍,亮1.8倍

小小河
2025-10-24 01:05:49
暴跌60%,多地关店、跑路,暴利的牙科生意,真的要凉透了?

暴跌60%,多地关店、跑路,暴利的牙科生意,真的要凉透了?

法老不说教
2025-10-20 23:48:26
俄军在红军城表现拉垮!俄第51集团军司令和132旅旅长惨被解职

俄军在红军城表现拉垮!俄第51集团军司令和132旅旅长惨被解职

环球热点快评
2025-11-03 09:06:37
甘肃出了一位厉害人物!

甘肃出了一位厉害人物!

大美甘肃
2025-11-02 17:49:40
来了,巴萨!正式确定签约8000万“顶星”!“探花射手”主动加盟

来了,巴萨!正式确定签约8000万“顶星”!“探花射手”主动加盟

头狼追球
2025-11-03 09:14:30
广东迎咀水库放生大量猫咪引发关注,知情人:很多曾被放生到水库的猫已活活饿死

广东迎咀水库放生大量猫咪引发关注,知情人:很多曾被放生到水库的猫已活活饿死

南国今报
2025-11-02 20:11:05
2025-11-03 12:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11621文章数 142497关注度
往期回顾 全部

科技要闻

马斯克为这事开骂:“他们什么都不懂”!

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

本地
手机
健康
游戏
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

手机要闻

OPPO ColorOS16 正式版 11 月升级机型公布

核磁VS肌骨超声,谁更胜一筹?

蒂法和爱丽丝谁是官配?总监:不敢回答我只关心克劳德

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版