网易首页 > 网易号 > 正文 申请入驻

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

0
分享至




机器之心报道

编辑:Panda

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。

尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。

现在,谷歌的一篇新论文填补了这一空白!

他们通过大量实验找到了智能体的 Scaling Law,只不过他们将其称为quantitative scaling principles,即定量扩展原则。



  • 论文标题:Towards a Science of Scaling Agent Systems
  • 论文地址:https://arxiv.org/abs/2512.08296

具体来说,他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。

他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(网络导航)、PlanCraft(游戏规划)和 Workbench(工作流执行)。



利用五种典型的智能体架构(单智能体系统以及四种多智能体系统:独立型、中心化、去中心化、混合型),并在三个 LLM 家族(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种配置进行了受控评估,标准化了工具、提示结构和 token 预算,以将架构效应从实施混杂因素中隔离出来。



他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。

是的,智能体的 Scaling Law 找到了!并且准确度还相当高,谷歌表示:「我们的框架在预测保留任务的最佳架构方面实现了 87% 的准确率。」这样一来,智能体的部署决策将第一次获得强有力的原则支撑。



实验与结果:打破「人多力量大」的迷思

为了找到这套定量原则,谷歌团队没有仅仅停留在理论推导,而是进行了一场堪称暴力穷举的实证研究。

他们动用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、网购、游戏规划等不同场景下进行了 180 组受控实验。

实验结果不仅令人意外,甚至颠覆了许多开发者的直觉。简单来说,他们发现了一些规律。

任务决定成败:有的场景是神助攻,有的是猪队友

过去人们常说「三个臭皮匠,顶个诸葛亮」,但这篇论文告诉我们:这完全取决于你们在干什么任务。



红榜(适合组团): 在金融分析(Finance-Agent)这类任务中,多智能体协作是大杀器。中心化架构(有一个「指挥官」分派任务)能让性能暴涨 80.9%。为什么?因为这类任务可以拆分 —— 你查财报,我算汇率,他做总结,大家并行工作,效率极高。

黑榜(切忌组团): 在游戏规划(PlanCraft)这类任务中,所有多智能体架构都翻车了,性能惨跌 39% 到 70%。原因在于这类任务环环相扣(必须先砍树,才能做木板),强行把流程拆给不同的人,光是沟通成本就把推理能力消耗殆尽了。

三大隐形杀手:什么在阻碍智能体变强?

通过对数据的深度挖掘,谷歌团队量化了阻碍智能体扩展的三大核心因素:

第一,工具越多,协作越难(工具-协作权衡)

如果任务需要用到大量工具(比如 16 个以上的 API),再引入多智能体协作就是一场灾难。实验数据显示,工具密集的任务会因巨大的沟通开销而不仅没变快,反而变慢、变笨。

第二,能力有天花板(能力饱和效应)

这是最反直觉的一点:如果单个智能体已经够聪明了,就别再给它找帮手了。 数据表明,当单智能体的基线准确率超过 45% 时,再增加智能体进行协作,收益往往是负的。所谓「帮倒忙」,在 AI 世界里是真实存在的。

第三,没有指挥官,错误会指数级放大

如果你让一群智能体各自为战(独立型架构),错误会被放大 17.2 倍 —— 因为没人检查,一个人的错会传给所有人。但如果引入一个「指挥官」进行中心化管理,错误放大率能被控制在 4.4 倍。这证明了在多智能体系统中,架构设计比单纯堆人数更重要。

模型性格测试:谁是最佳指挥官?

除了任务和架构,论文还发现了一个有趣的现象:不同厂商的模型有不同的协作性格。在选择团队成员时,你不能只看智商(IQ),还要看它们合不合群。

Google Gemini:擅长「层级管理」的执行官。Gemini 模型在中心化架构下表现出了惊人的适应性。在金融任务中,Gemini 的中心化协作带来了 +164.3% 的恐怖提升。数据表明,它最听指挥,执行力最强,且在不同架构下的性价比最为平衡。

OpenAI GPT:擅长「复杂沟通」的交际花。GPT 系列在混合型架构(Hybrid)中表现最佳 。虽然混合架构的沟通成本很高,但 GPT 似乎拥有独特的「通信协同效应」(Communication Synergy),能驾驭复杂的交互网络,不仅能听指挥,还能搞定同级之间的横向沟通 。

Anthropic Claude:稳健但敏感的保守派。Claude 对协作开销非常敏感,一旦沟通太复杂,成本就会飙升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最适合简单直接的中心化架构,表现最稳(方差最小)。更有趣的是,它是唯一一个在「弱指挥官带强兵」(异构混合)模式下还能提升性能的模型,展现出了独特的容错性



结果:这就是我们要找的「预测公式」

最终,基于上述发现,谷歌推导出了一个预测模型。这个模型不依赖玄学,而是基于效率、开销、错误放大率等硬指标。





它的威力如何?在预测完全没见过的任务配置时,这套理论能以 87% 的准确率告诉你:对于当前的任务和模型,到底该用单打独斗,还是团队协作,亦或是某种特定的组队方式。

这标志着智能体系统设计正式告别了「炼金术」时代,进入了可计算、可预测的「化学」时代。

更多详情请访问原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党率团赴京,郑丽文对大陆“称呼”变了,蔡英文或将再度出马

国民党率团赴京,郑丽文对大陆“称呼”变了,蔡英文或将再度出马

墨兰史书
2026-01-31 05:00:03
田朴珺喊大佬引群嘲!随口称呼没分寸,贵族学校老板修养太拉胯

田朴珺喊大佬引群嘲!随口称呼没分寸,贵族学校老板修养太拉胯

暖心萌阿菇凉
2026-01-28 21:38:44
我30岁,深圳打工12年,单身,同事追求我,要彩礼15万,他放弃了

我30岁,深圳打工12年,单身,同事追求我,要彩礼15万,他放弃了

人间百态大全
2026-01-31 06:50:03
曼联 1 亿镑砸破队史纪录?目标锁定英超当红兽腰,切尔西急了!

曼联 1 亿镑砸破队史纪录?目标锁定英超当红兽腰,切尔西急了!

澜归序
2026-01-31 05:54:18
深夜,全线崩盘!凌晨,史诗级大逆转来了

深夜,全线崩盘!凌晨,史诗级大逆转来了

中国基金报
2026-01-30 08:47:09
人社部重磅定调!养老金涨幅锁定2%,高龄老人优先受益

人社部重磅定调!养老金涨幅锁定2%,高龄老人优先受益

万物知识圈
2026-01-30 09:02:08
华为宣布:最高降4000元!此前苹果开启大降价

华为宣布:最高降4000元!此前苹果开启大降价

每日经济新闻
2026-01-29 18:19:05
Clawdbot接入10000+数据和工具后,7×24小时监听股票,杀疯了!

Clawdbot接入10000+数据和工具后,7×24小时监听股票,杀疯了!

机器之心Pro
2026-01-30 10:19:54
癌症害怕的东西,不是洋葱,也不是大蒜,而是长期坚持做好5件事

癌症害怕的东西,不是洋葱,也不是大蒜,而是长期坚持做好5件事

纸上的心语
2025-12-19 22:13:59
大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

娱乐团长
2026-01-28 20:30:38
夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

精彩分享快乐
2025-12-04 13:26:44
大众突然官宣:7.99万起,新车正式上市

大众突然官宣:7.99万起,新车正式上市

高科技爱好者
2026-01-29 23:09:48
晚年蒋介石含泪复盘:这辈子最大的昏招,就是把那几十万心头肉留在了东北

晚年蒋介石含泪复盘:这辈子最大的昏招,就是把那几十万心头肉留在了东北

老杉说历史
2026-01-25 21:36:11
陪睡陪玩只冰山一角! 又一女演员曝内娱潜规则, 原来岳云鹏没说谎

陪睡陪玩只冰山一角! 又一女演员曝内娱潜规则, 原来岳云鹏没说谎

小熊侃史
2026-01-31 07:05:08
我妈铁了心要嫁广场舞搭子,我没反对,领证前我说:你老了指望谁

我妈铁了心要嫁广场舞搭子,我没反对,领证前我说:你老了指望谁

朝暮书屋
2026-01-09 18:49:12
美联储换帅:特朗普找了个“立刻挥刀”的最强对手?

美联储换帅:特朗普找了个“立刻挥刀”的最强对手?

凤凰网财经
2026-01-30 20:54:16
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
不要再随意猜测杨兰兰的身份了,释放的信号很明显了

不要再随意猜测杨兰兰的身份了,释放的信号很明显了

李昕言温度空间
2025-08-20 15:01:53
腿是血栓“报警器”?提醒:若有这4个表现,要怀疑血栓或已到来

腿是血栓“报警器”?提醒:若有这4个表现,要怀疑血栓或已到来

医学原创故事会
2026-01-29 22:18:10
华西村那头1吨金牛,15年后竟成最成功的投资?

华西村那头1吨金牛,15年后竟成最成功的投资?

财经保探长
2026-01-30 18:38:42
2026-01-31 09:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142557关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

健康
旅游
数码
教育
手机

耳石症分类型,症状大不同

旅游要闻

黄河壶口瀑布旅游区(山西•吉县)临时闭园公告

数码要闻

英伟达推出RTX Remix Logic:无代码动态MOD创作

教育要闻

无痛背英语之犀牛哥闪亮登场!

手机要闻

库克预告:苹果今年有前所未见的创新

无障碍浏览 进入关怀版