网易首页 > 网易号 > 正文 申请入驻

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

0
分享至




机器之心报道

编辑:Panda

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。

尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。

现在,谷歌的一篇新论文填补了这一空白!

他们通过大量实验找到了智能体的 Scaling Law,只不过他们将其称为quantitative scaling principles,即定量扩展原则。



  • 论文标题:Towards a Science of Scaling Agent Systems
  • 论文地址:https://arxiv.org/abs/2512.08296

具体来说,他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。

他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(网络导航)、PlanCraft(游戏规划)和 Workbench(工作流执行)。



利用五种典型的智能体架构(单智能体系统以及四种多智能体系统:独立型、中心化、去中心化、混合型),并在三个 LLM 家族(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种配置进行了受控评估,标准化了工具、提示结构和 token 预算,以将架构效应从实施混杂因素中隔离出来。



他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。

是的,智能体的 Scaling Law 找到了!并且准确度还相当高,谷歌表示:「我们的框架在预测保留任务的最佳架构方面实现了 87% 的准确率。」这样一来,智能体的部署决策将第一次获得强有力的原则支撑。



实验与结果:打破「人多力量大」的迷思

为了找到这套定量原则,谷歌团队没有仅仅停留在理论推导,而是进行了一场堪称暴力穷举的实证研究。

他们动用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、网购、游戏规划等不同场景下进行了 180 组受控实验。

实验结果不仅令人意外,甚至颠覆了许多开发者的直觉。简单来说,他们发现了一些规律。

任务决定成败:有的场景是神助攻,有的是猪队友

过去人们常说「三个臭皮匠,顶个诸葛亮」,但这篇论文告诉我们:这完全取决于你们在干什么任务。



红榜(适合组团): 在金融分析(Finance-Agent)这类任务中,多智能体协作是大杀器。中心化架构(有一个「指挥官」分派任务)能让性能暴涨 80.9%。为什么?因为这类任务可以拆分 —— 你查财报,我算汇率,他做总结,大家并行工作,效率极高。

黑榜(切忌组团): 在游戏规划(PlanCraft)这类任务中,所有多智能体架构都翻车了,性能惨跌 39% 到 70%。原因在于这类任务环环相扣(必须先砍树,才能做木板),强行把流程拆给不同的人,光是沟通成本就把推理能力消耗殆尽了。

三大隐形杀手:什么在阻碍智能体变强?

通过对数据的深度挖掘,谷歌团队量化了阻碍智能体扩展的三大核心因素:

第一,工具越多,协作越难(工具-协作权衡)

如果任务需要用到大量工具(比如 16 个以上的 API),再引入多智能体协作就是一场灾难。实验数据显示,工具密集的任务会因巨大的沟通开销而不仅没变快,反而变慢、变笨。

第二,能力有天花板(能力饱和效应)

这是最反直觉的一点:如果单个智能体已经够聪明了,就别再给它找帮手了。 数据表明,当单智能体的基线准确率超过 45% 时,再增加智能体进行协作,收益往往是负的。所谓「帮倒忙」,在 AI 世界里是真实存在的。

第三,没有指挥官,错误会指数级放大

如果你让一群智能体各自为战(独立型架构),错误会被放大 17.2 倍 —— 因为没人检查,一个人的错会传给所有人。但如果引入一个「指挥官」进行中心化管理,错误放大率能被控制在 4.4 倍。这证明了在多智能体系统中,架构设计比单纯堆人数更重要。

模型性格测试:谁是最佳指挥官?

除了任务和架构,论文还发现了一个有趣的现象:不同厂商的模型有不同的协作性格。在选择团队成员时,你不能只看智商(IQ),还要看它们合不合群。

Google Gemini:擅长「层级管理」的执行官。Gemini 模型在中心化架构下表现出了惊人的适应性。在金融任务中,Gemini 的中心化协作带来了 +164.3% 的恐怖提升。数据表明,它最听指挥,执行力最强,且在不同架构下的性价比最为平衡。

OpenAI GPT:擅长「复杂沟通」的交际花。GPT 系列在混合型架构(Hybrid)中表现最佳 。虽然混合架构的沟通成本很高,但 GPT 似乎拥有独特的「通信协同效应」(Communication Synergy),能驾驭复杂的交互网络,不仅能听指挥,还能搞定同级之间的横向沟通 。

Anthropic Claude:稳健但敏感的保守派。Claude 对协作开销非常敏感,一旦沟通太复杂,成本就会飙升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最适合简单直接的中心化架构,表现最稳(方差最小)。更有趣的是,它是唯一一个在「弱指挥官带强兵」(异构混合)模式下还能提升性能的模型,展现出了独特的容错性



结果:这就是我们要找的「预测公式」

最终,基于上述发现,谷歌推导出了一个预测模型。这个模型不依赖玄学,而是基于效率、开销、错误放大率等硬指标。





它的威力如何?在预测完全没见过的任务配置时,这套理论能以 87% 的准确率告诉你:对于当前的任务和模型,到底该用单打独斗,还是团队协作,亦或是某种特定的组队方式。

这标志着智能体系统设计正式告别了「炼金术」时代,进入了可计算、可预测的「化学」时代。

更多详情请访问原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
重庆一业主40万卖房,买家重装后69.8万售出,第二买家以天花板有排污管道泄漏起诉,一审判业主担责近80万

重庆一业主40万卖房,买家重装后69.8万售出,第二买家以天花板有排污管道泄漏起诉,一审判业主担责近80万

潇湘晨报
2026-04-07 08:41:11
或不再需要固态电池,中国动力电池取得大突破!

或不再需要固态电池,中国动力电池取得大突破!

娱乐圈的笔娱君
2026-04-07 17:44:51
高明没想到,儿子去世一年后,没有带娃改嫁的儿媳,成了他的救赎

高明没想到,儿子去世一年后,没有带娃改嫁的儿媳,成了他的救赎

米果说识
2026-04-07 14:43:21
85岁陈丽华去世,巨额遗产分配公道,迟重瑞已放弃

85岁陈丽华去世,巨额遗产分配公道,迟重瑞已放弃

无处遁形
2026-04-07 21:08:12
林彪提出接任北京军区司令员人选时,毛主席反问:是四野的人吧?

林彪提出接任北京军区司令员人选时,毛主席反问:是四野的人吧?

历史龙元阁
2026-04-07 16:40:07
中东局势一夜突变:五万美军紧急刹车,内塔尼亚胡陷入绝境

中东局势一夜突变:五万美军紧急刹车,内塔尼亚胡陷入绝境

民间胡扯老哥
2026-04-04 21:20:45
吉利要杀死合资!长超5米2,续航1505km,双叉臂+6座,才卖13万

吉利要杀死合资!长超5米2,续航1505km,双叉臂+6座,才卖13万

生活魔术专家
2026-04-08 03:22:06
韩国乒协遭炮轰,高价从中国归化却不用,奥运主力集体出局

韩国乒协遭炮轰,高价从中国归化却不用,奥运主力集体出局

罗纳尔说个球
2026-04-08 10:21:39
美官员称美军已暂停在伊朗境内的袭击

美官员称美军已暂停在伊朗境内的袭击

环球网资讯
2026-04-08 07:53:11
连下死手!普京新仇旧恨一起算,日本油尽灯枯,全国大乱倒计时!

连下死手!普京新仇旧恨一起算,日本油尽灯枯,全国大乱倒计时!

通鉴史智
2026-04-08 10:06:45
英媒:欧洲领空受限,美军飞行员绕道18小时奔袭伊朗,靠药物提神

英媒:欧洲领空受限,美军飞行员绕道18小时奔袭伊朗,靠药物提神

凤凰卫视
2026-04-07 11:50:05
胖东来150份权威报告炸出“硬核公关”!王海测评强势回应!

胖东来150份权威报告炸出“硬核公关”!王海测评强势回应!

品牌新
2026-04-07 13:11:28
重磅!慢特病新规4月1日实施:13种病报销比例高达95%

重磅!慢特病新规4月1日实施:13种病报销比例高达95%

老特有话说
2026-04-07 20:47:38
特朗普是个什么样的人,这篇文章分析得很透彻

特朗普是个什么样的人,这篇文章分析得很透彻

我是健康专家
2026-04-07 08:43:05
太原站首战爆冷!国乒女单0-3输日本,5大世界冠军出战,林诗栋回归

太原站首战爆冷!国乒女单0-3输日本,5大世界冠军出战,林诗栋回归

小徐讲八卦
2026-04-08 05:50:17
25岁上海男子入职第二天就被外派越南,登机前40分钟被拦下,警方提醒

25岁上海男子入职第二天就被外派越南,登机前40分钟被拦下,警方提醒

环球网资讯
2026-04-07 18:27:46
4月8号午评:沪指拉升涨近2%!所有人都注意,大盘后市开始这样看

4月8号午评:沪指拉升涨近2%!所有人都注意,大盘后市开始这样看

春江财富
2026-04-08 11:53:58
春天来了,一件小开衫即可把你我拯救?!

春天来了,一件小开衫即可把你我拯救?!

英国报姐
2026-04-07 10:12:55
伊朗提出战争赔偿,特朗普答应赔2.5万亿美元,但掏钱的不是美国

伊朗提出战争赔偿,特朗普答应赔2.5万亿美元,但掏钱的不是美国

人生录
2026-04-07 17:19:08
2026-04-08 13:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12709文章数 142618关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗代表:感谢中俄 坚定站在历史正确的一边

头条要闻

伊朗代表:感谢中俄 坚定站在历史正确的一边

体育要闻

皇马1.5亿巨星浪费超级单刀 丢球摊手抱怨

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

本地
手机
房产
教育
公开课

本地新闻

跟着歌声游安徽,听古村回响

手机要闻

苹果iPhone Fold折叠屏不会延期 9月如期发布

房产要闻

千亿双国企,定序主城第一大盘!三亚买房逻辑变了!

教育要闻

知识就这样唱进了大脑!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版