网易首页 > 网易号 > 正文 申请入驻

AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈

0
分享至



近年来,基于大语言模型的多智能体系统(LLM-based Multi-Agent Systems, MAS)被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策,从而在算术推理、常识推断与专业问答中提升准确率。

随着 test-time compute(推理时计算)成为常见的能力提升手段,一个自然的问题随之出现:MAS 是否能通过不断增加 agent 数量而持续变强?直觉上,这个设想似乎成立:类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。

来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗余。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。



  • 论文标题:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 论文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代码:https://github.com/SafeRL-Lab/Agent-Scaling

同质扩展的失效:

规模带来的收益迅速饱和

论文首先直接检验「增加 agent 数是否有效」。在同质设置下,所有 agent 共享相同底座模型与系统提示(无 persona 差异,配置一致),采用两类常见协作机制:

  • Vote:单轮独立生成后多数投票;
  • Debate:多轮交互后再给出最终答案(交互 4 轮)。

仅改变 agent 数 N,在 7 个基准任务(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上评估。



结果在不同任务与模型上高度一致:当 N 从 1 增至 2 或 4 时,性能通常明显提升;但继续增加 N 后,准确率迅速进入平台期,边际收益接近 0,部分设置甚至出现回落。这说明:在同质配置下,单纯堆叠更多 agent calls 并不能持续注入新的有效信息。

多样性带来的对照现象:

少量异质 agent 胜过大规模同质系统

与同质扩展的快速饱和形成鲜明对比的是,多样性配置下的实验结果。论文进一步比较了两类系统:一类由同一模型多次独立运行构成,另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算(固定总 agent calls)的前提下,异质系统在同预算下整体更高,并且在更大的 N 上仍能保持增益。





为了更系统地理解这一现象,作者在实验中将多样性拆解为不同来源,包括 persona 多样性、模型多样性,以及二者结合的完全多样性,并在统一设置下进行对比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上,作者系统比较了:

  • Agent 完全一致(L1)
  • Agent Persona 多样性(L2)
  • Base Model 多样性(L3)
  • Persona多样性兼Base Model多样性(L4)

结果显示,每引入一层新的多样性,系统整体性能都会显著上移;其中,模型多样性和 persona 多样性各自都具有独立贡献,而二者结合时效果最为显著。



这一趋势在效率层面体现得尤为明显:在多个任务上,仅使用2 个完全异质的 agent,就可以达到甚至超过16 个同质 agent的平均性能。



限制多智能体扩展的不是规模

而是信息冗余

将这些实验结果串联起来,论文在经验层面得出了一个清晰结论:多智能体系统的扩展瓶颈并不来自 agent 数量不足,而来自 agent 输出之间的高度相关性。在同质配置下,多个 agent 往往沿着相似的推理路径生成答案,新增调用所带来的大多是重复信息;而多样性的作用,在于引入互补视角,降低输出冗余,使系统能够在相同甚至更小的计算预算下获得更多有效证据。





基于这一系列实验现象,作者进一步提出信息论分析框架,引入「有效信息通道」等概念,对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构,不如说它明确指出:多智能体系统里真正稀缺的资源不是调用次数,而是非冗余的信息来源

信息论视角:

性能由「有效信息」而非「调用次数」主导

作者考虑一个包含 N 个大模型智能体的多智能体系统,每个智能体具有自身配置,包括基座模型(backbone model)、系统提示词(system prompt)、角色设定(persona)与工具能力(tool access)。系统接收问题输入 X,按预设工作流执行若干次推理(记为 n 次),最终输出答案。



从信息论角度,得到正确答案 Y 的成功率并不简单由 N 与 n 决定,而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度:在给定问题 X 的情况下,正确答案 Y 仍然存在的剩余不确定性。

  • 同质配置下,即便新增智能体,往往也只是在相似推理路径下重复采样,因而对降低不确定性帮助有限;
  • 异质配置下,新增智能体更可能引入新的推理路径,与既有路径互补,从而更有效地减少不确定性。

为刻画这一差异,作者定义:



在该设定下,作者基于若干建模假设推导出一个近似形式,用于刻画趋势而非精确预测。作者认为,系统可获得的有效信息量(并据此关联成功率)主要受如下量支配:



该结果强调:影响系统性能的关键不在于 “智能体数量或推理次数”,而在于系统中有效信息通道的数量—— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」:当有效信息通道增长受限时,新增调用带来的有效信息增量会快速衰减。

作者还给出了在实践中估计有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证:经验成功率与理论预测总体吻合。



进一步地,作者将系统输出拆分为「正确推理路径」与「错误推理路径」,分别估算其对应的有效信息通道数量。实验一致表明:当正确推理路径对应的有效信息通道更多时,多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身,而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。



总结

论文的核心经验结论是:多智能体扩展的关键不在于把 N 做大,而在于让新增调用带来新的有效证据。只要输出高度相关,同质扩展就会很快进入平台期;而多样性能够提升效率,是因为它更可能产生互补推理路径。换句话说,多智能体系统里稀缺的不是调用次数,而是非冗余信息。

实践上可以用一个简单标准指导扩展:当增加 agent 主要带来「同一思路的重复」 时,应停止堆同质数量,转而引入可控的异质性(方法互补的 persona、不同模型家族、工具能力互补);只有当这些改动确实带来额外增益时,再继续扩大规模。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

红星新闻
2026-06-03 13:18:18
苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

三湘都市报
2026-06-03 13:19:08
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
*ST闻泰演绎“天地板”走势

*ST闻泰演绎“天地板”走势

证券时报
2026-06-03 10:26:40
血压飙升!上海父亲晒聊天记录,“巨婴”儿子强行索要2万旅游费

血压飙升!上海父亲晒聊天记录,“巨婴”儿子强行索要2万旅游费

火山詩话
2026-06-02 14:27:07
Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现

Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现

机器之心Pro
2026-06-02 11:23:14
一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

背包旅行
2026-06-03 14:55:25
男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

汉史趣闻
2026-06-03 10:50:35
不靠数据,靠本能:9位清华博士用「具身本能」跑通工业产线

不靠数据,靠本能:9位清华博士用「具身本能」跑通工业产线

机器之心Pro
2026-06-02 10:11:03
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
演员黄宗泽透露不结婚的原因:一出生父母就已经离婚了,自己没有家庭的画面,对我来说有家庭不是圆满

演员黄宗泽透露不结婚的原因:一出生父母就已经离婚了,自己没有家庭的画面,对我来说有家庭不是圆满

台州交通广播
2026-06-02 22:45:47
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
交通运输部原总工程师徐亚华被查

交通运输部原总工程师徐亚华被查

新京报
2026-06-03 15:21:11
Shams:库里与李宁10年合同总价超4亿美元,他曾拒绝更丰厚报价

Shams:库里与李宁10年合同总价超4亿美元,他曾拒绝更丰厚报价

懂球帝
2026-06-03 09:53:28
涉嫌严重违纪违法,谢文辉被查

涉嫌严重违纪违法,谢文辉被查

都市快报橙柿互动
2026-06-02 18:36:19
“King Sir”钟景辉,今早睡梦中去世

“King Sir”钟景辉,今早睡梦中去世

南方都市报
2026-06-03 16:06:22
黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

今纶财经
2026-06-02 19:38:24
不到24小时,美国接连迎来三大坏消息,内部实情已被曝光

不到24小时,美国接连迎来三大坏消息,内部实情已被曝光

策前论
2026-06-03 14:52:30
“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

深圳梦
2026-06-02 20:54:51
女子独游罗马,惨遭5人囚禁、轮奸3天

女子独游罗马,惨遭5人囚禁、轮奸3天

侠客栈
2026-06-01 13:33:10
2026-06-03 17:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

数码
手机
艺术
家居
房产

数码要闻

告别充电线 闪极直插口充电宝上市 一机搞定苹果安卓

手机要闻

荣耀确认Robot Phone手机初代抗跌落已经是旗舰水平

艺术要闻

二十年前割麦的场景

家居要闻

江畔轻奢 观云大宅

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

无障碍浏览 进入关怀版