网易首页 > 网易号 > 正文 申请入驻

AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈

0
分享至



近年来,基于大语言模型的多智能体系统(LLM-based Multi-Agent Systems, MAS)被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策,从而在算术推理、常识推断与专业问答中提升准确率。

随着 test-time compute(推理时计算)成为常见的能力提升手段,一个自然的问题随之出现:MAS 是否能通过不断增加 agent 数量而持续变强?直觉上,这个设想似乎成立:类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。

来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗余。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。



  • 论文标题:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 论文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代码:https://github.com/SafeRL-Lab/Agent-Scaling

同质扩展的失效:

规模带来的收益迅速饱和

论文首先直接检验「增加 agent 数是否有效」。在同质设置下,所有 agent 共享相同底座模型与系统提示(无 persona 差异,配置一致),采用两类常见协作机制:

  • Vote:单轮独立生成后多数投票;
  • Debate:多轮交互后再给出最终答案(交互 4 轮)。

仅改变 agent 数 N,在 7 个基准任务(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上评估。



结果在不同任务与模型上高度一致:当 N 从 1 增至 2 或 4 时,性能通常明显提升;但继续增加 N 后,准确率迅速进入平台期,边际收益接近 0,部分设置甚至出现回落。这说明:在同质配置下,单纯堆叠更多 agent calls 并不能持续注入新的有效信息。

多样性带来的对照现象:

少量异质 agent 胜过大规模同质系统

与同质扩展的快速饱和形成鲜明对比的是,多样性配置下的实验结果。论文进一步比较了两类系统:一类由同一模型多次独立运行构成,另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算(固定总 agent calls)的前提下,异质系统在同预算下整体更高,并且在更大的 N 上仍能保持增益。





为了更系统地理解这一现象,作者在实验中将多样性拆解为不同来源,包括 persona 多样性、模型多样性,以及二者结合的完全多样性,并在统一设置下进行对比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上,作者系统比较了:

  • Agent 完全一致(L1)
  • Agent Persona 多样性(L2)
  • Base Model 多样性(L3)
  • Persona多样性兼Base Model多样性(L4)

结果显示,每引入一层新的多样性,系统整体性能都会显著上移;其中,模型多样性和 persona 多样性各自都具有独立贡献,而二者结合时效果最为显著。



这一趋势在效率层面体现得尤为明显:在多个任务上,仅使用2 个完全异质的 agent,就可以达到甚至超过16 个同质 agent的平均性能。



限制多智能体扩展的不是规模

而是信息冗余

将这些实验结果串联起来,论文在经验层面得出了一个清晰结论:多智能体系统的扩展瓶颈并不来自 agent 数量不足,而来自 agent 输出之间的高度相关性。在同质配置下,多个 agent 往往沿着相似的推理路径生成答案,新增调用所带来的大多是重复信息;而多样性的作用,在于引入互补视角,降低输出冗余,使系统能够在相同甚至更小的计算预算下获得更多有效证据。





基于这一系列实验现象,作者进一步提出信息论分析框架,引入「有效信息通道」等概念,对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构,不如说它明确指出:多智能体系统里真正稀缺的资源不是调用次数,而是非冗余的信息来源

信息论视角:

性能由「有效信息」而非「调用次数」主导

作者考虑一个包含 N 个大模型智能体的多智能体系统,每个智能体具有自身配置,包括基座模型(backbone model)、系统提示词(system prompt)、角色设定(persona)与工具能力(tool access)。系统接收问题输入 X,按预设工作流执行若干次推理(记为 n 次),最终输出答案。



从信息论角度,得到正确答案 Y 的成功率并不简单由 N 与 n 决定,而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度:在给定问题 X 的情况下,正确答案 Y 仍然存在的剩余不确定性。

  • 同质配置下,即便新增智能体,往往也只是在相似推理路径下重复采样,因而对降低不确定性帮助有限;
  • 异质配置下,新增智能体更可能引入新的推理路径,与既有路径互补,从而更有效地减少不确定性。

为刻画这一差异,作者定义:



在该设定下,作者基于若干建模假设推导出一个近似形式,用于刻画趋势而非精确预测。作者认为,系统可获得的有效信息量(并据此关联成功率)主要受如下量支配:



该结果强调:影响系统性能的关键不在于 “智能体数量或推理次数”,而在于系统中有效信息通道的数量—— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」:当有效信息通道增长受限时,新增调用带来的有效信息增量会快速衰减。

作者还给出了在实践中估计有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证:经验成功率与理论预测总体吻合。



进一步地,作者将系统输出拆分为「正确推理路径」与「错误推理路径」,分别估算其对应的有效信息通道数量。实验一致表明:当正确推理路径对应的有效信息通道更多时,多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身,而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。



总结

论文的核心经验结论是:多智能体扩展的关键不在于把 N 做大,而在于让新增调用带来新的有效证据。只要输出高度相关,同质扩展就会很快进入平台期;而多样性能够提升效率,是因为它更可能产生互补推理路径。换句话说,多智能体系统里稀缺的不是调用次数,而是非冗余信息。

实践上可以用一个简单标准指导扩展:当增加 agent 主要带来「同一思路的重复」 时,应停止堆同质数量,转而引入可控的异质性(方法互补的 persona、不同模型家族、工具能力互补);只有当这些改动确实带来额外增益时,再继续扩大规模。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生为秀恩爱,偷偷在男友博士论文里编造了第 52 条参考文献,网友:博士男友秒变硕士前男友

女生为秀恩爱,偷偷在男友博士论文里编造了第 52 条参考文献,网友:博士男友秒变硕士前男友

生物学霸
2026-06-02 17:13:59
2亿和解费?她是遇上杀猪盘了吧!

2亿和解费?她是遇上杀猪盘了吧!

BenSir本色说
2026-05-31 22:05:15
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

懂球帝
2026-06-02 20:28:06
“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

妍妍教育日记
2026-06-01 20:02:17
又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

健康科普365
2026-06-01 21:55:03
韩国“鸟叔”已被移交检察机关

韩国“鸟叔”已被移交检察机关

都市快报橙柿互动
2026-06-02 12:04:32
为什么家里不要随便装监控?很多人都不知道内情,看完涨知识了

为什么家里不要随便装监控?很多人都不知道内情,看完涨知识了

小俊分享
2026-06-02 12:07:15
吉尔金预测乌军可能在6月渡河反攻赫尔松

吉尔金预测乌军可能在6月渡河反攻赫尔松

名人苟或
2026-06-02 15:08:37
52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

侧身凌空斩
2026-06-02 11:09:47
闹大了!中方驱逐美记者后,不到24小时美回击,吊销新华记者许可

闹大了!中方驱逐美记者后,不到24小时美回击,吊销新华记者许可

小陆搞笑日常
2026-06-02 19:51:48
乌克兰首都基辅等地遇袭 已致100多人伤亡

乌克兰首都基辅等地遇袭 已致100多人伤亡

中国网
2026-06-02 16:56:32
为什么好莱坞非常尊重成龙,却看不起李连杰?

为什么好莱坞非常尊重成龙,却看不起李连杰?

闲人电影
2026-06-02 17:00:20
《歌手2026》公布首波助演嘉宾名单:阿云嘎、Jony J、海来阿木

《歌手2026》公布首波助演嘉宾名单:阿云嘎、Jony J、海来阿木

喜欢历史的阿繁
2026-06-02 20:52:23
浙江爸爸带1岁儿子去菜场买菜,惨案发生!儿子逗玩店铺笼中兔子,食指几乎被咬断……法院判决:监护人担主责

浙江爸爸带1岁儿子去菜场买菜,惨案发生!儿子逗玩店铺笼中兔子,食指几乎被咬断……法院判决:监护人担主责

环球网资讯
2026-06-02 18:05:18
有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

装修秀
2026-04-23 11:15:03
看球赛的美女,身材真好

看球赛的美女,身材真好

蓝色海洋009
2026-05-25 20:36:25
东北华北等地有强对流 南方地区将有较强降水

东北华北等地有强对流 南方地区将有较强降水

中国气象局
2026-06-02 08:08:07
中国股市唯一赚钱最快思路:持有一只股,保留30%仓位,长期做T!

中国股市唯一赚钱最快思路:持有一只股,保留30%仓位,长期做T!

股经纵横谈
2026-05-15 19:18:34
NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

夜白侃球
2026-06-02 12:58:38
2026-06-03 00:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
教育
手机
房产
公开课

艺术要闻

周杰伦花 1.36 亿拍下这幅画

教育要闻

“你知道几号高考吗?”18岁纹身女孩的生日美照,诠释了物以类聚

手机要闻

华为nova16系列线下体验:不吐不快,说说真实感受!

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版