网易首页 > 网易号 > 正文 申请入驻

AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈

0
分享至



近年来,基于大语言模型的多智能体系统(LLM-based Multi-Agent Systems, MAS)被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策,从而在算术推理、常识推断与专业问答中提升准确率。

随着 test-time compute(推理时计算)成为常见的能力提升手段,一个自然的问题随之出现:MAS 是否能通过不断增加 agent 数量而持续变强?直觉上,这个设想似乎成立:类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。

来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗余。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。



  • 论文标题:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 论文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代码:https://github.com/SafeRL-Lab/Agent-Scaling

同质扩展的失效:

规模带来的收益迅速饱和

论文首先直接检验「增加 agent 数是否有效」。在同质设置下,所有 agent 共享相同底座模型与系统提示(无 persona 差异,配置一致),采用两类常见协作机制:

  • Vote:单轮独立生成后多数投票;
  • Debate:多轮交互后再给出最终答案(交互 4 轮)。

仅改变 agent 数 N,在 7 个基准任务(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上评估。



结果在不同任务与模型上高度一致:当 N 从 1 增至 2 或 4 时,性能通常明显提升;但继续增加 N 后,准确率迅速进入平台期,边际收益接近 0,部分设置甚至出现回落。这说明:在同质配置下,单纯堆叠更多 agent calls 并不能持续注入新的有效信息。

多样性带来的对照现象:

少量异质 agent 胜过大规模同质系统

与同质扩展的快速饱和形成鲜明对比的是,多样性配置下的实验结果。论文进一步比较了两类系统:一类由同一模型多次独立运行构成,另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算(固定总 agent calls)的前提下,异质系统在同预算下整体更高,并且在更大的 N 上仍能保持增益。





为了更系统地理解这一现象,作者在实验中将多样性拆解为不同来源,包括 persona 多样性、模型多样性,以及二者结合的完全多样性,并在统一设置下进行对比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上,作者系统比较了:

  • Agent 完全一致(L1)
  • Agent Persona 多样性(L2)
  • Base Model 多样性(L3)
  • Persona多样性兼Base Model多样性(L4)

结果显示,每引入一层新的多样性,系统整体性能都会显著上移;其中,模型多样性和 persona 多样性各自都具有独立贡献,而二者结合时效果最为显著。



这一趋势在效率层面体现得尤为明显:在多个任务上,仅使用2 个完全异质的 agent,就可以达到甚至超过16 个同质 agent的平均性能。



限制多智能体扩展的不是规模

而是信息冗余

将这些实验结果串联起来,论文在经验层面得出了一个清晰结论:多智能体系统的扩展瓶颈并不来自 agent 数量不足,而来自 agent 输出之间的高度相关性。在同质配置下,多个 agent 往往沿着相似的推理路径生成答案,新增调用所带来的大多是重复信息;而多样性的作用,在于引入互补视角,降低输出冗余,使系统能够在相同甚至更小的计算预算下获得更多有效证据。





基于这一系列实验现象,作者进一步提出信息论分析框架,引入「有效信息通道」等概念,对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构,不如说它明确指出:多智能体系统里真正稀缺的资源不是调用次数,而是非冗余的信息来源

信息论视角:

性能由「有效信息」而非「调用次数」主导

作者考虑一个包含 N 个大模型智能体的多智能体系统,每个智能体具有自身配置,包括基座模型(backbone model)、系统提示词(system prompt)、角色设定(persona)与工具能力(tool access)。系统接收问题输入 X,按预设工作流执行若干次推理(记为 n 次),最终输出答案。



从信息论角度,得到正确答案 Y 的成功率并不简单由 N 与 n 决定,而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度:在给定问题 X 的情况下,正确答案 Y 仍然存在的剩余不确定性。

  • 同质配置下,即便新增智能体,往往也只是在相似推理路径下重复采样,因而对降低不确定性帮助有限;
  • 异质配置下,新增智能体更可能引入新的推理路径,与既有路径互补,从而更有效地减少不确定性。

为刻画这一差异,作者定义:



在该设定下,作者基于若干建模假设推导出一个近似形式,用于刻画趋势而非精确预测。作者认为,系统可获得的有效信息量(并据此关联成功率)主要受如下量支配:



该结果强调:影响系统性能的关键不在于 “智能体数量或推理次数”,而在于系统中有效信息通道的数量—— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」:当有效信息通道增长受限时,新增调用带来的有效信息增量会快速衰减。

作者还给出了在实践中估计有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证:经验成功率与理论预测总体吻合。



进一步地,作者将系统输出拆分为「正确推理路径」与「错误推理路径」,分别估算其对应的有效信息通道数量。实验一致表明:当正确推理路径对应的有效信息通道更多时,多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身,而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。



总结

论文的核心经验结论是:多智能体扩展的关键不在于把 N 做大,而在于让新增调用带来新的有效证据。只要输出高度相关,同质扩展就会很快进入平台期;而多样性能够提升效率,是因为它更可能产生互补推理路径。换句话说,多智能体系统里稀缺的不是调用次数,而是非冗余信息。

实践上可以用一个简单标准指导扩展:当增加 agent 主要带来「同一思路的重复」 时,应停止堆同质数量,转而引入可控的异质性(方法互补的 persona、不同模型家族、工具能力互补);只有当这些改动确实带来额外增益时,再继续扩大规模。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还是做好准备吧,一美元只能兑换5.5元人民币时代,或许终会到来

还是做好准备吧,一美元只能兑换5.5元人民币时代,或许终会到来

阅识
2026-01-31 15:32:50
强夺香港巴拿马港口起重机、车辆、计算机系统及软件 巴直接下手了

强夺香港巴拿马港口起重机、车辆、计算机系统及软件 巴直接下手了

健身狂人
2026-02-27 16:51:13
春节刚结束,蝴蝶兰就被遗弃了,花坛里到处是,捡回家慢慢养

春节刚结束,蝴蝶兰就被遗弃了,花坛里到处是,捡回家慢慢养

向阳生活家
2026-02-26 23:56:24
万达20亿元转让上海颛桥万达广场!已累计出售超80座万达广场

万达20亿元转让上海颛桥万达广场!已累计出售超80座万达广场

上观新闻
2026-02-27 14:39:15
为啥谷爱凌的神秘父亲总被传是谷歌5号员工,有人心思毒硬贴金

为啥谷爱凌的神秘父亲总被传是谷歌5号员工,有人心思毒硬贴金

安宁007
2026-02-25 13:36:55
梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

离离言几许
2026-02-26 16:19:11
中国高血压发病率世界第一!医生:罪魁祸首已揪出, 这4物最好少吃

中国高血压发病率世界第一!医生:罪魁祸首已揪出, 这4物最好少吃

荷兰豆爱健康
2026-02-27 20:02:35
谢楠奶奶103岁生日!吴京暖心发文,夫妻俩跪地祝寿,沾沾百岁福

谢楠奶奶103岁生日!吴京暖心发文,夫妻俩跪地祝寿,沾沾百岁福

动物奇奇怪怪
2026-02-27 02:36:52
女子在上海捡到一张合影,上网急寻失主:害怕是失主珍贵的东西…

女子在上海捡到一张合影,上网急寻失主:害怕是失主珍贵的东西…

上海圈
2026-02-26 18:20:12
美国防部拟追加预算应对中国,外交部:以中国为借口强化亚太部署

美国防部拟追加预算应对中国,外交部:以中国为借口强化亚太部署

澎湃新闻
2026-02-27 15:36:33
华为ADS 5.0 确定于4月发布,助力城区L4与高速L3商用新纪元

华为ADS 5.0 确定于4月发布,助力城区L4与高速L3商用新纪元

西莫的艺术宫殿
2026-02-27 20:02:40
硅谷养老梦碎!OpenAI深夜突发:不接受996的就走,AGI不养闲人

硅谷养老梦碎!OpenAI深夜突发:不接受996的就走,AGI不养闲人

新智元
2026-02-25 09:23:15
2-1,38岁梅西遭抱摔+替补登场一剑封喉,率队终结2场比赛不胜

2-1,38岁梅西遭抱摔+替补登场一剑封喉,率队终结2场比赛不胜

侧身凌空斩
2026-02-27 10:56:26
许家印侄子豪宅拍卖,被苏老板5016万元拍下!房产总面积317平方米,配有5个洗手间

许家印侄子豪宅拍卖,被苏老板5016万元拍下!房产总面积317平方米,配有5个洗手间

每日经济新闻
2026-02-26 22:00:09
杨植麟暂时挺过风暴

杨植麟暂时挺过风暴

虎嗅APP
2026-02-27 17:11:06
日本乒乓女神隐退大陆,出轨传闻撕破笑脸,儿子监护权归属成谜

日本乒乓女神隐退大陆,出轨传闻撕破笑脸,儿子监护权归属成谜

科学发掘
2026-02-27 03:59:09
连收四大噩耗,特朗普对中俄态度大变;关税战,全世界都在看中国

连收四大噩耗,特朗普对中俄态度大变;关税战,全世界都在看中国

触摸史迹
2026-02-27 20:05:05
1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

帝哥说史
2026-02-25 06:30:03
南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

江山挥笔
2026-02-27 11:19:49
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
2026-02-27 21:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142571关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

夜间气温达零下30℃ 乌总统:乌面临几十年来最难冬天

头条要闻

夜间气温达零下30℃ 乌总统:乌面临几十年来最难冬天

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

教育
房产
手机
旅游
时尚

教育要闻

面对老师不合理的要求,请宝妈们教孩子向这个七岁女孩学习!

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

手机要闻

荣耀Magic V6:本季度最大电池大折叠手机来袭!

旅游要闻

赏花灯、玩非遗、逛市集崇明特色元宵活动邀您来打卡

冬季穿搭要避开臃肿感!配色不老气、穿衣不随意,越看越高级

无障碍浏览 进入关怀版