网易首页 > 网易号 > 正文 申请入驻

AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈

0
分享至



近年来,基于大语言模型的多智能体系统(LLM-based Multi-Agent Systems, MAS)被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策,从而在算术推理、常识推断与专业问答中提升准确率。

随着 test-time compute(推理时计算)成为常见的能力提升手段,一个自然的问题随之出现:MAS 是否能通过不断增加 agent 数量而持续变强?直觉上,这个设想似乎成立:类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。

来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗余。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。



  • 论文标题:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 论文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代码:https://github.com/SafeRL-Lab/Agent-Scaling

同质扩展的失效:

规模带来的收益迅速饱和

论文首先直接检验「增加 agent 数是否有效」。在同质设置下,所有 agent 共享相同底座模型与系统提示(无 persona 差异,配置一致),采用两类常见协作机制:

  • Vote:单轮独立生成后多数投票;
  • Debate:多轮交互后再给出最终答案(交互 4 轮)。

仅改变 agent 数 N,在 7 个基准任务(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上评估。



结果在不同任务与模型上高度一致:当 N 从 1 增至 2 或 4 时,性能通常明显提升;但继续增加 N 后,准确率迅速进入平台期,边际收益接近 0,部分设置甚至出现回落。这说明:在同质配置下,单纯堆叠更多 agent calls 并不能持续注入新的有效信息。

多样性带来的对照现象:

少量异质 agent 胜过大规模同质系统

与同质扩展的快速饱和形成鲜明对比的是,多样性配置下的实验结果。论文进一步比较了两类系统:一类由同一模型多次独立运行构成,另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算(固定总 agent calls)的前提下,异质系统在同预算下整体更高,并且在更大的 N 上仍能保持增益。





为了更系统地理解这一现象,作者在实验中将多样性拆解为不同来源,包括 persona 多样性、模型多样性,以及二者结合的完全多样性,并在统一设置下进行对比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上,作者系统比较了:

  • Agent 完全一致(L1)
  • Agent Persona 多样性(L2)
  • Base Model 多样性(L3)
  • Persona多样性兼Base Model多样性(L4)

结果显示,每引入一层新的多样性,系统整体性能都会显著上移;其中,模型多样性和 persona 多样性各自都具有独立贡献,而二者结合时效果最为显著。



这一趋势在效率层面体现得尤为明显:在多个任务上,仅使用2 个完全异质的 agent,就可以达到甚至超过16 个同质 agent的平均性能。



限制多智能体扩展的不是规模

而是信息冗余

将这些实验结果串联起来,论文在经验层面得出了一个清晰结论:多智能体系统的扩展瓶颈并不来自 agent 数量不足,而来自 agent 输出之间的高度相关性。在同质配置下,多个 agent 往往沿着相似的推理路径生成答案,新增调用所带来的大多是重复信息;而多样性的作用,在于引入互补视角,降低输出冗余,使系统能够在相同甚至更小的计算预算下获得更多有效证据。





基于这一系列实验现象,作者进一步提出信息论分析框架,引入「有效信息通道」等概念,对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构,不如说它明确指出:多智能体系统里真正稀缺的资源不是调用次数,而是非冗余的信息来源

信息论视角:

性能由「有效信息」而非「调用次数」主导

作者考虑一个包含 N 个大模型智能体的多智能体系统,每个智能体具有自身配置,包括基座模型(backbone model)、系统提示词(system prompt)、角色设定(persona)与工具能力(tool access)。系统接收问题输入 X,按预设工作流执行若干次推理(记为 n 次),最终输出答案。



从信息论角度,得到正确答案 Y 的成功率并不简单由 N 与 n 决定,而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度:在给定问题 X 的情况下,正确答案 Y 仍然存在的剩余不确定性。

  • 同质配置下,即便新增智能体,往往也只是在相似推理路径下重复采样,因而对降低不确定性帮助有限;
  • 异质配置下,新增智能体更可能引入新的推理路径,与既有路径互补,从而更有效地减少不确定性。

为刻画这一差异,作者定义:



在该设定下,作者基于若干建模假设推导出一个近似形式,用于刻画趋势而非精确预测。作者认为,系统可获得的有效信息量(并据此关联成功率)主要受如下量支配:



该结果强调:影响系统性能的关键不在于 “智能体数量或推理次数”,而在于系统中有效信息通道的数量—— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」:当有效信息通道增长受限时,新增调用带来的有效信息增量会快速衰减。

作者还给出了在实践中估计有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证:经验成功率与理论预测总体吻合。



进一步地,作者将系统输出拆分为「正确推理路径」与「错误推理路径」,分别估算其对应的有效信息通道数量。实验一致表明:当正确推理路径对应的有效信息通道更多时,多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身,而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。



总结

论文的核心经验结论是:多智能体扩展的关键不在于把 N 做大,而在于让新增调用带来新的有效证据。只要输出高度相关,同质扩展就会很快进入平台期;而多样性能够提升效率,是因为它更可能产生互补推理路径。换句话说,多智能体系统里稀缺的不是调用次数,而是非冗余信息。

实践上可以用一个简单标准指导扩展:当增加 agent 主要带来「同一思路的重复」 时,应停止堆同质数量,转而引入可控的异质性(方法互补的 persona、不同模型家族、工具能力互补);只有当这些改动确实带来额外增益时,再继续扩大规模。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
带模特老婆养鸡18年,满脸皱纹认不出,如今搭档谭松韵终于火了

带模特老婆养鸡18年,满脸皱纹认不出,如今搭档谭松韵终于火了

揽星河的笔记
2026-03-12 12:10:40
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
民主党85%概率获胜!特朗普用一场战争,把共和党的优势全打没了

民主党85%概率获胜!特朗普用一场战争,把共和党的优势全打没了

黑鹰观军事
2026-03-26 00:31:22
白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

书纪文谭
2026-03-26 16:28:13
国际油价涨幅扩大 布伦特原油期货站上105美元/桶

国际油价涨幅扩大 布伦特原油期货站上105美元/桶

每日经济新闻
2026-03-26 15:11:37
探索性爱的真实面貌:超越“插入”的界限

探索性爱的真实面貌:超越“插入”的界限

精彩分享快乐
2026-03-25 07:00:03
难怪咸丰帝31岁去世,你看他逃往热河干了啥?每天都做4件致命事

难怪咸丰帝31岁去世,你看他逃往热河干了啥?每天都做4件致命事

铭记历史呀
2026-03-21 17:44:21
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
福建该县住房和城乡建设局副局长涉嫌严重违纪违法,主动投案

福建该县住房和城乡建设局副局长涉嫌严重违纪违法,主动投案

大闽门户
2026-03-26 20:10:19
艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

金山话体育
2026-03-26 22:21:04
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
倒计时36天,黄金将爆发抛售潮?中国开始行动,邻国限制金条出口

倒计时36天,黄金将爆发抛售潮?中国开始行动,邻国限制金条出口

触摸史迹
2026-03-26 16:29:23
两会结束不到半月,3大喜讯已经传来!全是老百姓能拿到手的实惠

两会结束不到半月,3大喜讯已经传来!全是老百姓能拿到手的实惠

今朝牛马
2026-03-26 20:33:20
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
2026-03-26 23:12:51
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
亲子
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

亲子要闻

你好,我是馒头,快开门!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版