AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈|信息论|大模型|agent|ai智能体|scaling

AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈

2026-02-27 14:45:03　来源: 机器之心Pro

河北举报

分享至

近年来，基于大语言模型的多智能体系统（LLM-based Multi-Agent Systems, MAS）被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策，从而在算术推理、常识推断与专业问答中提升准确率。

随着 test-time compute（推理时计算）成为常见的能力提升手段，一个自然的问题随之出现：MAS 是否能通过不断增加 agent 数量而持续变强？直觉上，这个设想似乎成立：类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。

来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明：多智能体系统「扩不动」的真正原因，并不是 Agent 不够多，而是信息冗余。系统实验发现，单纯堆规模收益迅速枯竭，而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。

论文标题：Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
论文地址：https://arxiv.org/pdf/2602.03794
GitHub 代码：https://github.com/SafeRL-Lab/Agent-Scaling

同质扩展的失效：

规模带来的收益迅速饱和

论文首先直接检验「增加 agent 数是否有效」。在同质设置下，所有 agent 共享相同底座模型与系统提示（无 persona 差异，配置一致），采用两类常见协作机制：

Vote：单轮独立生成后多数投票；
Debate：多轮交互后再给出最终答案（交互 4 轮）。

仅改变 agent 数 N，在 7 个基准任务（GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine）上评估。

结果在不同任务与模型上高度一致：当 N 从 1 增至 2 或 4 时，性能通常明显提升；但继续增加 N 后，准确率迅速进入平台期，边际收益接近 0，部分设置甚至出现回落。这说明：在同质配置下，单纯堆叠更多 agent calls 并不能持续注入新的有效信息。

多样性带来的对照现象：

少量异质 agent 胜过大规模同质系统

与同质扩展的快速饱和形成鲜明对比的是，多样性配置下的实验结果。论文进一步比较了两类系统：一类由同一模型多次独立运行构成，另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算（固定总 agent calls）的前提下，异质系统在同预算下整体更高，并且在更大的 N 上仍能保持增益。

为了更系统地理解这一现象，作者在实验中将多样性拆解为不同来源，包括 persona 多样性、模型多样性，以及二者结合的完全多样性，并在统一设置下进行对比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上，作者系统比较了：

Agent 完全一致（L1）
Agent Persona 多样性（L2）
Base Model 多样性（L3）
Persona多样性兼Base Model多样性(L4)

结果显示，每引入一层新的多样性，系统整体性能都会显著上移；其中，模型多样性和 persona 多样性各自都具有独立贡献，而二者结合时效果最为显著。

这一趋势在效率层面体现得尤为明显：在多个任务上，仅使用2 个完全异质的 agent，就可以达到甚至超过16 个同质 agent的平均性能。

限制多智能体扩展的不是规模

而是信息冗余

将这些实验结果串联起来，论文在经验层面得出了一个清晰结论：多智能体系统的扩展瓶颈并不来自 agent 数量不足，而来自 agent 输出之间的高度相关性。在同质配置下，多个 agent 往往沿着相似的推理路径生成答案，新增调用所带来的大多是重复信息；而多样性的作用，在于引入互补视角，降低输出冗余，使系统能够在相同甚至更小的计算预算下获得更多有效证据。

基于这一系列实验现象，作者进一步提出信息论分析框架，引入「有效信息通道」等概念，对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构，不如说它明确指出：多智能体系统里真正稀缺的资源不是调用次数，而是非冗余的信息来源

信息论视角：

性能由「有效信息」而非「调用次数」主导

作者考虑一个包含 N 个大模型智能体的多智能体系统，每个智能体具有自身配置，包括基座模型（backbone model）、系统提示词（system prompt）、角色设定（persona）与工具能力（tool access）。系统接收问题输入 X，按预设工作流执行若干次推理（记为 n 次），最终输出答案。

从信息论角度，得到正确答案 Y 的成功率并不简单由 N 与 n 决定，而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度：在给定问题 X 的情况下，正确答案 Y 仍然存在的剩余不确定性。

同质配置下，即便新增智能体，往往也只是在相似推理路径下重复采样，因而对降低不确定性帮助有限；
异质配置下，新增智能体更可能引入新的推理路径，与既有路径互补，从而更有效地减少不确定性。

为刻画这一差异，作者定义：

在该设定下，作者基于若干建模假设推导出一个近似形式，用于刻画趋势而非精确预测。作者认为，系统可获得的有效信息量（并据此关联成功率）主要受如下量支配：

该结果强调：影响系统性能的关键不在于 “智能体数量或推理次数”，而在于系统中有效信息通道的数量—— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」：当有效信息通道增长受限时，新增调用带来的有效信息增量会快速衰减。

作者还给出了在实践中估计有效信息通道 K 的方法，并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证：经验成功率与理论预测总体吻合。

进一步地，作者将系统输出拆分为「正确推理路径」与「错误推理路径」，分别估算其对应的有效信息通道数量。实验一致表明：当正确推理路径对应的有效信息通道更多时，多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身，而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。

总结

论文的核心经验结论是：多智能体扩展的关键不在于把 N 做大，而在于让新增调用带来新的有效证据。只要输出高度相关，同质扩展就会很快进入平台期；而多样性能够提升效率，是因为它更可能产生互补推理路径。换句话说，多智能体系统里稀缺的不是调用次数，而是非冗余信息。

实践上可以用一个简单标准指导扩展：当增加 agent 主要带来「同一思路的重复」时，应停止堆同质数量，转而引入可控的异质性（方法互补的 persona、不同模型家族、工具能力互补）；只有当这些改动确实带来额外增益时，再继续扩大规模。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.