科学家发现模型单次处理容量上限，多智能体成破局关键|原理|复杂度

分享至

近日，来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”，借此不仅揭示了单次生成范式的根本性脆弱点，也揭示了“准确率悬崖”这一现象。

“准确率悬崖”现象指的是，当模型任务的信息需求量超过模型的单次输出能力时，模型性能会出现下降且下降趋势并不平稳，而是会像掉下悬崖一样急剧和非线性。

同时，他们将这一理论用于多跳问答任务，借此对其进行了形式化剖析，从而首次揭示了该任务在单次推理范式下失败的两个核心规律：“逐步容量溢出”和“跨步错误累积”。

逐步容量溢出，指的是随着推理跳数和上下文噪音的增加，任务的信息需求会呈现出超线性增长，从而能够轻易地超出模型的处理容量上限。

跨步错误累积，指的是在多步推理链中，由于容量限制带来的微小错误会被不断放大，最终导致整个推理过程走向失败。

（来源：https://arxiv.org/pdf/2509.21199）

基于上述发现，该团队打造出一款名为 InfoQA 的概念验证多轮调用推理框架，它可以通过容量感知的任务分解和主动信息剪枝，解决模型在单次推理上的瓶颈。

为了验证本次成果，他们又构建一个充满噪音的全新基准测试集。实验结果显示，模型的实际表现与预测曲线是高度吻合的，证实了 InfoQA 框架的有效性。

研究团队表示，这一成果为理解当前大模型的瓶颈分析提供了新的容量诊断视角。当处理极端复杂的任务时，传统的模型优化方法比如增加训练数据、调整模型架构等可能会遇到瓶颈，因为这些优化方法只能让模型更加接近、而无法突破自己的容量上限。

而本次成果提供了一个全新的诊断视角：即问题根源可能并不是模型不够“聪明”，而是任务复杂度超过了模型的“单次处理容量”。而这能为多智能体系统的必要性提供坚实的理论依据，使其不再只是一个经验性的选择，而是一个应对容量溢出的根本性解决方案。

另一方面，基于容量诊断的视角，研究团队开辟出了一条更高效的大模型应用优化思路。具体来说：

首先是优化任务范式。对于特定的复杂任务来说，本次理论发现“聪明的任务分解”可能会比“昂贵的模型升级”更具性价比。投入海量资源去微调甚至重新训练一个更大的模型费钱费时，而一个更高效、更快捷的路径则是优化任务本身的工作流，通过合理的分解将任务难度控制在现有模型的有效处理范围之内。

其次是优化多智能体系统设计，让其从同构走向异构。基于本次成果，研究团队设计了更精细同时也更经济的多智能体系统。其认为，既然不同的子任务阶段对应着不同的信息处理需求，那么让所有智能体都使用同一个骨干大模型无疑会造成资源浪费。更好的做法则是设计一个异构型智能体系统，让小巧且高效的模型去处理低复杂度的子任务，仅在高信息需求的关键节点调用最强大的模型。

图 | 相关论文的第一作者万开阳（来源：万开阳）

阐明单一模型的物理极限，为研究多智能体系统提供严谨理论论证

据介绍，本次研究的背景源于对当前大模型能力边界的深入探索，并尤其聚焦于大模型在处理复杂用户指令和长篇文本任务时的表现。这一探索的起点源于该团队此前打造的 CogWriter。CogWriter 是一个由人类认知写作理论启发的多智能体框架，它能显著提升大模型生成复杂指令限制长文本的能力。针对 CogWriter 进行分析和实践时，研究团队观察到三个既普遍又引人深思的现象。

第一个现象是：大模型的能力与参数规模有着强关联性。他们发现，模型的参数量是决定其能否执行复杂认知写作步骤的关键因素。例如，当使用 14B 参数的模型时，CogWriter 能够顺利执行规划、反思和修订等高级认知步骤。然而，当换用同一系列的、但是参数更少的 8B 模型时，模型在执行相同步骤时会产生混乱的计划和无效的修改反馈。这说明模型参数规模与其执行复杂任务的“有效性”之间存在着紧密联系。

第二个现象是：大模型的指令遵循能力会随生成长度呈现出衰减效应。当模型在处理长文本时，其表现出一种类似于“记忆衰退”的特征。在生成任务的初期，无论是简单的单步指令还是复杂的多步指令，模型都能很好地遵循。然而，随着文本长度的增加，模型的指令遵循能力会在某个临界点后急剧下降，以至于“忘记”了最初的目标。这种“遗忘”现象在参数量较小的模型上尤为明显，而更大参数量的模型则能将这种衰减进行推迟。

第三个现象是：多智能体协作会带来性能提升。大量领域内相关成果以及该团队打造的 CogWriter 证明，当将一个复杂任务进行合理分解，并分配给多个专门智能体来进行协同处理，就能在无需额外训练的情况下实现任务性能的质的飞跃。仍以 CogWriter 为例，当使用 Qwen2.5-14B 模型作为骨干时，CogWriter 能将其在复杂指令任务上的平均准确率从 0.44 提至 0.61，这一成绩甚至超越了 GPT-4o 的 0.47 的平均准确率。

这些现象让该团队意识到，虽然他们已经明确知道类似于 CogWriter 等多智能体框架的分解协作模式是有效的，但是他们仍然不清楚背后原因所在：即多智能体协作凭何突破单一模型的瓶颈？这个瓶颈的本质又是什么？

基于以上疑问，他们希望为其在 CogWriter 等多智能体系统实践中观察到的现象进行理论解释，并希望能在多智能体系统的设计中除了进行经验性和启发式的探索之外，能够提供一个物理学式的理论预测视角。“这个视角将能阐明单一模型的物理极限，并能为多智能体系统产生效果的原因提供理论论证。”万开阳告诉 DeepTech。

（来源：https://arxiv.org/pdf/2509.21199）

能否从底层原理上证明单一模型单次生成的瓶颈？

基于业内成果以及实际经验来看，研究团队认为大模型单次生成存在着一种性能上限瓶颈，即使增加数据微调也无法解决这一瓶颈。而在无需训练下的前提之下，多智能体系统则能实现显著的效果提升。进一步地，在打造多智能体系统的时候，智能体对于不同复杂度任务的处理能力存在明显差异。

因此，他们设想的是：能否超越经验性和启发式的研究思路，从底层原理上证明单一模型单次生成的瓶颈？以及多智能体系统该如何突破这个瓶颈？再就是到底是需要更多训练、还是需要通过构建多智能体来突破瓶颈？总的来说，他们想探索的问题是：对于单次生成和多智能体这两者来说，到底谁才是解决复杂自然语言处理（NLP，Natural Language Processing）问题的发展方向？

而本次研究的起点，则来自于一个关于模型“物理边界”的直觉。这个直觉是：大模型在单次生成中，其输出的 token 数量、每个 token 的表示维度，乃至内部注意力与多层感知机（MLP，Multilayer Perceptron）层的矩阵维度都是有限的。这些看似孤立的物理约束共同指向这样一个猜想：在模型的单次推理过程中存在“信息处理的上限”。

（来源：https://arxiv.org/pdf/2509.21199）

为了从第一性原理出发验证这一猜想，研究团队追溯到了信息的最基本单元——比特。既然计算机中一切数字信息的本质都是比特，而大模型的运算与表示也都构建于其上，那么信息论这门研究信息量化、存储和通信的科学便顺理成章地成为了他们最基础的分析工具。

基于此，研究团队将大模型的单次推理过程抽象为一个处理比特流的“通信信道”。正是这一视角的转换，使得他们得以运用信息论的严谨框架，来推导模型作为信道的信息容量上限，以及得以推导与复杂任务所蕴含的信息处理需求之间的数学关系。

为了验证并应用这一理论，他们又将本次研究课题从“复杂指令长文本生成”拓展至“复杂指令长文本理解”，并选择多跳问答任务作为分析对象。多跳问答任务要求模型必须在一长段充满噪音的文本中，通过环环相扣的推理链找到答案，这一特点使其成为测试信息处理上限理论的绝佳场景。通过通信信道这样一个视角，使得他们得以深入剖析多跳问答任务的内在结构，并揭示了多跳问答任务在单次生成范式下失败的原因所在。

随后，他们发现法诺不等式是一个与其课题高度契合的理论工具，它能够连接信息论和机器学习的性能度量，即能够直接将信道中剩余的不确定性与最终的决策错误率挂钩。而这正是研究团队所需要的数学理论基础，这一数学理论基础能从理论上将“信息处理上限”的猜想转化为可以量化的“模型准确率上限”。

基于此，他们推导出了本次研究的核心理论：即推导出了一个针对大模型单遍推理的类法诺准确率上界公式。这个上界公式指出模型的最高准确率会受到两个核心变量的制约：第一个制约是任务本身固有的信息需求量，第二个制约是模型单次生成所能承载的“信息容量”。一旦信息需求量超过模型的单次处理容量，那么从数学角度来看模型就不可能达到 100% 的准确率。

（来源：https://arxiv.org/pdf/2509.21199）

更有趣的是，通过这一理论该团队还预测出一个名为“准确率悬崖”的现象：即前文提到的当任务复杂度超越模型的处理上限时模型性能并不会平滑地下降，相反的它会像坠落悬崖一样发生急剧的断崖式崩溃，这完美地解释了他们所观察到的现象：即为何模型在处理某个临界点之下的任务时游刃有余，而一旦超过这个节点性能就迅速变得不可接受。

打下理论基础之后，他们又将理论与实际问题进行结合，并形式化地定义了多跳问答任务的结构，借此识别出导致其信息需求量爆炸式增长的两个原因。

第一个原因是逐步容量溢出。研究团队发现，随着推理“跳数”的增加，模型需要记忆和处理的中间信息会呈现出超线性增长的规律，以至于非常容易在某一个步骤上压垮模型的单次信息容量。

第二个原因是跨步错误累积。由于推理链的依赖性，即使每一步只有很微小的偏差，这些错误也会在链条中逐级放大，最终导致整个推理过程出现崩溃。

这两个原因共同构成了一个两难的组合困境，使得单次生成范式在根本上难以胜任复杂的多跳任务。找到问题的根源之后，寻找解决方案的方向也变得清晰起来：既然单次生成的瓶颈在理论上无法避免，那么就得超越它。为此，研究团队设计了 InfoQA，这是一个多轮调用（multi-call）的推理框架，他们将其作为一个模拟多智能体系统来证明其推测。

（来源：https://arxiv.org/pdf/2509.21199）

据介绍，InfoQA 的设计哲学源于该团队的理论分析，他们通过以下三个核心机制来解决上述组合困境：

第一个机制是感知容量的任务分解，它能将一个复杂的多跳问题分解成一系列模型单次处理能力之内的单跳子问题，从而确保每一步都不会掉下“准确率悬崖”。

第二个机制依赖于明确的工作流，它将上一步的答案显式地注入到下一步的问题中，从而形成一个清晰和可控的推理链条，进而能够保证推理路径的鲁棒性。

第三个机制是迭代式问题压缩，在每一步之后它都会主动“剪掉”不再需要的推理痕迹和上下文噪音，只将最核心的信息保留下来，以便达成负荷最小的推理过程，从而避免信息负载的持续膨胀。

鉴于已有的基准测试无法精确地控制任务的信息复杂度，因此他们构建了一个充满噪音和干扰项的合成数据集。这个合成数据集为他们带来了一个高度可控的实验环境中，基于此他们证明 InfoQA 框架在各种复杂度和各种长度的上下文之下，性能都能稳定、显著地超越所有单遍推理的基线模型。

而在后续，研究团队计划进行“活字印刷”的新尝试。具体来说，其将通过多目标优化的方法在一个骨干模型中训练多种可被独立调用的“原子能力”，以期能在单一巨型模型和复杂多智能体系统之间找到一个更高效和更经济的平衡点。

研究团队表示，他们希望最终能够打造一个“单一部署、多能协作”的高效模型，预计这一模型不仅功能多样，又能根据任务动态调用能力，从而能够显著降低部署成本和推理成本，这将尤其适合在手机等资源有限的设备上运行。

参考资料：

https://arxiv.org/pdf/2509.21199

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.