网易首页 > 网易号 > 正文 申请入驻

科学家发现模型单次处理容量上限,多智能体成破局关键

0
分享至

近日,来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”,借此不仅揭示了单次生成范式的根本性脆弱点,也揭示了“准确率悬崖”这一现象。

“准确率悬崖”现象指的是,当模型任务的信息需求量超过模型的单次输出能力时,模型性能会出现下降且下降趋势并不平稳,而是会像掉下悬崖一样急剧和非线性。

同时,他们将这一理论用于多跳问答任务,借此对其进行了形式化剖析,从而首次揭示了该任务在单次推理范式下失败的两个核心规律:“逐步容量溢出”和“跨步错误累积”。

逐步容量溢出,指的是随着推理跳数和上下文噪音的增加,任务的信息需求会呈现出超线性增长,从而能够轻易地超出模型的处理容量上限。

跨步错误累积,指的是在多步推理链中,由于容量限制带来的微小错误会被不断放大,最终导致整个推理过程走向失败。


(来源:https://arxiv.org/pdf/2509.21199)

基于上述发现,该团队打造出一款名为 InfoQA 的概念验证多轮调用推理框架,它可以通过容量感知的任务分解和主动信息剪枝,解决模型在单次推理上的瓶颈。

为了验证本次成果,他们又构建一个充满噪音的全新基准测试集。实验结果显示,模型的实际表现与预测曲线是高度吻合的,证实了 InfoQA 框架的有效性。

研究团队表示,这一成果为理解当前大模型的瓶颈分析提供了新的容量诊断视角。当处理极端复杂的任务时,传统的模型优化方法比如增加训练数据、调整模型架构等可能会遇到瓶颈,因为这些优化方法只能让模型更加接近、而无法突破自己的容量上限。

而本次成果提供了一个全新的诊断视角:即问题根源可能并不是模型不够“聪明”,而是任务复杂度超过了模型的“单次处理容量”。而这能为多智能体系统的必要性提供坚实的理论依据,使其不再只是一个经验性的选择,而是一个应对容量溢出的根本性解决方案。

另一方面,基于容量诊断的视角,研究团队开辟出了一条更高效的大模型应用优化思路。具体来说:

首先是优化任务范式。对于特定的复杂任务来说,本次理论发现“聪明的任务分解”可能会比“昂贵的模型升级”更具性价比。投入海量资源去微调甚至重新训练一个更大的模型费钱费时,而一个更高效、更快捷的路径则是优化任务本身的工作流,通过合理的分解将任务难度控制在现有模型的有效处理范围之内。

其次是优化多智能体系统设计,让其从同构走向异构。基于本次成果,研究团队设计了更精细同时也更经济的多智能体系统。其认为,既然不同的子任务阶段对应着不同的信息处理需求,那么让所有智能体都使用同一个骨干大模型无疑会造成资源浪费。更好的做法则是设计一个异构型智能体系统,让小巧且高效的模型去处理低复杂度的子任务,仅在高信息需求的关键节点调用最强大的模型。


图 | 相关论文的第一作者万开阳(来源:万开阳)



阐明单一模型的物理极限,为研究多智能体系统提供严谨理论论证

据介绍,本次研究的背景源于对当前大模型能力边界的深入探索,并尤其聚焦于大模型在处理复杂用户指令和长篇文本任务时的表现。这一探索的起点源于该团队此前打造的 CogWriter。CogWriter 是一个由人类认知写作理论启发的多智能体框架,它能显著提升大模型生成复杂指令限制长文本的能力。针对 CogWriter 进行分析和实践时,研究团队观察到三个既普遍又引人深思的现象。

第一个现象是:大模型的能力与参数规模有着强关联性。他们发现,模型的参数量是决定其能否执行复杂认知写作步骤的关键因素。例如,当使用 14B 参数的模型时,CogWriter 能够顺利执行规划、反思和修订等高级认知步骤。然而,当换用同一系列的、但是参数更少的 8B 模型时,模型在执行相同步骤时会产生混乱的计划和无效的修改反馈。这说明模型参数规模与其执行复杂任务的“有效性”之间存在着紧密联系。

第二个现象是:大模型的指令遵循能力会随生成长度呈现出衰减效应。当模型在处理长文本时,其表现出一种类似于“记忆衰退”的特征。在生成任务的初期,无论是简单的单步指令还是复杂的多步指令,模型都能很好地遵循。然而,随着文本长度的增加,模型的指令遵循能力会在某个临界点后急剧下降,以至于“忘记”了最初的目标。这种“遗忘”现象在参数量较小的模型上尤为明显,而更大参数量的模型则能将这种衰减进行推迟。

第三个现象是:多智能体协作会带来性能提升。大量领域内相关成果以及该团队打造的 CogWriter 证明,当将一个复杂任务进行合理分解,并分配给多个专门智能体来进行协同处理,就能在无需额外训练的情况下实现任务性能的质的飞跃。仍以 CogWriter 为例,当使用 Qwen2.5-14B 模型作为骨干时,CogWriter 能将其在复杂指令任务上的平均准确率从 0.44 提至 0.61,这一成绩甚至超越了 GPT-4o 的 0.47 的平均准确率。

这些现象让该团队意识到,虽然他们已经明确知道类似于 CogWriter 等多智能体框架的分解协作模式是有效的,但是他们仍然不清楚背后原因所在:即多智能体协作凭何突破单一模型的瓶颈?这个瓶颈的本质又是什么?

基于以上疑问,他们希望为其在 CogWriter 等多智能体系统实践中观察到的现象进行理论解释,并希望能在多智能体系统的设计中除了进行经验性和启发式的探索之外,能够提供一个物理学式的理论预测视角。“这个视角将能阐明单一模型的物理极限,并能为多智能体系统产生效果的原因提供理论论证。”万开阳告诉 DeepTech。


(来源:https://arxiv.org/pdf/2509.21199)



能否从底层原理上证明单一模型单次生成的瓶颈?

基于业内成果以及实际经验来看,研究团队认为大模型单次生成存在着一种性能上限瓶颈,即使增加数据微调也无法解决这一瓶颈。而在无需训练下的前提之下,多智能体系统则能实现显著的效果提升。进一步地,在打造多智能体系统的时候,智能体对于不同复杂度任务的处理能力存在明显差异。

因此,他们设想的是:能否超越经验性和启发式的研究思路,从底层原理上证明单一模型单次生成的瓶颈?以及多智能体系统该如何突破这个瓶颈?再就是到底是需要更多训练、还是需要通过构建多智能体来突破瓶颈?总的来说,他们想探索的问题是:对于单次生成和多智能体这两者来说,到底谁才是解决复杂自然语言处理(NLP,Natural Language Processing)问题的发展方向?

而本次研究的起点,则来自于一个关于模型“物理边界”的直觉。这个直觉是:大模型在单次生成中,其输出的 token 数量、每个 token 的表示维度,乃至内部注意力与多层感知机(MLP,Multilayer Perceptron)层的矩阵维度都是有限的。这些看似孤立的物理约束共同指向这样一个猜想:在模型的单次推理过程中存在“信息处理的上限”。


(来源:https://arxiv.org/pdf/2509.21199)

为了从第一性原理出发验证这一猜想,研究团队追溯到了信息的最基本单元——比特。既然计算机中一切数字信息的本质都是比特,而大模型的运算与表示也都构建于其上,那么信息论这门研究信息量化、存储和通信的科学便顺理成章地成为了他们最基础的分析工具。

基于此,研究团队将大模型的单次推理过程抽象为一个处理比特流的“通信信道”。正是这一视角的转换,使得他们得以运用信息论的严谨框架,来推导模型作为信道的信息容量上限,以及得以推导与复杂任务所蕴含的信息处理需求之间的数学关系。

为了验证并应用这一理论,他们又将本次研究课题从“复杂指令长文本生成”拓展至“复杂指令长文本理解”,并选择多跳问答任务作为分析对象。多跳问答任务要求模型必须在一长段充满噪音的文本中,通过环环相扣的推理链找到答案,这一特点使其成为测试信息处理上限理论的绝佳场景。通过通信信道这样一个视角,使得他们得以深入剖析多跳问答任务的内在结构,并揭示了多跳问答任务在单次生成范式下失败的原因所在。

随后,他们发现法诺不等式是一个与其课题高度契合的理论工具,它能够连接信息论和机器学习的性能度量,即能够直接将信道中剩余的不确定性与最终的决策错误率挂钩。而这正是研究团队所需要的数学理论基础,这一数学理论基础能从理论上将“信息处理上限”的猜想转化为可以量化的“模型准确率上限”。

基于此,他们推导出了本次研究的核心理论:即推导出了一个针对大模型单遍推理的类法诺准确率上界公式。这个上界公式指出模型的最高准确率会受到两个核心变量的制约:第一个制约是任务本身固有的信息需求量,第二个制约是模型单次生成所能承载的“信息容量”。一旦信息需求量超过模型的单次处理容量,那么从数学角度来看模型就不可能达到 100% 的准确率。


(来源:https://arxiv.org/pdf/2509.21199)

更有趣的是,通过这一理论该团队还预测出一个名为“准确率悬崖”的现象:即前文提到的当任务复杂度超越模型的处理上限时模型性能并不会平滑地下降,相反的它会像坠落悬崖一样发生急剧的断崖式崩溃,这完美地解释了他们所观察到的现象:即为何模型在处理某个临界点之下的任务时游刃有余,而一旦超过这个节点性能就迅速变得不可接受。

打下理论基础之后,他们又将理论与实际问题进行结合,并形式化地定义了多跳问答任务的结构,借此识别出导致其信息需求量爆炸式增长的两个原因。

第一个原因是逐步容量溢出。研究团队发现,随着推理“跳数”的增加,模型需要记忆和处理的中间信息会呈现出超线性增长的规律,以至于非常容易在某一个步骤上压垮模型的单次信息容量。

第二个原因是跨步错误累积。由于推理链的依赖性,即使每一步只有很微小的偏差,这些错误也会在链条中逐级放大,最终导致整个推理过程出现崩溃。

这两个原因共同构成了一个两难的组合困境,使得单次生成范式在根本上难以胜任复杂的多跳任务。找到问题的根源之后,寻找解决方案的方向也变得清晰起来:既然单次生成的瓶颈在理论上无法避免,那么就得超越它。为此,研究团队设计了 InfoQA,这是一个多轮调用(multi-call)的推理框架,他们将其作为一个模拟多智能体系统来证明其推测。


(来源:https://arxiv.org/pdf/2509.21199)

据介绍,InfoQA 的设计哲学源于该团队的理论分析,他们通过以下三个核心机制来解决上述组合困境:

第一个机制是感知容量的任务分解,它能将一个复杂的多跳问题分解成一系列模型单次处理能力之内的单跳子问题,从而确保每一步都不会掉下“准确率悬崖”。

第二个机制依赖于明确的工作流,它将上一步的答案显式地注入到下一步的问题中,从而形成一个清晰和可控的推理链条,进而能够保证推理路径的鲁棒性。

第三个机制是迭代式问题压缩,在每一步之后它都会主动“剪掉”不再需要的推理痕迹和上下文噪音,只将最核心的信息保留下来,以便达成负荷最小的推理过程,从而避免信息负载的持续膨胀。

鉴于已有的基准测试无法精确地控制任务的信息复杂度,因此他们构建了一个充满噪音和干扰项的合成数据集。这个合成数据集为他们带来了一个高度可控的实验环境中,基于此他们证明 InfoQA 框架在各种复杂度和各种长度的上下文之下,性能都能稳定、显著地超越所有单遍推理的基线模型。

而在后续,研究团队计划进行“活字印刷”的新尝试。具体来说,其将通过多目标优化的方法在一个骨干模型中训练多种可被独立调用的“原子能力”,以期能在单一巨型模型和复杂多智能体系统之间找到一个更高效和更经济的平衡点。

研究团队表示,他们希望最终能够打造一个“单一部署、多能协作”的高效模型,预计这一模型不仅功能多样,又能根据任务动态调用能力,从而能够显著降低部署成本和推理成本,这将尤其适合在手机等资源有限的设备上运行。

参考资料:

https://arxiv.org/pdf/2509.21199

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5天5夜死战不退!这位少尉一战封神,荣获“乌克兰英雄”!

5天5夜死战不退!这位少尉一战封神,荣获“乌克兰英雄”!

老马拉车莫少装
2026-03-21 00:55:13
浙江迎来第三所“985”?家长:杭州还有第二所吗

浙江迎来第三所“985”?家长:杭州还有第二所吗

19楼
2026-03-20 20:21:18
彻底失望!香港纨绔富二代惨失500亿家产!

彻底失望!香港纨绔富二代惨失500亿家产!

港港地
2026-03-20 10:03:49
“1分钟内遭路虎别停8次”当事人:连单位领导、岳父老领导都施压要求和解

“1分钟内遭路虎别停8次”当事人:连单位领导、岳父老领导都施压要求和解

观察者网
2026-03-20 10:54:45
美国国债出事了:突遭大量抛售!美债突破39万亿美元,每月利息可造900架F-35,美联储加息概率大增!再加2000亿军费打伊朗?特朗普:小钱

美国国债出事了:突遭大量抛售!美债突破39万亿美元,每月利息可造900架F-35,美联储加息概率大增!再加2000亿军费打伊朗?特朗普:小钱

每日经济新闻
2026-03-21 00:17:17
突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

每日经济新闻
2026-03-21 08:11:08
女子网上吐槽海底捞“点炮”制度遭跨省执法,要求到四川配合调查

女子网上吐槽海底捞“点炮”制度遭跨省执法,要求到四川配合调查

Mr王的饭后茶
2026-03-20 20:17:32
52岁北京炒股冠军罕见发声:洗盘如果洗不掉散户,庄家会怎么办?

52岁北京炒股冠军罕见发声:洗盘如果洗不掉散户,庄家会怎么办?

股经纵横谈
2026-03-20 21:45:04
挨了伊朗的打,却不敢吭声:海湾国家诡异沉默的玄机!

挨了伊朗的打,却不敢吭声:海湾国家诡异沉默的玄机!

识局Insight
2026-03-20 21:05:47
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
一夜双冠!谷爱凌冬奥后首秀,夺莱克斯站冠军+雪盟首位世界冠军

一夜双冠!谷爱凌冬奥后首秀,夺莱克斯站冠军+雪盟首位世界冠军

全景体育V
2026-03-21 06:49:12
Shams:NBA扩军提案大概率会通过 森林狼最有可能被划到东部

Shams:NBA扩军提案大概率会通过 森林狼最有可能被划到东部

罗说NBA
2026-03-21 07:13:00
以色列:伊斯梅尔·艾哈迈迪已身亡

以色列:伊斯梅尔·艾哈迈迪已身亡

都市快报橙柿互动
2026-03-20 22:17:55
丁彦雨航官宣退役:曾两获MVP+亚运会夺冠 坦言没有后悔和遗憾

丁彦雨航官宣退役:曾两获MVP+亚运会夺冠 坦言没有后悔和遗憾

醉卧浮生
2026-03-20 22:20:07
曝双顶流的孩子已经三周岁

曝双顶流的孩子已经三周岁

聚焦最新动态
2026-03-21 08:06:03
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
奥沙利文:我不认为目前有活着的人可以打破我的三大赛冠军数

奥沙利文:我不认为目前有活着的人可以打破我的三大赛冠军数

懂球帝
2026-03-20 16:23:36
4年减少771万人!影响,开始显现了

4年减少771万人!影响,开始显现了

西部城市
2026-03-20 20:31:44
伊朗发动大规模打击,还要全球追杀美以官员:在国外度假也“不再安全”!伊最高领袖新年致辞:发展“抵抗经济”,增强国家韧性

伊朗发动大规模打击,还要全球追杀美以官员:在国外度假也“不再安全”!伊最高领袖新年致辞:发展“抵抗经济”,增强国家韧性

每日经济新闻
2026-03-21 00:59:04
2026-03-21 10:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16452文章数 514774关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

特朗普招呼中国派军舰去护航 让西方媒体大呼出人意料

头条要闻

特朗普招呼中国派军舰去护航 让西方媒体大呼出人意料

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

亲子
游戏
家居
公开课
军事航空

亲子要闻

为什么有钱人家孩子一般长相都不错?网友:要有钱有闲

《生化维罗妮卡RE》稳了!曝卡普空王牌组合操刀

家居要闻

时空交织 空间绮梦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版