网易首页 > 网易号 > 正文 申请入驻

速度提升,能力却暴跌?扩散模型做智能体的残酷真相

0
分享至



基于自回归语言模型的智能体已在许多场景中展现出完成复杂任务的能力,但高昂的推理成本和低下的执行效率问题仍然是制约智能体工作流(Agentic Workflow)发展的关键瓶颈。

与传统的自回归式语言模型不同,扩散语言模型(Diffusion-Based Language Models)采用并行解码机制,显著提升了生成速度,似乎为突破这一瓶颈带来了全新的可能性。

现有的关于 Llada、Dream 等扩散语言模型的研究中,这类模型在大幅度提高生成效率的同时,在 MMLU、GSM8K 等基准任务上保持了与自回归语言模型相当的通用能力。然而其在智能体任务上的表现尚缺乏系统性的评估。

基于这一问题,近期南洋理工大学的陶大程教授团队联合东南大学、阿里巴巴等发布了一份综合评测报告,通过对 2 个自回归语言模型和 4 个扩散语言模型在具身智能体(Embodied Agent)和工具调用智能体(Tool-Calling Agent)上的一系列实验,揭示了一个反直觉的发现:扩散语言模型在智能体能力方面存在系统性缺陷,显著落后于同规模的自回归模型!

这项工作揭示了一个深刻的教训(Bitter Lesson):尽管扩散语言模型实现了高效的并行推理,但也显著削弱了其因果推理和反思能力,难以可靠地执行具身智能体的长链推理任务;同时,并行解码机制使得输出具有更高的不确定性,这对于精确性要求极高的工具调用任务造成了重大挑战。



  • 论文标题:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
  • 论文地址:
  • https://arxiv.org/pdf/2601.12979
  • 项目地址:
  • https://coldmist-lu.github.io/DiffuAgent/
  • 代码地址:
  • https://github.com/Coldmist-Lu/DiffuAgent/



一、为何失败?扩散模型

难以完成智能体任务的三大原因



  • 具身智能任务:因果推理能力不足,陷入重复循环

研究基于 AgentBoard 中的三个典型具身智能任务(AlfWorld、ScienceWorld 和 BabyAI)测试了模型的长链规划推理能力。结果显示,扩散语言模型的成功率(Success Rate)和平均任务进度(Progress Rate)均显著低于自回归模型,在部分任务甚至无法产生任何正确样例。

深入分析发现,扩散模型难以进行因果性的推理和实时反思,频繁陷入重复性操作循环(retry loop,见下图 a),而自回归语言模型则极少出现此类问题。

  • 工具调用任务:格式输出混乱,多轮调用几乎失效

研究采用伯克利函数调用基准(BFCL v3)进行评估,发现扩散语言模型在单轮与多轮工具调用场景中均落后于自回归模型。尤其在具有挑战性的多轮任务中,扩散模型几乎无法成功完成一次完整调用工作流。

进一步分析表明,扩散语言模型更容易产生格式不规范、语义模糊的调用输出(见下图 b),在要求严格的结构化输出场景下表现尤为突出。

  • 效率与能力的权衡:并行解码的隐性代价

尽管扩散语言模型以高吞吐量为卖点,但研究发现,更高的生成效率并不等同于更强的智能体能力(如下图 c)。相反,并行解码机制会削弱扩散语言模型的因果推理能力,并降低其在精确格式化输出方面的表现。



二、还有救吗?多智能体

评估框架 DiffuAgent 探寻真实潜力



由于扩散语言模型直接执行智能体工作流时会产生大量的失败案例,这对深入分析其能力带来了困难。为了探明扩散语言模型作为智能体的真实潜力,研究团队提出了一个多智能体评测框架 DiffuAgent,将复杂的智能体任务按能力维度拆解为多个模块,在智能体执行每个步骤的前后进行针对性评测:

  • 具身智能任务的模块化评估包括:用于定期储存智能体的运行轨迹、提供历史信息的记忆模块;以及用于检测模型是否能主动识别当前轨迹中的问题,并及时终止无效尝试的自验证模块。

  • 工具调用任务的模块化评估包括:在产生调用指令前,预先筛选出合适的工具候选的工具选择模块;以及对不规范的 JSON 格式进行自动纠正的格式修正模块。

三、能做什么?扩散模型

在各智能体模块中的能力边界

为深入分析扩散语言模型在智能体工作流中的具体表现,研究采用多智能体架构设计:以自回归语言模型作为主控模块,将扩散语言模型分别应用于不同的辅助模块,从而评估其对智能体整体性能的影响。

记忆模块:表现相当甚至更优



当扩散语言模型作为记忆模块时,其对智能体准确性的影响与自回归模型相当,使用 Llada、Dream 等模型时甚至效果优于自回归模型。

自验证模块:终止决策更加稳健



实验发现,自回归模型作为自验证模块时容易过早终止任务,即在智能体还未完成充分探索时就提前终止;而扩散模型在此场景下的终止判断更加可靠稳定。

工具调用模块:选择能力强,格式修正能力弱



在工具调用任务上,扩散语言模型能有效地完成工具选择;但由于其并行生成机制带来的模糊性,在需要精确格式的工具编辑任务上表现欠佳。

核心发现:并行解码机制带来的权衡与局限

对扩散语言模型在各智能体模块的表现分析,进一步验证了前文揭示的系统性缺陷:并行生成模式虽然导致了因果推理能力的缺失和动态决策能力的不足,但其在推理要求低的文本总结(记忆模块)和状态识别提取(自验证模块)等静态任务上表现出色;虽然难以完成高精确性的格式化输出(格式修正模块),却能有效的进行信息提取(工具选择模块)。这揭示了扩散模型「能力不均衡」的特性:擅长静态处理,弱于动态推理。

四、未来方向:对于

扩散语言模型智能体研究的启示

基于上述系统性评估,本研究从训练、解码和评估三个维度为扩散语言模型的研究者提供以下建议:

  • 训练层面:应强化因果推理与解构化能力。在预训练和微调阶段引入具有强因果关系数据,如多步推理任务和轨迹,并大幅增加结构化内容的比重,如 JSON 代码、API 调用等,从源头提升模型对格式规范的理解,并建立对因果依赖关系的敏感性。

  • 解码层面:探索自适应的混合生成策略。模型应基于任务特性自适应地选择解码方式,对关键的推理步骤采用自回归解码确保因果连贯,而对于静态任务和需要全局视野的长文本生成,采用并行解码以提升效率;此外可在解码过程中引入格式约束和校正来弥补不确定性的短板。

  • 评估层面:建立面向智能体应用的基准体系。当前扩散模型的评估过度依赖 MMLU、GSM8K 等通用基准,这些基准无法反应智能体任务关于因果推理、多轮交互和工具调用等需求。研究者应报告模型在例如 DiffuAgent 智能体评估框架的结果,并建立覆盖真实应用场景的评估体系,避免「跑分高但不实用」的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

后仰大风车
2026-03-26 06:05:05
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

Thurman在昆明
2026-03-26 01:53:49
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

长风文史
2026-03-25 17:58:23
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

薇说体育
2026-03-26 10:48:02
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

南方都市报
2026-03-26 19:30:16
路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

泠泠说史
2026-03-26 18:06:17
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-25 21:05:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
603444,业绩大增!拟10派70元!

603444,业绩大增!拟10派70元!

证券时报e公司
2026-03-26 19:32:17
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

叨唠
2026-03-26 00:57:32
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
伊朗发起的第81波打击

伊朗发起的第81波打击

舍长阿爷谈事
2026-03-26 23:38:25
2026-03-27 03:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
房产
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版