网易首页 > 网易号 > 正文 申请入驻

速度提升,能力却暴跌?扩散模型做智能体的残酷真相

0
分享至



基于自回归语言模型的智能体已在许多场景中展现出完成复杂任务的能力,但高昂的推理成本和低下的执行效率问题仍然是制约智能体工作流(Agentic Workflow)发展的关键瓶颈。

与传统的自回归式语言模型不同,扩散语言模型(Diffusion-Based Language Models)采用并行解码机制,显著提升了生成速度,似乎为突破这一瓶颈带来了全新的可能性。

现有的关于 Llada、Dream 等扩散语言模型的研究中,这类模型在大幅度提高生成效率的同时,在 MMLU、GSM8K 等基准任务上保持了与自回归语言模型相当的通用能力。然而其在智能体任务上的表现尚缺乏系统性的评估。

基于这一问题,近期南洋理工大学的陶大程教授团队联合东南大学、阿里巴巴等发布了一份综合评测报告,通过对 2 个自回归语言模型和 4 个扩散语言模型在具身智能体(Embodied Agent)和工具调用智能体(Tool-Calling Agent)上的一系列实验,揭示了一个反直觉的发现:扩散语言模型在智能体能力方面存在系统性缺陷,显著落后于同规模的自回归模型!

这项工作揭示了一个深刻的教训(Bitter Lesson):尽管扩散语言模型实现了高效的并行推理,但也显著削弱了其因果推理和反思能力,难以可靠地执行具身智能体的长链推理任务;同时,并行解码机制使得输出具有更高的不确定性,这对于精确性要求极高的工具调用任务造成了重大挑战。



  • 论文标题:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
  • 论文地址:
  • https://arxiv.org/pdf/2601.12979
  • 项目地址:
  • https://coldmist-lu.github.io/DiffuAgent/
  • 代码地址:
  • https://github.com/Coldmist-Lu/DiffuAgent/



一、为何失败?扩散模型

难以完成智能体任务的三大原因



  • 具身智能任务:因果推理能力不足,陷入重复循环

研究基于 AgentBoard 中的三个典型具身智能任务(AlfWorld、ScienceWorld 和 BabyAI)测试了模型的长链规划推理能力。结果显示,扩散语言模型的成功率(Success Rate)和平均任务进度(Progress Rate)均显著低于自回归模型,在部分任务甚至无法产生任何正确样例。

深入分析发现,扩散模型难以进行因果性的推理和实时反思,频繁陷入重复性操作循环(retry loop,见下图 a),而自回归语言模型则极少出现此类问题。

  • 工具调用任务:格式输出混乱,多轮调用几乎失效

研究采用伯克利函数调用基准(BFCL v3)进行评估,发现扩散语言模型在单轮与多轮工具调用场景中均落后于自回归模型。尤其在具有挑战性的多轮任务中,扩散模型几乎无法成功完成一次完整调用工作流。

进一步分析表明,扩散语言模型更容易产生格式不规范、语义模糊的调用输出(见下图 b),在要求严格的结构化输出场景下表现尤为突出。

  • 效率与能力的权衡:并行解码的隐性代价

尽管扩散语言模型以高吞吐量为卖点,但研究发现,更高的生成效率并不等同于更强的智能体能力(如下图 c)。相反,并行解码机制会削弱扩散语言模型的因果推理能力,并降低其在精确格式化输出方面的表现。



二、还有救吗?多智能体

评估框架 DiffuAgent 探寻真实潜力



由于扩散语言模型直接执行智能体工作流时会产生大量的失败案例,这对深入分析其能力带来了困难。为了探明扩散语言模型作为智能体的真实潜力,研究团队提出了一个多智能体评测框架 DiffuAgent,将复杂的智能体任务按能力维度拆解为多个模块,在智能体执行每个步骤的前后进行针对性评测:

  • 具身智能任务的模块化评估包括:用于定期储存智能体的运行轨迹、提供历史信息的记忆模块;以及用于检测模型是否能主动识别当前轨迹中的问题,并及时终止无效尝试的自验证模块。

  • 工具调用任务的模块化评估包括:在产生调用指令前,预先筛选出合适的工具候选的工具选择模块;以及对不规范的 JSON 格式进行自动纠正的格式修正模块。

三、能做什么?扩散模型

在各智能体模块中的能力边界

为深入分析扩散语言模型在智能体工作流中的具体表现,研究采用多智能体架构设计:以自回归语言模型作为主控模块,将扩散语言模型分别应用于不同的辅助模块,从而评估其对智能体整体性能的影响。

记忆模块:表现相当甚至更优



当扩散语言模型作为记忆模块时,其对智能体准确性的影响与自回归模型相当,使用 Llada、Dream 等模型时甚至效果优于自回归模型。

自验证模块:终止决策更加稳健



实验发现,自回归模型作为自验证模块时容易过早终止任务,即在智能体还未完成充分探索时就提前终止;而扩散模型在此场景下的终止判断更加可靠稳定。

工具调用模块:选择能力强,格式修正能力弱



在工具调用任务上,扩散语言模型能有效地完成工具选择;但由于其并行生成机制带来的模糊性,在需要精确格式的工具编辑任务上表现欠佳。

核心发现:并行解码机制带来的权衡与局限

对扩散语言模型在各智能体模块的表现分析,进一步验证了前文揭示的系统性缺陷:并行生成模式虽然导致了因果推理能力的缺失和动态决策能力的不足,但其在推理要求低的文本总结(记忆模块)和状态识别提取(自验证模块)等静态任务上表现出色;虽然难以完成高精确性的格式化输出(格式修正模块),却能有效的进行信息提取(工具选择模块)。这揭示了扩散模型「能力不均衡」的特性:擅长静态处理,弱于动态推理。

四、未来方向:对于

扩散语言模型智能体研究的启示

基于上述系统性评估,本研究从训练、解码和评估三个维度为扩散语言模型的研究者提供以下建议:

  • 训练层面:应强化因果推理与解构化能力。在预训练和微调阶段引入具有强因果关系数据,如多步推理任务和轨迹,并大幅增加结构化内容的比重,如 JSON 代码、API 调用等,从源头提升模型对格式规范的理解,并建立对因果依赖关系的敏感性。

  • 解码层面:探索自适应的混合生成策略。模型应基于任务特性自适应地选择解码方式,对关键的推理步骤采用自回归解码确保因果连贯,而对于静态任务和需要全局视野的长文本生成,采用并行解码以提升效率;此外可在解码过程中引入格式约束和校正来弥补不确定性的短板。

  • 评估层面:建立面向智能体应用的基准体系。当前扩散模型的评估过度依赖 MMLU、GSM8K 等通用基准,这些基准无法反应智能体任务关于因果推理、多轮交互和工具调用等需求。研究者应报告模型在例如 DiffuAgent 智能体评估框架的结果,并建立覆盖真实应用场景的评估体系,避免「跑分高但不实用」的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牢A还能蹦跶几天?

牢A还能蹦跶几天?

不正确
2026-02-10 09:52:58
俄特种部队指挥官艾克被消灭!曾被普京接见嘉奖

俄特种部队指挥官艾克被消灭!曾被普京接见嘉奖

项鹏飞
2026-02-10 20:30:38
750万发:俄罗斯炮弹产能大涨!频繁掉炸弹,俄博主要求百姓克制

750万发:俄罗斯炮弹产能大涨!频繁掉炸弹,俄博主要求百姓克制

鹰眼Defence
2026-02-12 17:22:05
伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

老马拉车莫少装
2026-02-12 17:38:03
古代瓮城的作用

古代瓮城的作用

喜之春
2026-02-11 06:28:46
上上签!中国U17与印尼卡塔尔同组:避开朝鲜,世少赛稳了

上上签!中国U17与印尼卡塔尔同组:避开朝鲜,世少赛稳了

邱泽云
2026-02-12 18:38:51
看,谁回来了!

看,谁回来了!

国际米兰足球俱乐部
2026-02-12 19:14:56
1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

纪实文录
2025-06-21 14:47:10
孙颖莎夺冠仅3天!王曼昱突遭无妄之灾,真实处境看哭球迷

孙颖莎夺冠仅3天!王曼昱突遭无妄之灾,真实处境看哭球迷

野渡舟山人
2026-02-12 19:21:35
高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

大运河时空
2026-01-18 07:10:03
2-10!印尼本想邀请中国队增强信心被双杀 亚洲杯又同组 赛程如下

2-10!印尼本想邀请中国队增强信心被双杀 亚洲杯又同组 赛程如下

侃球熊弟
2026-02-12 16:24:46
过年保存馒头,不要直接放冰箱,学会这招,放1个月不干硬不发霉

过年保存馒头,不要直接放冰箱,学会这招,放1个月不干硬不发霉

江江食研社
2026-02-10 08:30:11
固态电池吹牛无底线,美国电车4680干电池刺穿遮羞布

固态电池吹牛无底线,美国电车4680干电池刺穿遮羞布

柏铭锐谈
2026-02-11 19:03:33
下课仅 1 个月!曼联弃帅竟要接手欧洲豪门,穆里尼奥成最大推手

下课仅 1 个月!曼联弃帅竟要接手欧洲豪门,穆里尼奥成最大推手

澜归序
2026-02-12 03:14:56
Seedance2.0海外爆火!马斯克惊叹:发展速度太快了!美国导演:可能会搞垮好莱坞……

Seedance2.0海外爆火!马斯克惊叹:发展速度太快了!美国导演:可能会搞垮好莱坞……

每日经济新闻
2026-02-12 17:50:21
白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

毛豆论道
2026-02-12 02:58:57
湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

谈史论天地
2026-02-10 16:40:10
贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

田先生篮球
2026-02-12 16:27:13
他们谴责马斯克星链的逻辑有多荒唐

他们谴责马斯克星链的逻辑有多荒唐

李未熟擒话2
2026-02-12 16:50:06
杰我睿用户晒补偿方案,3.3万可兑付1.1万,同意立马优先安排

杰我睿用户晒补偿方案,3.3万可兑付1.1万,同意立马优先安排

映射生活的身影
2026-02-12 13:38:17
2026-02-12 20:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12297文章数 142564关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

女子返乡"打顺风车却打到大货车"视频爆火 当事人发声

头条要闻

女子返乡"打顺风车却打到大货车"视频爆火 当事人发声

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

体操运动员坠楼涉事教练被立案调查

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

房产
亲子
艺术
教育
公开课

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

亲子要闻

2026年水解奶粉选购指南:平衡防敏需求与宝宝成长的科学之选

艺术要闻

泰国学霸:身材好,颜值高!

教育要闻

“这不是导师,是亲爹!”女博士吐槽被导师PUA,块毕业却傻眼了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版