网易首页 > 网易号 > 正文 申请入驻

华为发布业界首个扩散语言模型Agent,部分场景提速8倍!

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

大模型通往现实世界的“最后三公里”,Agent已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化:

衡量一个Agent够不够强,早已不再看它能不能“答对问题”,而是看它在面对多轮推理、工具调用及复杂协作时,能否用最短的路径、最少的交互预算,稳定地搞定任务

在这一背景下,一个长期被行业忽视的底层命题浮出水面:

  • 当Agent的框架、工具、数据和训练方式都保持一致时,仅仅改变语言模型的生成范式(Autoregressive vs Diffusion),是否会系统性地改变Agent的规划与行为模式?

近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在最新工作《DLLM Agent: See Farther, Run Faster》中,对这一问题给出了迄今为止最“对照实验式”的回答。

他们发现,仅仅是把“底座”换成了扩散式大模型(DLLM),Agent就像突然开了“上帝视角”,执行速度不仅提升了30%以上,甚至在部分复杂任务中跑出了8倍于传统AR模型的效率。

文章链接:
https://arxiv.org/pdf/2602.07451

官方网页:
https://noah-dllm.github.io/

核心结论一览

在完全相同的Agent工作流、训练数据和交互预算下,研究发现:

  • 在准确率基本持平的前提下,DLLM Agent端到端执行速度平均提升30%以上
  • 在成功解题的条件下,DLLM Agent使用更少的交互轮次和工具调用
  • DLLM展现出更强的planner能力:更早收敛到正确轨迹、回溯和冗余更少;
  • 这种优势并非仅来自并行解码速度,而是体现在Agent级别的规划与决策行为上。
一个“极端公平”的对照实验设计

为了避免“框架差异”、“提示工程”、“数据不一致”等干扰因素,作者采用了非常严格的对照实验设置:

  • 使用同一个Agent框架:DeepDiver(多智能架构,层级式规划,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
  • 使用同一套工具接口与解析规则
  • 使用完全相同的Agent任务进行继续训练;
  • 统一context长度上限(32K)、最大交互轮数、tool call上限
  • 唯一变化因素:Agent背后的生成范式

Autoregressive LLM(AR):openpangu 7b-v1

Diffusion Large Language Model(DLLM):openpangu diffusion 7b,这个模型是从openpangu 7b-v1续训得到的,模型的基础推理能力相似。

这意味着,实验中观察到的行为差异,不能归因于数据/模型的基础能力或workflow,而只能来自生成范式本身。

不过,考虑到生成范式的不同,针对多轮长链交互的DLLM训练,作者使用了针对性调整的Mask策略和Attention裁剪策略,提升了DLLM Agent训练和推理的一致性。

同样的终点,更短的路径

在构建了对照平台后,研究团队将关注点转向了核心指标:即DLLM这种生成范式的改变,究竟能在多大程度上提升Agent的实战表现?

实验结果证明,DLLM Agent的优势并非仅仅来自“算得快”,更在于它在复杂规划中“走得直”

1、BrowseComp-zh基准测试:效率的全面跨越

研究团队在包含110条任务的BrowseComp-zh(中文多轮Web浏览)子集上,完成了性能测试。



通过对海量测试结果的深度复盘,研究人员观察到了几个关键规律:

DLLM Agent在准确率持平的情况下,

  • 平均工具调用次数显著减少;
  • Agent轨迹平均更短;
  • 端到端延迟下降约30%。

但同时也暴露出一个现实问题:原生DLLM更容易产生结构化tool-call错误。

此外,作者还展示了DLLM Agent和AR Agent在Information Seeker完成问题上的分布,可以清晰地看到DLLM Agent在处理问题时,往往能以更少的交互次数完成同样的任务。



2、案例实录:8.18倍速度落差的背后

为了更直观地展现这种“走直路”的能力,可以看一个典型的多约束检索案例(涉及动物命名+中国互联网公司+团队合并+软硬件等多个维度),query如下:



结果发现,尽管AR Agent和DLLM Agent最终都给出了正确答案,但其执行逻辑却展现出巨大的差异,不仅表现在端到端有8.18×的速度差异上(如下表):



也表现在具体的planner执行过程上——

DLLM Agent的planner质量更高,从而在部分case上表现出来远超过基础模型的效率差异的端到端性能收益。



DLLM为何是天生的“强Planner”?

论文并未停留在表面的数据对比,而是深入分析了entropy和confidence与扩散过程中的内部动态,试图从生成范式的底层原理,来解释DLLM为何在规划上更具优势。

一、Planner Agent:先全局、后细节

在任务拆解阶段,DLLM Planner表现出独特的两阶段特征,这与人类先构思大纲再填补内容的思维方式不谋而合:

阶段一:并行提取关键信息

用户问题中的4个核心约束,往往在1–2个diffusion step内就能被同时识别。

阶段二:逐步细化任务结构

在已有全局框架下,再逐步补充具体的逻辑细节。

这与AR的差异,主要体现在:

  • AR必须按token顺序“边想边写”;
  • 一旦早期判断偏差,往往只能通过多轮todo/re-plan/verification来修正。

这也直接解释了,为什么AR Agent在实验中更容易产生多个todo_v1/todo_v2冗余规划文档的原因。下图详细解释了planner在这个过程中的变化:



二、Information Seeker:先定方向,再填参数

在具体的工具调用阶段,DLLM的生成模式呈现出一种极其稳定的结构化倾向:

  • 它会首先确定调用哪个工具;
  • 随后,并行生成参数与细节;
  • 整个tool-call被视为一个整体“动作块”,并在生成过程中被反复refinement。

相比之下,AR Agent的生成过程更像是一条不可回头的流水线:函数名→参数1→参数2→ …

一旦前面的token出现语法或逻辑错误,AR无法原地修正,只能寄希望于下一轮tool call来补救



三、注意力演化:确定性的迅速锁定

研究团队通过对扩散过程中Mask Token的熵(Entropy)演化,以及不同阶段Attention的集中与分散的分析,得出了更深层的结论:

  • 在DLLM的生成过程中,高不确定性集中在决策的早期阶段
  • 一旦高层决策形成,后续细节的生成会表现出极高的收敛速度
  • attention机制呈现出更明显的“全局 → 局部”协调模式,这与AR仅仅追求token-level的局部最优决策,形成了鲜明对比。

不过,作者并没有回避DLLM的不足之处——

Diffusion模型在处理Agent场景时,对结构化输出更敏感

通过设计训推一致的Mask策略与Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

这意味着,要充分发挥DLLM的潜力,并不能将其作为AR的简单替代品,而需要针对Agent的交互场景,重新对齐接口与训练目标

生成范式重塑Agent设计维度

这项工作为Agent研究提供了一个全新的视角——

生成范式本身,会深刻塑造Agent的行为方式。

在完全相同的数据基底与技术框架下,DLLM Agent展现出了超越传统自回归模型的执行效率:

  • 更早形成全局计划
  • 更少走弯路
  • 更快速度结束任务

这使得Diffusion不再只是“另一种生成模型”,而成为构建高效Agent的一个全新设计维度。

下方Demo直观展示了DLLM Agent在效率上的显著优势(同类对比示例可参考原论文中的Case1):



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS 27 将为新机带来分屏显示功能!

iOS 27 将为新机带来分屏显示功能!

花果科技
2026-06-03 17:08:32
四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

阿讯说天下
2026-06-03 03:14:05
上海一女子吐槽老公:每天在家躺着工资却比自己高倍

上海一女子吐槽老公:每天在家躺着工资却比自己高倍

周哥一影视
2026-06-03 09:26:02
中方定性,16国联合军团围剿俄,日本已正式介入

中方定性,16国联合军团围剿俄,日本已正式介入

玲儿爱唱歌
2026-06-03 12:30:42
白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

展望云霄
2026-05-18 22:30:18
俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

闻号说经济
2026-06-02 10:43:10
小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

刘振起观点
2026-06-03 15:35:08
马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

漫川舟船
2026-06-03 09:44:51
送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

上观新闻
2026-06-03 08:22:20
外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

混沌录
2026-06-02 22:58:17
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

月颖资金推动论
2026-06-03 16:44:43
疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

澜归序
2026-06-03 05:43:27
CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

中国篮坛快讯
2026-06-03 15:00:02
重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

听心堂
2026-06-03 16:16:08
中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

风信子的花
2026-06-03 16:32:08
名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

娱圈观察员
2026-06-03 01:18:06
王楚钦上任仅24小时,丑闻频发引争议

王楚钦上任仅24小时,丑闻频发引争议

萧狡科普解说
2026-06-03 13:03:31
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
2026-06-03 17:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12733文章数 176476关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

亲子
时尚
艺术
教育
房产

亲子要闻

孩子成绩是一门“玄学”,和智商仅半毛钱关系,其余九毛半去哪了

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

艺术要闻

二十年前割麦的场景

教育要闻

高考预警通知和物业欠费严重、几个美国消息和人工智能救人

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

无障碍浏览 进入关怀版