网易首页 > 网易号 > 正文 申请入驻

华为发布业界首个扩散语言模型Agent,部分场景提速8倍!

0
分享至

来源:量子位

允中 发自 凹非寺

量子位 | 公众号 QbitAI

大模型通往现实世界的“最后三公里”,Agent已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化:

衡量一个Agent够不够强,早已不再看它能不能“答对问题”,而是看它在面对多轮推理、工具调用及复杂协作时,能否用最短的路径、最少的交互预算,稳定地搞定任务。

在这一背景下,一个长期被行业忽视的底层命题浮出水面:

当Agent的框架、工具、数据和训练方式都保持一致时,仅仅改变语言模型的生成范式(Autoregressive vs Diffusion),是否会系统性地改变Agent的规划与行为模式?

近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在最新工作《DLLM Agent: See Farther, Run Faster》中,对这一问题给出了迄今为止最“对照实验式”的回答。

他们发现,仅仅是把“底座”换成了扩散式大模型(DLLM),Agent就像突然开了“上帝视角”,执行速度不仅提升了30%以上,甚至在部分复杂任务中跑出了8倍于传统AR模型的效率。

文章链接:https://arxiv.org/pdf/2602.07451

官方网页:https://noah-dllm.github.io/

核心结论一览

在完全相同的Agent工作流、训练数据和交互预算下,研究发现:

  • 在准确率基本持平的前提下,DLLM Agent端到端执行速度平均提升30%以上;

  • 在成功解题的条件下,DLLM Agent使用更少的交互轮次和工具调用;

  • DLLM展现出更强的planner能力:更早收敛到正确轨迹、回溯和冗余更少;

  • 这种优势并非仅来自并行解码速度,而是体现在Agent级别的规划与决策行为上。

一个“极端公平”的对照实验设计

为了避免“框架差异”、“提示工程”、“数据不一致”等干扰因素,作者采用了非常严格的对照实验设置:

  • 使用同一个Agent框架:DeepDiver(多智能架构,层级式规划,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);

  • 使用同一套工具接口与解析规则;

  • 使用完全相同的Agent任务进行继续训练;

  • 统一context长度上限(32K)、最大交互轮数、tool call上限;

  • 唯一变化因素:Agent背后的生成范式

  • Autoregressive LLM(AR):openpangu 7b-v1

  • Diffusion Large Language Model(DLLM):openpangu diffusion 7b,这个模型是从openpangu 7b-v1续训得到的,模型的基础推理能力相似。

这意味着,实验中观察到的行为差异,不能归因于数据/模型的基础能力或workflow,而只能来自生成范式本身。

不过,考虑到生成范式的不同,针对多轮长链交互的DLLM训练,作者使用了针对性调整的Mask策略和Attention裁剪策略,提升了DLLM Agent训练和推理的一致性。

同样的终点,更短的路径

在构建了对照平台后,研究团队将关注点转向了核心指标:即DLLM这种生成范式的改变,究竟能在多大程度上提升Agent的实战表现?

实验结果证明,DLLM Agent的优势并非仅仅来自“算得快”,更在于它在复杂规划中“走得直”。

1、BrowseComp-zh基准测试:效率的全面跨越

研究团队在包含110条任务的BrowseComp-zh(中文多轮Web浏览)子集上,完成了性能测试。


通过对海量测试结果的深度复盘,研究人员观察到了几个关键规律:

DLLM Agent在准确率持平的情况下,

  • 平均工具调用次数显著减少;

  • Agent轨迹平均更短;

  • 端到端延迟下降约30%。

但同时也暴露出一个现实问题:原生DLLM更容易产生结构化tool-call错误。

此外,作者还展示了DLLM Agent和AR Agent在Information Seeker完成问题上的分布,可以清晰地看到DLLM Agent在处理问题时,往往能以更少的交互次数完成同样的任务。


2、案例实录:8.18倍速度落差的背后

为了更直观地展现这种“走直路”的能力,可以看一个典型的多约束检索案例(涉及动物命名+中国互联网公司+团队合并+软硬件等多个维度),query如下:


结果发现,尽管AR Agent和DLLM Agent最终都给出了正确答案,但其执行逻辑却展现出巨大的差异,不仅表现在端到端有8.18×的速度差异上(如下表):


也表现在具体的planner执行过程上——

DLLM Agent的planner质量更高,从而在部分case上表现出来远超过基础模型的效率差异的端到端性能收益。


DLLM为何是天生的“强Planner”?

论文并未停留在表面的数据对比,而是深入分析了entropy和confidence与扩散过程中的内部动态,试图从生成范式的底层原理,来解释DLLM为何在规划上更具优势。

一、Planner Agent:先全局、后细节

在任务拆解阶段,DLLM Planner表现出独特的两阶段特征,这与人类先构思大纲再填补内容的思维方式不谋而合:

阶段一:并行提取关键信息

用户问题中的4个核心约束,往往在1–2个diffusion step内就能被同时识别。

阶段二:逐步细化任务结构

在已有全局框架下,再逐步补充具体的逻辑细节。

这与AR的差异,主要体现在:

  • AR必须按token顺序“边想边写”;

  • 一旦早期判断偏差,往往只能通过多轮todo/re-plan/verification来修正。

这也直接解释了,为什么AR Agent在实验中更容易产生多个todo_v1/todo_v2冗余规划文档的原因。下图详细解释了planner在这个过程中的变化:


二、Information Seeker:先定方向,再填参数

在具体的工具调用阶段,DLLM的生成模式呈现出一种极其稳定的结构化倾向:

  • 它会首先确定调用哪个工具;

  • 随后,并行生成参数与细节;

  • 整个tool-call被视为一个整体“动作块”,并在生成过程中被反复refinement。

相比之下,AR Agent的生成过程更像是一条不可回头的流水线:函数名→参数1→参数2→ …

一旦前面的token出现语法或逻辑错误,AR无法原地修正,只能寄希望于下一轮tool call来补救。


三、注意力演化:确定性的迅速锁定

研究团队通过对扩散过程中Mask Token的熵(Entropy)演化,以及不同阶段Attention的集中与分散的分析,得出了更深层的结论:

  • 在DLLM的生成过程中,高不确定性集中在决策的早期阶段;

  • 一旦高层决策形成,后续细节的生成会表现出极高的收敛速度;

  • attention机制呈现出更明显的“全局 → 局部”协调模式,这与AR仅仅追求token-level的局部最优决策,形成了鲜明对比。

不过,作者并没有回避DLLM的不足之处——

Diffusion模型在处理Agent场景时,对结构化输出更敏感。

通过设计训推一致的Mask策略与Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

这意味着,要充分发挥DLLM的潜力,并不能将其作为AR的简单替代品,而需要针对Agent的交互场景,重新对齐接口与训练目标。

生成范式重塑Agent设计维度

这项工作为Agent研究提供了一个全新的视角——

生成范式本身,会深刻塑造Agent的行为方式。

在完全相同的数据基底与技术框架下,DLLM Agent展现出了超越传统自回归模型的执行效率:

  • 更早形成全局计划

  • 更少走弯路

  • 更快速度结束任务

这使得Diffusion不再只是“另一种生成模型”,而成为构建高效Agent的一个全新设计维度。

下方Demo直观展示了DLLM Agent在效率上的显著优势(同类对比示例可参考原论文中的Case1):


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Lisa卷入“萝莉岛”惊天丑闻?上岛伺候权贵和资本大佬……

Lisa卷入“萝莉岛”惊天丑闻?上岛伺候权贵和资本大佬……

毒舌八卦
2026-02-11 23:27:16
喜讯!邵佳一国足第二期集训将招入久违归化进队,能力已被认可

喜讯!邵佳一国足第二期集训将招入久违归化进队,能力已被认可

张丽说足球
2026-02-11 09:12:12
网友:这辈子被被房子伤透了心,扣扣搜搜攒钱买房,还不如躺平

网友:这辈子被被房子伤透了心,扣扣搜搜攒钱买房,还不如躺平

恪守原则和底线
2026-01-02 05:45:03
赵薇那场被中断的直播画面来了,来听十分钟里她说了什么

赵薇那场被中断的直播画面来了,来听十分钟里她说了什么

深度知局
2026-02-11 16:14:50
出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

秋姐居
2026-02-10 09:19:42
药师提醒:一旦吃上二甲双胍,7件事就不要做了,别害了自己

药师提醒:一旦吃上二甲双胍,7件事就不要做了,别害了自己

药学西东
2026-02-10 13:13:17
委内瑞拉“大鱼”浮出水面:提前与美方接触,已成功夺取军权

委内瑞拉“大鱼”浮出水面:提前与美方接触,已成功夺取军权

徐云流浪中国
2026-02-11 12:51:39
西方人突然发现,中国人对世界大战的理解,似乎与他们不一样

西方人突然发现,中国人对世界大战的理解,似乎与他们不一样

胡鍿就爱无拘无束
2026-02-10 18:40:11
短剧女演员余茵否认模仿白鹿,回应撞衫争议:造型由剧组安排,如不穿会被别人说耍大牌

短剧女演员余茵否认模仿白鹿,回应撞衫争议:造型由剧组安排,如不穿会被别人说耍大牌

情感大头说说
2026-02-11 19:14:50
韩国男演员去世,享年40岁!昨日还追忆张国荣…

韩国男演员去世,享年40岁!昨日还追忆张国荣…

奋斗在韩国
2026-02-11 20:10:05
有乘客用他人证件坐地铁被罚65元?苏州地铁回应:有工作人员巡视,冒用证件按最高票价5倍罚款

有乘客用他人证件坐地铁被罚65元?苏州地铁回应:有工作人员巡视,冒用证件按最高票价5倍罚款

极目新闻
2026-02-11 13:55:00
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
下滑实在是太明显了!火箭替补中锋真的不适合长时间留在场上?

下滑实在是太明显了!火箭替补中锋真的不适合长时间留在场上?

稻谷与小麦
2026-02-12 01:15:28
日媒:高市早苗要在2月18日辞职,其支持率年轻群体中高达92%

日媒:高市早苗要在2月18日辞职,其支持率年轻群体中高达92%

东极妙严
2026-02-11 12:53:42
硅谷职场崩了!?甲骨文被曝裁员3万人:银行断贷、股价腰斩,硅谷正经历最冷的寒冬

硅谷职场崩了!?甲骨文被曝裁员3万人:银行断贷、股价腰斩,硅谷正经历最冷的寒冬

留学生日报
2026-02-11 22:26:36
谷爱凌的冬奥“战袍”火了!高调宣布:亲自设计,灵感源于青花瓷

谷爱凌的冬奥“战袍”火了!高调宣布:亲自设计,灵感源于青花瓷

赶鸭子上架
2026-02-10 22:38:02
A股:周四稳了!盘面突发“王炸信号”,这几个板块将直接起飞!

A股:周四稳了!盘面突发“王炸信号”,这几个板块将直接起飞!

云鹏叙事
2026-02-11 16:22:33
看看长飞光纤就明白为啥说这些龙头是当下最硬核

看看长飞光纤就明白为啥说这些龙头是当下最硬核

风风顺
2026-02-11 02:20:03
退伍回村救了个落水女人,2天后县长突然来电:明天来我办公室

退伍回村救了个落水女人,2天后县长突然来电:明天来我办公室

秋风专栏
2025-08-13 15:54:55
从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

青眼财经
2026-02-07 22:22:53
2026-02-12 01:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2188401文章数 5444关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

健康
亲子
艺术
数码
公开课

转头就晕的耳石症,能开车上班吗?

亲子要闻

人类婴儿为什么既脆弱又愚蠢?答:正因为愚蠢才有人类的今天!

艺术要闻

上海北外滩白玉兰广场的波特曼方案

数码要闻

英特尔Nova Lake处理器尺寸曝光:单芯片面积远超AMD

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版