网易首页 > 网易号 > 正文 申请入驻

扩散语言模型新发现:其计算潜力正在被浪费?

0
分享至



机器之心报道

机器之心编辑部

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。

和自回归(AR)语言模型不同,MDLM 的训练目标是随机遮蔽序列中的若干位置,模型学习去 in-fill(填充)这些被遮蔽位置。这样训练出来的模型存在诸多优势,如支持任意顺序解码、多 token 并行解码等。此前有研究表明,MDLM 的这些优势使其在数独等逻辑谜题上的表现得到显著提升。

然而,最近的一篇论文有了一些意外发现:在数学和编码任务中,任意顺序算法的性能往往不如从左到右采样,或者表现与之相似,而标准的多 token 解码会显著降低性能。即使仅在两个 token 上进行并行解码,模型在主流基准任务上的性能也会显著下降。



使用 MDLM 进行从左到右的采样是一种适用于推理和编码的高效采样算法。如果没有 [Arriola et al., 2025] 提出的块大小(block sizes)来强制形成半自回归(AR)的从左到右结构,任意顺序会显著影响性能。



MDLM 能够并行生成多个固定 token,但这会降低准确性。作者使用块任意顺序熵解码,并行解码 1 个、2 个、4 个 token。可以看到,除数独外,在所有任务中,即使并行解码两个 token 也会导致性能显著下降。

这一结果引发了一个问题:既然 MDLM 在训练时投入了大量额外计算资源以建模所有被掩码位置的联合分布,那么这些额外的计算是否真的物有所值?



为了回答这个问题,研究者探究了如何将这些计算资源重新利用为有意义的推理与采样能力。他们证明,MDLM 提供了对所有掩码位置的条件分布的访问权限,并具备填充(in-filling)能力,这一特性解锁了传统 NTP 模型无法轻易实现的新型采样与后训练(post-training)机制。

首先,研究者展示了 MDLM 的填充能力如何开启新的模型提示范式。在本文中,他们提出了「提示即填充」(prompting-as-infilling) 的方法。与 NTP 模型仅能在序列起始位置添加提示不同,这种方法允许在多个位置添加由用户指定的上下文。

更具体地,他们提出了「推理即填充」(reasoning-as-infilling) 的框架。在该框架中,研究者预先构造了一个显式的「推理模板」(reasoning template),其中包含特定的推理位置与答案位置(参见图 1)。这一模板结构使得模型能够基于给定的推理预算和格式,对推理轨迹进行采样。



研究者发现,基于填充的模板带来了多项优势。通过显式区分 token 答案的位置,模型可以利用 MDLM 提供的被掩码位置的条件分布,在推理过程中量化答案的不确定性。由此,模型一旦在答案上收敛,就能够提前退出(early exit),从而降低推理计算成本。例如,在 GSM8k 数据集上,这种方法减少了 24% 的函数调用,且模型准确率没有任何下降。

「推理即填充」不仅带来新的推理方式,也对模型行为分析与性能提升具有重要意义。给定一个答案,研究者就可以从 MDLM 的后验分布中采样,该后验分布是以答案为条件的推理轨迹,即 p_θ (r | c, a)。

这种在 MDLM 框架下对后验分布进行便捷采样的能力,使得研究者能够生成高质量的「事后推理(post-hoc reasoning)轨迹」,并将其用于模型微调,从而提升整体性能。

随后,研究者重新审视了多 token 解码问题。他们指出,在同一步骤中同时解码多个位置,会导致生成样本偏离模型学习到的真实分布,因为联合分布与分解分布通常不一致:



为了解决这一偏差,研究者提出利用被掩码位置的熵值来指导解码过程,从而控制多 token 解码相对于单 token 解码的偏离程度。

基于这一思路,他们提出了一种自适应多 token 解码器 ——多 token 熵解码(MED)。该方法仅在附加位置的条件熵低于设定阈值时,才进行并行解码。

实验结果表明,MED 方法能够在保持性能几乎不变(或仅有轻微下降)的情况下,实现 2–3 倍的函数调用减少,显著降低推理计算量。



  • 论文标题:No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
  • 论文链接:https://arxiv.org/pdf/2510.19990

重新思考 MDLM 的推理与采样

MDLM 通过建模被掩码位置 j ∈ MASK-SET 的条件分布来学习对序列进行填充,其中 x_UNMASKED 表示未被掩码的文本,c 表示上下文。



通常情况下,MDLM 的提示方式与 NTP 模型类似,而被掩码位置的分布仅被用于在少量固定的位置进行采样,其余位置的分布会被直接丢弃。

在本研究中,研究者表明,MDLM 所具备的填充能力,以及其对所有被掩码位置的分布的访问能力,开启了许多新的采样与后训练潜能。

  • 推理即填充:用于控制、早退出与后训练优势。 研究者提出在序列的多个部分预先填充用户指定的提示。对于推理任务,他们首先预填一个区分推理位置与答案位置的推理模板,然后使用 MDLM 模型对其进行填充。这种提示方式使得研究者能够在推理过程中控制推理长度,并在生成推理轨迹的同时衡量答案区块的不确定性,以支持早退出机制。此外,他们还展示了这种方法如何为 MDLM 的后训练提供新的研究方向。
  • 多 Token 熵解码(MED)。研究者提出了一种自适应的多 token 解码算法 MED。该方法通过仅在解码位置的条件熵低于某一阈值时才同时解码多个位置,从而控制多 token 解码引入的误差。

假设:研究者假设,MDLM 模型所学习到的掩码条件分布能够定义出一致的联合分布。

推理即填充

一般而言,NTP 模型在推理阶段的控制方式是:在序列的开头插入一个提示前缀(prompt prefix)。然而,对于 MDLM,研究者提出可以在输出序列中预先填充用户指定的 token。

在推理任务中,当模型在生成最终答案之前会输出一段推理轨迹时,研究者可以在输出序列中预填一个区分推理 token 与答案 token 的推理模板:



其中,答案分隔符(answer delimiter) 由用户自行指定,例如在数学任务中可以是「The answer is: 」,而在代码生成任务中可以是函数定义等。在这种提示方式的重新表述中,上下文 c 现在包含了提示和答案分隔符,如图 1 所示。通过区分推理位置与答案位置,「推理即填充」在采样与后训练方面都提供了多项优势。



2、使用「推理即填充」对 MDLM 进行后训练

通常,对模型进行推理类后训练需要大量昂贵的人类示范数据。有人证明基于模型自身生成的推理轨迹进行后训练也可以提升性能。这类方法的核心思想是:从后验分布 p_θ (r | c, a) 中采样推理轨迹,再用这些样本进行训练,从而提升模型生成正确答案的概率。

然而,对于标准的 NTP 模型,从后验分布采样是不可行的。因此,部分研究者采用了近似采样方法,这些方法要么需要复杂的提示设计,要么需要额外训练一个模型来根据答案提示生成推理轨迹。

相比之下,借助 MDLM 的「推理即填充」方法,只需在输出序列中预先填充答案块位置,即可实现从后验分布中采样,而无需复杂提示设计或额外训练模型。这些后验采样得到的推理轨迹可以用于多种后训练方法。

3、在后训练中对部分推理轨迹进行评分

现有的微调算法(如 GRPO 和 RLOO )通常不使用后验样本,而是仅在生成完成后对结果进行打分。这些算法可以从中间奖励中获益。近期研究表明,在生成过程中引入中间奖励有助于模型采样出更有利于微调的样本。这些中间奖励一般由外部的预训练过程奖励模型提供。而通过「推理即填充」,在已知答案的情况下,MDLM 可以在中间步骤对任意部分推理轨迹进行评分。给定部分推理轨迹 r_UNMASKED 和一个答案 a^*,可以计算其得分:



直观上,当对于某个推理轨迹 r_UNMASKED,其生成的答案各个 token 的似然值更高时,该推理轨迹往往更有可能产生正确答案。

多 Token 熵解码



实验结果

使用多 token 熵解码的加速采样

如图 3 所示,对于 LLaDA 和 Dream,仅并行解码 k=2 个 token 会导致它们在 GSM8k 上的准确率大幅下降(超过 40%)。作者发现,解码 k=2 还会导致 KL 散度显著增加。使用 λ=0.2 的 MED 方法,能为 LLaDA 和 Dream 带来显著的速度提升,且不会损失准确率。在 HUMANEVAL 上,MED 方法在实现 2.2 倍速度提升的同时,准确率保持不变;而在 GSM8k 上,可以观察到其实现了 1.5 倍的速度提升,且性能没有损失。



此外,在表 6 中,作者还测量了单 token 解码方案与多 token 解码方案的似然值之间的 KL 散度。



推理即填充的好处

在表 2 中,可以观察到:对于 Dream 和 LLaDA 两种模型而言,提前退出都能减少总的 NFE。随着提前退出阈值 γ 的提高,模型能够在牺牲一定任务精度的情况下换取更快的推理速度。当提前退出与 MED 或 AR-MED 结合使用时,可获得进一步的计算节省。

值得注意的是,提前退出带来的收益在 LLaDA 模型上比 Dream 模型更显著。Dream 模型要实现相似的加速效果,通常需要设定更高的退出阈值。这一差异可能源于 Dream 模型的结构与来源 —— 它是由 NTP 模型改编而来。



通过表 4 可以观察到,在由基础模型生成的后验数据上对模型进行微调,显著提升了性能(提升 14.9%)。在 GSM8k 人工标注的推理轨迹上进行微调能产生相似的结果。这些结果证明,最大化后验推理轨迹上的对数似然可提高推理任务的准确率。



之前有研究发现,中间过程奖励能提升模型微调效果,但通常需要额外训练外部模型。在图 4 中,作者比较了在给定中间奖励的情况下,用于估计部分推理轨迹最终正确性的各种策略。



使用 LLaDA-8B Instruct 模型,作者在 GSM8k 测试集上采用贪心采样策略,从左到右、逐 token 生成答案。随后,他们计算了中间奖励与最终输出正确性之间的 Pearson 相关系数。

在推理过程中,利用答案的对数概率定义的中间推理过程,与最终答案正确性在中间步骤上的相关性,比一个拥有 70 亿参数的预训练过程奖励模型更强。

值得注意的是,作者还发现,测量答案块的对数概率有助于过滤通过后验采样生成的低质量推理链。对于一个未预填答案的后验推理链,其 MDLM 平均答案概率能够预测 GPT-4o 的推理链正确性得分。

这些结果表明,MDLM 预训练带来了新的后训练能力:

  • 可以提前终止或过滤低质量的推理链;
  • 可以引导推理过程朝正确解方向发展;
  • 可以在推理失败处自动插入「反思」token;
  • 还可以将新的密集反馈信号纳入微调目标中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布达诺夫亲自指挥,乌克兰又“定点清除”!追捕战争罪犯正在行动

布达诺夫亲自指挥,乌克兰又“定点清除”!追捕战争罪犯正在行动

鹰眼Defence
2025-11-02 16:09:07
十大将里谁能让57位上将全服?

十大将里谁能让57位上将全服?

梨花头
2025-11-02 14:45:47
安世中国凌晨发布公告:不存在违约行为,荷兰安世欠付ATGD货款高达10亿元人民币

安世中国凌晨发布公告:不存在违约行为,荷兰安世欠付ATGD货款高达10亿元人民币

极目新闻
2025-11-02 09:27:59
三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

封面新闻
2025-11-02 12:57:02
演员金靖否认“背刺李佳琦”:我从来没有删过他任何东西,此前网传金靖“删除与李佳琦相关内容”引发“背刺”猜测

演员金靖否认“背刺李佳琦”:我从来没有删过他任何东西,此前网传金靖“删除与李佳琦相关内容”引发“背刺”猜测

极目新闻
2025-11-02 22:39:12
老年人如何应对肌肉流失?医生提醒:坚持这两个方法,效果非常好

老年人如何应对肌肉流失?医生提醒:坚持这两个方法,效果非常好

老嘪科普
2025-10-23 19:21:38
天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

TVB的四小花
2025-10-22 02:25:03
心疼!4岁娃打一针没了,妈妈哭晕倒,涉事人已被抓,官方已介入

心疼!4岁娃打一针没了,妈妈哭晕倒,涉事人已被抓,官方已介入

观察鉴娱
2025-11-01 18:31:25
傻了吧?台积电南京厂用大陆高额利润补贴海外工厂,这下跳不起了

傻了吧?台积电南京厂用大陆高额利润补贴海外工厂,这下跳不起了

豆腐脑观察局
2025-10-29 21:45:03
江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

小蜜情感说
2025-11-02 11:59:32
数万亿美元“放水救市”,美联储降息冲击中国,资产异动超出预期

数万亿美元“放水救市”,美联储降息冲击中国,资产异动超出预期

叮当当科技
2025-11-02 00:04:38
静待官宣:瓦科签约27赛季!崔康熙团队起作用?泰山助教:祝福他

静待官宣:瓦科签约27赛季!崔康熙团队起作用?泰山助教:祝福他

建哥说体育
2025-11-02 07:53:58
捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

吃瓜盟主
2025-08-30 15:53:04
奥迪E5 Sportback在华发布 首用字母标识替代四环车标

奥迪E5 Sportback在华发布 首用字母标识替代四环车标

墨谈科技
2025-11-02 22:38:51
这是吴石将军牺牲时的真实照片,绳子绕颈,害怕他临刑时大喊口号

这是吴石将军牺牲时的真实照片,绳子绕颈,害怕他临刑时大喊口号

大国纪录
2025-10-30 09:56:59
警惕!某地学校出现暴发疫情,疾控提醒:科学预防这样做更有效!

警惕!某地学校出现暴发疫情,疾控提醒:科学预防这样做更有效!

成都龙泉教育
2025-11-02 14:05:23
看完获奖短片《苍蝇一分钟的人生》,我撕碎了自己的人生清单

看完获奖短片《苍蝇一分钟的人生》,我撕碎了自己的人生清单

洞见
2025-10-20 22:37:17
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

刘姚尧的文字城堡
2025-11-02 13:04:08
来了,曼城!8000万顶级“节拍器”空降!1.3亿重建“右路走廊”

来了,曼城!8000万顶级“节拍器”空降!1.3亿重建“右路走廊”

头狼追球
2025-11-01 17:17:00
2025-11-02 23:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
教育
房产
家居
艺术

核磁VS肌骨超声,谁更胜一筹?

教育要闻

不要逼孩子天天考第一,真善美才是无价之宝

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

家居要闻

吸睛艺术 富有传奇色彩

艺术要闻

Rob van Hoek:荷兰浪漫田园风光画家

无障碍浏览 进入关怀版