网易首页 > 网易号 > 正文 申请入驻

扩散语言模型总是均匀发力,华为诺亚教它「抓重点」

0
分享至



机器之心编辑部

这两年,扩散语言模型(Diffusion LLM)一直是个很有讨论度的方向。

和传统自回归模型不同,扩散模型不是严格按从左到右一个 token 一个 token 往外吐,它在生成方式上更灵活,也天然更适合并行建模。可问题也一直摆在那里:这条路很有潜力,但真正把效果做上去并不容易。

最近有一篇来自华为诺亚方舟实验室的工作,探究了扩散模型训练中的 “默认设置”。论文标题叫 Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs。作者没有先去改模型结构,而是把目光放回了训练过程里一个看起来很基础、但其实一直被默认接受的设定:masking 到底该怎么做



  • 论文链接:https://arxiv.org/abs/2603.15803
  • 数据集链接:https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted

这篇文章给出的判断是,现有很多离散扩散语言模型在训练时采用的均匀随机 masking,其实有点 “平均用力” 了。

这个问题在一般文本里可能还没那么明显,但到了代码和数学推理任务上,就会变得很突出。因为这类数据里,真正决定模型能不能做对的,往往只是少数几个关键位置:在代码任务里,可能是关键的分支条件、判断逻辑;在数学里,可能是关键的化简步骤、函数替换,这些东西显然比连接词或者格式内容更重要。事实上,真实序列里的信息密度本来就不是均匀分布的,而传统随机 masking 却默认每个位置都差不多,这会被动地让模型把不少优化资源花在不那么关键的地方。

说白了,就是模型学的时候没太分清主次,所有东西都一样对待了。

不是所有 token 都一样重要

这篇工作的核心想法其实一句话就能概括:

既然不同 token 的信息量不一样,那训练时就不该对它们一视同仁。

围绕这个想法,作者提出了一个更加 Smart(Input Information Density Aware)的 Noise Scheduler。它做了一件很简单且直观的事情:先想办法把样本里那些 “信息密度高” 的位置找出来,然后在训练时更优先地 mask 掉这些位置,逼着模型去学会恢复真正关键的部分。

这套做法背后的直觉其实很自然,人做完形填空的时候,也不会觉得补一个逗号和补一句关键结论的难度是一样的。真正能拉开差距的,通常就是那些牵一发而动全身的地方。论文里也提到,这种设计的直觉和人类的挖空练习很接近:更高效的学习,往往不是去恢复冗余内容,而是去恢复核心概念。



先找 “重点”,再决定怎么 mask

具体做法上,作者先做了一步高信息密度区域提取(Step 1)。



对于代码数据和数学数据,作者设计了一些不同的 criteria。将数据中的关键信息区域提取出来之后,这些区域会在原始序列中被高亮标记出来,后面训练时的噪声调度就会参考这些特殊标记。

接下来进入真正的 masking 阶段(Step 2)。和传统做法不同,这里不是所有位置都按同样概率被 mask。作者把序列分成两类:一类是优先区域,也就是那些信息密度高的 token;另一类是普通区域。前者会被赋予更高的 mask 概率,后者保持较低概率。与此同时,整体的 mask 比例仍然会被控制住,不会因为 “偏心” 了某些位置就把整个噪声调度搞乱。

这个设计最关键的一点在于,它不是单纯 “多遮一点”,而是把训练难点往真正值得学的地方推。模型被反复要求补全的,不再只是随机缺失的内容,而是那些决定代码是否成立、推理是否走通的关键片段。

另一个小巧思:一条数据,两种学法

如果只是优先 mask 掉高信息区域,很容易让人担心另一个问题:模型会不会变得更会 “做题”,但对语言结构本身?

所以这里引入了扩散模型训练中常用的 Complementary Masking。

思路是:对同一条样本,Trainer 不只根据前文的 token-level 优先标记构造一个 priority mask,还会构造它的完全逻辑互补版本。也就是说,一份样本会变成两种互补的训练视角:一种把重点放在逻辑骨架上,另一种则更多保留这些关键位置,转而让模型去处理结构、语法和上下文连贯性。

这种将互补掩码与优先级掩码结合的设计得到了一种 1+1>2 的效果,因为它没有把问题简化成 “只要盯住重点就行”,而是承认:语言模型最终还是既要会推理,也得会组织语言。前一种视角更像是在逼模型抓住关键逻辑,后一种视角则是在防止它把句子写散、把上下文关系学丢。论文把这种效果称为一种基于信息密度的 decoupling,本质上是在把一条训练样本里的不同学习目标拆开。

改改噪声调度就能直接提点

实验部分,作者使用 LLaDA-2.0-mini 作为基础模型,在代码和数学数据上进行训练,最后在 HumanEval、MBPP、GSM8K、MATH500 四个 benchmark 上做评测。结果显示,相比标准的随机 masking baseline,这套方法的平均成绩提升了大约 4%。



这个幅度不属于那种一眼看上去特别炸裂的数字,但放在这里其实挺有说服力。原因在于,这项工作并没有去改 backbone,也没有上特别重的额外模块,它动的是训练范式本身,两个数字之间唯一的差异只有噪声调度。换句话说,它不是靠 “再堆一点结构” 把结果抬上去,而是证明了只要训练信号分配得更合理,扩散模型本身还有不少潜力没被用出来。

有个消融结果很值得注意:不是越狠越好

论文里另一个有启发性的部分,其实是关于 hard masking 和 soft masking 的比较。

直觉上你可能会觉得,既然高信息区域重要,那就干脆把这些位置狠狠遮掉,让模型专门练这个,不是更好吗?但实验结果并不是这样。作者发现,确定性的 hard masking 反而容易把训练搞坏,效果反而不如带概率的 soft masking。





他们给出的解释也挺合理。代码和数学里的高信息区域,很多时候在文本里是连续出现的。如果把这一整段连续内容都直接硬遮掉,那么在 block diffusion 的训练过程中,就相当于突然挖掉了一大片局部锚点,出现了一大片连续的 “内容黑洞”。论文把这个现象叫做 contextual collapse:局部参照一旦没了,训练过程就容易失稳,梯度轨迹也会变得很难控制。相比之下,soft mask 虽然也提高了这些位置被遮掉的概率,但毕竟还保留了随机性,不至于每次都把关键部分整个掏空,因此优化会平滑得多。

这一点其实挺像很多训练技巧最后都会落到的那个结论:方向对了不代表力度越大越好,给模型留一点缓冲,往往更重要。

只处理一小部分数据,就已经能看到收益

另一个比较实用的发现,是这套方法的数据效率。

作者没有要求对全部训练数据都做离线的信息密度提取,而是做了不同比例的数据实验。结果显示,只对 10% 的代码数据做这一步处理,就已经能把平均成绩从 55.32 拉到 59.45。再继续往上加到 30%,甚至加到 100%,性能提升会逐渐趋于饱和;到了 100% 时,虽然代码类指标还能冲高,但数学推理表现反而会掉下来。论文把这种现象归因于 domain shift:代码侧结构先验加得太多,反而挤占了模型在其他推理任务上的泛化空间。

这部分结果挺重要,因为它说明这件事并不一定是个 “高成本、重工程” 的方案。相反,作者给出的结论很明确:不需要全量标注,也不需要把整个训练流水线推倒重来,只要在一小部分数据上引入这种结构化先验,就能把基础扩散模型往上推一截。

扩散模型的训练过程还有很多细节可供挖掘

从结果上看,这篇工作当然是在讲一个 masked data training 的新做法。但如果再往后退一步看,它其实碰到了一个更根本的问题:扩散语言模型到底应该怎样分配自己的学习注意力。

过去很多工作习惯从模型结构、采样策略或者推理机制上找突破,这篇文章反而提醒了一件很朴素的事:你让模型学什么、在哪些位置上用力,本身就会决定它最后学成什么样。对于 DLLM 这种本来就高度依赖 noising /denoising 过程的模型来说,masking 不是配角,某种程度上它就是训练逻辑本身的一部分。

论文最后也提到,当前这套信息密度提取流程还是偏离线、偏启发式的。后面可以继续往几个方向走,比如基于 AST 的规则提取、基于模型自身置信度的自适应提取,或者干脆引入 GAN 的思想做成端到端可学习的对抗式 mask 模块。

如果这些方向后面能继续推进,那这篇工作的意义可能就不只是 “提出了一个有效的小改动”,而是在给 Diffusion LLM 提供一种更像样的训练思路:

先别急着让模型学会所有东西,先让它学会什么东西值得优先学。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国移动正式通知:4月30日起,这5项业务全部关停,老用户速查

中国移动正式通知:4月30日起,这5项业务全部关停,老用户速查

Thurman在昆明
2026-03-21 03:58:54
中国移动已正式发布:4月30日24时,全国统一关停5项老旧增值业务

中国移动已正式发布:4月30日24时,全国统一关停5项老旧增值业务

Thurman在昆明
2026-03-22 21:17:38
680家门店的最大粤菜连锁竟然不是广东人开的

680家门店的最大粤菜连锁竟然不是广东人开的

商业弧光
2026-03-22 07:09:18
人贩子梅姨落网,侦破大最大难点在哪?警方23年间做过哪些努力?

人贩子梅姨落网,侦破大最大难点在哪?警方23年间做过哪些努力?

之乎者也小鱼儿
2026-03-21 15:42:59
刚上映就爆了!《扫恶》上映拿下 9.1分,大尺度案件全程无尿点

刚上映就爆了!《扫恶》上映拿下 9.1分,大尺度案件全程无尿点

糊咖娱乐
2026-03-20 14:56:27
付鹏:全球投资者还在心存侥幸,最恐慌时刻还没到!下周A股怎么办?

付鹏:全球投资者还在心存侥幸,最恐慌时刻还没到!下周A股怎么办?

价值线传媒
2026-03-22 18:40:09
郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

体坛周报
2026-03-22 09:24:12
塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

达文西看世界
2026-03-22 12:21:40
陈思诚给天下男人上了一课:48岁可以花心可以贪心,但千万要收心

陈思诚给天下男人上了一课:48岁可以花心可以贪心,但千万要收心

小椰的奶奶
2026-03-22 16:38:49
中国再抛美债,不再救美元,美财长:中美绝不能脱钩断链

中国再抛美债,不再救美元,美财长:中美绝不能脱钩断链

潋滟晴方DAY
2026-03-22 12:00:31
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
明晚(3月23日)油价大涨,今年汽柴油涨超2.43元/升,接近10元时代

明晚(3月23日)油价大涨,今年汽柴油涨超2.43元/升,接近10元时代

油价早知道
2026-03-22 03:21:04
高市早苗访问阿灵顿国家公墓并向美国士兵敬献花圈,该公墓埋葬者包括广岛原子弹投弹手

高市早苗访问阿灵顿国家公墓并向美国士兵敬献花圈,该公墓埋葬者包括广岛原子弹投弹手

都市快报橙柿互动
2026-03-22 00:26:05
伊朗议长回应特朗普开放霍尔木兹海峡“最后通牒”

伊朗议长回应特朗普开放霍尔木兹海峡“最后通牒”

澎湃新闻
2026-03-22 19:56:28
6-7到9-7!塔猜亚双喜临门:决赛轰147夺赛点,奥沙利文或丢冠?

6-7到9-7!塔猜亚双喜临门:决赛轰147夺赛点,奥沙利文或丢冠?

刘姚尧的文字城堡
2026-03-22 21:26:47
费玉清哥哥现状:75岁须发黑浓密,单身享受晚年,姐弟仨相亲相爱

费玉清哥哥现状:75岁须发黑浓密,单身享受晚年,姐弟仨相亲相爱

查尔菲的笔记
2026-03-20 16:09:17
触碰民族红线!李祥波侮辱性言论引众怒,阿不都沙拉木强硬表态

触碰民族红线!李祥波侮辱性言论引众怒,阿不都沙拉木强硬表态

体育见习官
2026-03-22 18:33:23
同样演受气包母亲,46岁董璇和55岁闫妮一对比,差距彻底藏不住了

同样演受气包母亲,46岁董璇和55岁闫妮一对比,差距彻底藏不住了

肆季娱乐
2026-03-21 21:14:24
终于要补强大外援了?曝广东签下2米13防守大闸,朱芳雨放手一搏

终于要补强大外援了?曝广东签下2米13防守大闸,朱芳雨放手一搏

老叶评球
2026-03-22 18:05:04
中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

丁丁鲤史纪
2026-03-18 10:18:14
2026-03-22 22:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12557文章数 142590关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

艺术
教育
家居
手机
公开课

艺术要闻

70亿投资!乌鲁木齐新地标猛冲156米,抗震8.5度!

教育要闻

考研也有信用分?进了这个名单没学上!

家居要闻

时空交织 空间绮梦

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版