网易首页 > 网易号 > 正文 申请入驻

JustGRPO:扩散语言模型的极简主义回归

0
分享至



扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。

然而,本研究揭示了一个反直觉的现实:当前的任意顺序生成,反而通过「规避不确定性」收窄了模型的推理边界。

基于此,本文提出了一种回归极简的方法——JustGRPO。实验表明,在 RL 阶段让模型自回归生成,并直接用标准的 GRPO 进行训练,即可超越当前各类针对 dLLM 设计的 RL 算法表现。更重要的是,这种训练方式在提升推理表现的同时,并未牺牲dLLM 引以为傲的并行解码能力。



  • 论文标题:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
  • 论文链接:https://huggingface.co/papers/2601.15165
  • 项目主页:https://nzl-thu.github.io/the-flexibility-trap
  • 论文代码:https://github.com/LeapLabTHU/JustGRPO

「灵活性陷阱」:

为什么选择多反而考不好?

为了探究「灵活性是否等同于推理潜力」,本文引入了 Pass@k 作为核心衡量指标。该指标量化了在 k 次采样中至少生成一个正确答案的概率,能够有效反映模型解空间的覆盖广度以及 RL 训练可激发的推理潜力上限(Yue et al., 2025)。

对比实验涵盖了两种主要的解码模式:

  • 任意顺序(Arbitrary Order):允许模型根据置信度动态选择生成顺序,这是扩散语言模型的标准解码方式。
  • AR 顺序(AR Order):约束模型遵循传统 LLM 从左到右的生成顺序。

实验结果揭示了一个值得深思的趋势:虽然任意顺序在 k=1 时表现尚可,但随着采样次数 k 的增加,AR 顺序的 Pass@k 曲线不仅攀升速率更快,且最终达到的上限显著更高。这表明,在涉及复杂推理时,AR 顺序实际上可帮助模型覆盖更广阔的正确解空间。



图:限制 dLLM 使用标准的 AR 顺序,反而比灵活的任意顺序拥有更高的推理上限。

熵坍塌现象

为何看似受限的 AR 顺序反而更具潜力?这与两种顺序如何处理不确定性有关。

在自回归模式下,模型被迫直面第一个未知 Token;而在任意顺序模式下,模型则有跳过(bypass)当前不确定 Token、优先填充后续更确定的内容的「特权」。统计显示,被频繁跳过的往往是诸如「Therefore」、「Thus」、「To」等逻辑衔接词(下图左):



图左:任意顺序下,模型倾向于跳过不确定token而先填后续token,且这些被跳过的token往往是一些逻辑衔接词;图右:这些逻辑衔接词解码时的entropy显著低于自回归顺序(虚线代表average token entropy)。以上结果为LLaDA-Instruct在MATH-500数据集的结果。

已有工作(Wang et al., 2025)表明,这些逻辑衔接词往往起到通往不同推理路径的功能,且将这些词保持高熵状态对模型探索丰富的解空间至关重要。而在任意顺序下,这些衔接词被解码时的熵(Entropy)显著低于自回归顺序(上图右)。

我们将这种现象称为「熵降级」(Entropy Degradation)。形象地说,模型利用了任意顺序的灵活性进行了一种「局部贪婪优化」:它跳过了艰难的推理决策点,试图通过先生成后续上下文来「凑」出逻辑连接。虽然这在单次生成中可能有效,但却牺牲了对多样化推理路径的有效探索。



图:任意顺序生成倾向于绕过高熵的逻辑连接词,导致解空间过早坍缩。

返璞归真:

JustGRPO

既然「任意顺序」反而可能限制推理路径的探索,本文提出了一种回归极简的方法——JustGRPO。不同于现有 RL 算法,JustGRPO 不再试图用各种近似处理以显式保留任意顺序特性,而是选择了一条更为彻底的路径:

在 RL 训练阶段,直接摒弃对任意顺序的执念,强制扩散语言模型采用自回归(AR)顺序生成。这样不仅保持了更广阔的推理路径,同时也让我们得以直接复用成熟的 GRPO 算法进行优化。这种「生成轨迹的确定性」也自然使得强化学习时的信用分配(Credit Assignment)更加清晰,有助于模型更有效地学习鲁棒的联合分布。

值得一提的是:「训练时的约束」≠「推理时的退化」

自回归的约束仅存在于训练阶段。它的目的是为了让模型更有效地进行 RL 阶段的探索与信用分配,模型本身的双向注意力机制并未被破坏。一旦训练完成,我们依然可以在推理阶段无损地应用并行解码,在享受 AR 训练带来的更优推理表现的同时,保留扩散模型引以为傲的生成速度。

实验结果:

简单,但极其有效

性能大幅提升

在数学推理和代码生成这两类通用的推理任务上,JustGRPO 均有优秀的表现:

  • 数学推理:在 GSM8K 和 MATH-500 上,模型展现了极高的推理上限,准确率最高分别可达 89.8% 和 45.2%,相比之前的最佳方法(SPG)显著提升。

  • 代码生成:在 HumanEval 与 MBPP 数据集上,准确率分别达到 49.4% 和 52.4%。



表:JustGRPO在多个基准测试中超越了现有的 dLLM 强化学习方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大规模私有数据集训练、LLaDOU在训练中引入了额外模块,因此未列入对比。

并行能力不仅没丢,还更强了

一个可能的担忧是:用 AR 方式训练是否会让 dLLM 退化,失去其并行优势?实验结果恰恰相反。使用现成的 training-free 并行采样器(Ben-Hamu et al., 2025),JustGRPO 训练后的模型在并行解码下表现更佳。例如在 MBPP 数据集上,当每步并行解码 5 个 Token 时,JustGRPO 相比基座模型(LLaDA-Instruct)的准确率优势从单步的 10.6% 扩大到了25.5%。

这表明训练后的模型学到了更鲁棒的联合分布,使其更能适应并行采样过程中的近似误差。



图:JustGRPO 训练后的模型在并行解码时表现出更好的速度-精度权衡。

结语:

少即是多

这篇工作挑战了该领域的一个普遍假设,即「必须在 RL 中保留任意顺序灵活性」。事实证明,通过限制训练时的生成顺序,迫使模型直面逻辑分叉点的高不确定性,反而能更有效地激发 dLLMs 的推理潜能。

JustGRPO以一种极简的方式,实现了推理能力的大幅提升,同时未牺牲扩散模型标志性的推理速度。也希望借此工作启发社区重新审视「任意顺序生成」在通用推理任务中的真实价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

娱乐团长
2026-01-28 20:30:38
万科老王被传失联?

万科老王被传失联?

一莎观察
2026-01-30 20:37:05
郑丽文好猛,送高市早苗一记重拳!大陆决定:给国民党一个大面子

郑丽文好猛,送高市早苗一记重拳!大陆决定:给国民党一个大面子

长星寄明月
2026-01-31 09:47:48
人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

带你感受人间冷暖
2026-01-27 00:10:05
中印粮食产量对比:印度27亿亩耕地,年产3.3亿吨,中国有多少?

中印粮食产量对比:印度27亿亩耕地,年产3.3亿吨,中国有多少?

鲸探所长
2026-01-30 22:37:12
1976年,张耀祠率人前往毛远新的住处,向其宣布:依据中央的决定,对你实施保护审查

1976年,张耀祠率人前往毛远新的住处,向其宣布:依据中央的决定,对你实施保护审查

寄史言志
2026-01-26 11:58:21
婚变真相大白仅1月,王石没想到,田朴珺用一奖杯给他狠狠长脸了

婚变真相大白仅1月,王石没想到,田朴珺用一奖杯给他狠狠长脸了

查尔菲的笔记
2026-01-30 12:08:46
传22岁阿尔卡拉斯与34岁韩国DJ相恋 拉杜卡努去年曾是他绯闻女友

传22岁阿尔卡拉斯与34岁韩国DJ相恋 拉杜卡努去年曾是他绯闻女友

劲爆体坛
2026-01-29 07:42:36
里外不讨好!枪手名宿支持热刺击败曼城 结果遭本方球迷猛烈质疑

里外不讨好!枪手名宿支持热刺击败曼城 结果遭本方球迷猛烈质疑

雪狼侃体育
2026-01-31 09:41:10
两性关系:不管你信不信,男性过了68岁,基本都有这七个常见状态

两性关系:不管你信不信,男性过了68岁,基本都有这七个常见状态

健康科普365
2026-01-28 11:04:57
骆明:每支英超球队都有2张劳工证外卡,狼队为徐彬用了1张

骆明:每支英超球队都有2张劳工证外卡,狼队为徐彬用了1张

懂球帝
2026-01-30 19:00:04
"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

青橘罐头
2026-01-29 20:04:53
追梦:骑士想签回詹姆斯有两层意思 米切尔本该当场纠正小弟泰森

追梦:骑士想签回詹姆斯有两层意思 米切尔本该当场纠正小弟泰森

罗说NBA
2026-01-31 08:12:14
上海内线喜忧参半!洛夫顿关键球送命,白边已打成第一外援锁胜局

上海内线喜忧参半!洛夫顿关键球送命,白边已打成第一外援锁胜局

篮球资讯达人
2026-01-30 22:26:45
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
1942年,日军集结36万精锐死磕四川,眼看重庆不保,裕仁为何突然尖叫“停”?

1942年,日军集结36万精锐死磕四川,眼看重庆不保,裕仁为何突然尖叫“停”?

老杉说历史
2026-01-08 21:32:13
清洗草莓,有人放盐,有人放面粉,老果农:都不对,教你正确做法

清洗草莓,有人放盐,有人放面粉,老果农:都不对,教你正确做法

秀厨娘
2026-01-29 09:50:55
1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

寄史言志
2026-01-24 17:53:13
电视剧年度盛典:宋佳性感,孙千白到发光,孙俪优雅,高圆圆高级

电视剧年度盛典:宋佳性感,孙千白到发光,孙俪优雅,高圆圆高级

娱乐圈十三太保
2026-01-30 16:29:17
WTT支线赛:国乒提前夺2冠失1金!1月31日赛程公布,诞生5项冠军

WTT支线赛:国乒提前夺2冠失1金!1月31日赛程公布,诞生5项冠军

全言作品
2026-01-31 06:30:03
2026-01-31 10:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142557关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

女子将69万公款误转租客 对方接警方电话:你管得着吗

头条要闻

女子将69万公款误转租客 对方接警方电话:你管得着吗

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
健康
手机
旅游
亲子

艺术要闻

15位当代国外画家的16幅具象人物绘画

耳石症分类型,症状大不同

手机要闻

摩根大通:iPhone 17系列全球卖爆,成苹果最强增长引擎

旅游要闻

春节前遛娃必去,成都西安高铁直达,49.9元吃三国版满汉全席!

亲子要闻

这孩子……

无障碍浏览 进入关怀版