网易首页 > 网易号 > 正文 申请入驻

苹果港大联合提出DiffuCoder,并带来首个扩散原生强化学习方案

0
分享至

最近这段时间以来,扩散语言模型(DLMs,Diffusion Language Models)愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后,谷歌在不久前也发布了他们的 DLM Gemini Diffusion,得益于其独特的并行生成机制,扩散模型在代码生成任务上表现出较大的潜力,尤其在提升生成速度和优化代码结构方面,被认为具有独特的优势。

不过,对于广大研究者和开发者而言,扩散模型在语言任务(尤其是代码生成)中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的?其生成过程与自回归模型有何本质不同?又该如何有效地对其进行优化?

近期,一篇由苹果公司与香港大学研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》(DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation)[1],对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder,还深入剖析了扩散模型的解码行为,并提出了一套为其量身定制的高效强化学习框架。

自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色,但对于代码生成这类本质上非线性的任务,存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作,这是自回归模型的单向生成模式难以直接模拟的。

相比之下,扩散模型采用迭代式的并行“去噪”过程。它从一个完全被 [MASK] 覆盖的序列开始,在多次迭代中同时评估所有位置,并逐步将 [MASK] 替换为实际词元。这种全局、并行的生成方式,理论上更适合处理代码这种具有复杂结构依赖的任务。

为了量化评估扩散模型的实际生成行为,研究团队引入了一个名为“自回归性”(AR-ness)的度量指标。该指标从“局部连续性”(模型生成相邻词元的倾向)和“全局顺序性”(模型从左至右填充的倾向)两个方面,分析模型的解码模式。

分析结果显示,扩散模型在解码时并不是完全随机的。受文本数据固有顺序性的影响,模型对紧邻提示词右侧的位置表现出更高的预测置信度,研究者将此现象称为“熵池”(Entropy Sink)。同时,这种“自回归性”的程度会随任务类型变化:在生成代码时,模型的全局“自回归性”显著低于生成数学解题步骤,这表明模型能够根据任务特性调整其生成策略。

研究还发现,采样温度(temperature)对扩散模型具有双重影响。在自回归模型中,提高温度主要用于增加词元选择的多样性。但在扩散模型中,温度的改变还会明显影响其对“在哪个位置生成”的决策。提高采样温度会使模型的生成顺序更加灵活和多样化,不再严格局限于从左到右。这种行为多样性的增加,为后续的强化学习优化指明了方向。

利用强化学习优化代码生成是当前的主流方法,其奖励信号通常来自代码单元测试的通过率。但将标准强化学习算法应用于扩散模型面临挑战,主要在于精确估计生成序列的概率需要高昂的计算成本,且采样过程会引入高方差,导致训练不稳定。

为了解决这个问题,研究团队提出了一种名为“耦合-GRPO”(coupled-GRPO)的强化学习算法。该算法的核心是引入一种互补成对的掩码采样方案。在训练的每一步,算法会为同一个代码样本创建一对互补的掩码。例如,若一个掩码覆盖了序列中的奇数位置,则另一个掩码就精确覆盖偶数位置。通过这种设计,在两次模型前向传播中,序列中的每个词元都能被评估一次。

这种“耦合采样”机制有几个优点。首先,它保证了对所有词元的完整评估。其次,每个词元都是在有部分上下文的环境下被评估的,这比在完全隔离(全掩码)的情况下进行评估更接近真实解码情况,从而显著降低了概率估计的方差。该方法基于对偶变量(Antithetic Variates)的统计学原理,从理论上保证了方差的降低,使强化学习的训练过程更加稳定。

研究团队在多个代码生成基准测试上验证了 DiffuCoder 的性能。结果显示,经过 1,300 亿词元预训练的 DiffuCoder 基础模型,其性能已经与 Qwen2.5-Coder、OpenCoder 等开源自回归代码模型不相上下。

且相较于仅进行指令微调的版本,经过 coupled-GRPO 训练的模型在 EvalPlus 上还实现了 4.4% 的性能提升(这一改进仅使用了 21,000 个训练样本)。

进一步的分析显示,优化后的模型“自回归性”降低,对并行解码的适应性更强。当解码步数减半(即生成速度加倍)时,优化后的模型性能下降幅度更小。这表明模型对严格生成顺序的依赖性降低,更能发挥扩散模型并行生成的潜力。

参考资料:

1. https://arxiv.org/pdf/2506.20639

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国总理携夫人率内阁新年祈福,祈愿2569年国泰民安

泰国总理携夫人率内阁新年祈福,祈愿2569年国泰民安

随梦而飞起
2026-01-06 10:15:00
闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

揽星河的笔记
2026-01-07 16:04:46
如何健康地死去

如何健康地死去

果壳
2026-01-05 20:47:02
官宣!CCTV5直播U23亚洲杯,中国队首轮即生死战:输球=基本出局

官宣!CCTV5直播U23亚洲杯,中国队首轮即生死战:输球=基本出局

侃球熊弟
2026-01-07 00:30:03
美国向中东派遣至少50架加油机,神棍计划外逃莫斯科

美国向中东派遣至少50架加油机,神棍计划外逃莫斯科

金召点评
2026-01-06 09:59:38
直冲16℃!南京天气即将大幅回升

直冲16℃!南京天气即将大幅回升

现代快报
2026-01-07 15:06:05
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
6连板!翻倍牛股,A股第一

6连板!翻倍牛股,A股第一

新浪财经
2026-01-07 16:25:42
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

奇思妙想草叶君
2026-01-05 23:13:15
一条新闻消失了

一条新闻消失了

深蓝财经
2026-01-07 14:22:05
鲁比奥:美国计划从丹麦手中“购买”格陵兰岛

鲁比奥:美国计划从丹麦手中“购买”格陵兰岛

界面新闻
2026-01-07 13:26:50
依木兰落选原因曝光!名记:对抗无优势,未来大有用武之地

依木兰落选原因曝光!名记:对抗无优势,未来大有用武之地

奥拜尔
2026-01-07 15:03:33
“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

菁妈育儿
2026-01-03 12:44:30
7分钟,20%封死涨停!光刻机板块,全线爆发!

7分钟,20%封死涨停!光刻机板块,全线爆发!

证券时报
2026-01-07 12:43:28
沪指14连阳,全天成交额近2.9万亿!中信证券尾盘现14.52亿元巨额卖单

沪指14连阳,全天成交额近2.9万亿!中信证券尾盘现14.52亿元巨额卖单

红星资本局
2026-01-07 17:51:12
降元大将质问文天祥:我守襄阳6年无援,丞相凭什么骂我乱贼?

降元大将质问文天祥:我守襄阳6年无援,丞相凭什么骂我乱贼?

长风文史
2026-01-06 11:53:13
情况已经开始不对劲儿了,马杜罗成烫手山芋,把人交给俄罗斯?

情况已经开始不对劲儿了,马杜罗成烫手山芋,把人交给俄罗斯?

小陆搞笑日常
2026-01-07 08:15:51
日本梅毒泛滥、“神待少女” 丛生:百毒遍地,遥遥领先

日本梅毒泛滥、“神待少女” 丛生:百毒遍地,遥遥领先

半耳聆
2026-01-07 17:21:19
周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

知鉴明史
2025-12-30 18:33:55
13年后王石又做了一锅红烧肉,终究比不过胡歌的那锅红烧肉

13年后王石又做了一锅红烧肉,终究比不过胡歌的那锅红烧肉

阿讯说天下
2026-01-06 15:30:46
2026-01-07 20:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16090文章数 514457关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

结束访华行程当天 李在明最新涉华表态

头条要闻

结束访华行程当天 李在明最新涉华表态

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
艺术
健康
本地
手机

旅游要闻

冬日限定!伏羲大峡谷冰挂进行时!

艺术要闻

David Grossmann:不一样的风景画

这些新疗法,让化疗不再那么痛苦

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

手机要闻

三星S27 Ultra再次被确认:主摄、超广角全面提升,S26系列不香了

无障碍浏览 进入关怀版