网易首页 > 网易号 > 正文 申请入驻

苹果港大联合提出DiffuCoder,并带来首个扩散原生强化学习方案

0
分享至

最近这段时间以来,扩散语言模型(DLMs,Diffusion Language Models)愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后,谷歌在不久前也发布了他们的 DLM Gemini Diffusion,得益于其独特的并行生成机制,扩散模型在代码生成任务上表现出较大的潜力,尤其在提升生成速度和优化代码结构方面,被认为具有独特的优势。

不过,对于广大研究者和开发者而言,扩散模型在语言任务(尤其是代码生成)中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的?其生成过程与自回归模型有何本质不同?又该如何有效地对其进行优化?

近期,一篇由苹果公司与香港大学研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》(DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation)[1],对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder,还深入剖析了扩散模型的解码行为,并提出了一套为其量身定制的高效强化学习框架。

自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色,但对于代码生成这类本质上非线性的任务,存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作,这是自回归模型的单向生成模式难以直接模拟的。

相比之下,扩散模型采用迭代式的并行“去噪”过程。它从一个完全被 [MASK] 覆盖的序列开始,在多次迭代中同时评估所有位置,并逐步将 [MASK] 替换为实际词元。这种全局、并行的生成方式,理论上更适合处理代码这种具有复杂结构依赖的任务。

为了量化评估扩散模型的实际生成行为,研究团队引入了一个名为“自回归性”(AR-ness)的度量指标。该指标从“局部连续性”(模型生成相邻词元的倾向)和“全局顺序性”(模型从左至右填充的倾向)两个方面,分析模型的解码模式。

分析结果显示,扩散模型在解码时并不是完全随机的。受文本数据固有顺序性的影响,模型对紧邻提示词右侧的位置表现出更高的预测置信度,研究者将此现象称为“熵池”(Entropy Sink)。同时,这种“自回归性”的程度会随任务类型变化:在生成代码时,模型的全局“自回归性”显著低于生成数学解题步骤,这表明模型能够根据任务特性调整其生成策略。

研究还发现,采样温度(temperature)对扩散模型具有双重影响。在自回归模型中,提高温度主要用于增加词元选择的多样性。但在扩散模型中,温度的改变还会明显影响其对“在哪个位置生成”的决策。提高采样温度会使模型的生成顺序更加灵活和多样化,不再严格局限于从左到右。这种行为多样性的增加,为后续的强化学习优化指明了方向。

利用强化学习优化代码生成是当前的主流方法,其奖励信号通常来自代码单元测试的通过率。但将标准强化学习算法应用于扩散模型面临挑战,主要在于精确估计生成序列的概率需要高昂的计算成本,且采样过程会引入高方差,导致训练不稳定。

为了解决这个问题,研究团队提出了一种名为“耦合-GRPO”(coupled-GRPO)的强化学习算法。该算法的核心是引入一种互补成对的掩码采样方案。在训练的每一步,算法会为同一个代码样本创建一对互补的掩码。例如,若一个掩码覆盖了序列中的奇数位置,则另一个掩码就精确覆盖偶数位置。通过这种设计,在两次模型前向传播中,序列中的每个词元都能被评估一次。

这种“耦合采样”机制有几个优点。首先,它保证了对所有词元的完整评估。其次,每个词元都是在有部分上下文的环境下被评估的,这比在完全隔离(全掩码)的情况下进行评估更接近真实解码情况,从而显著降低了概率估计的方差。该方法基于对偶变量(Antithetic Variates)的统计学原理,从理论上保证了方差的降低,使强化学习的训练过程更加稳定。

研究团队在多个代码生成基准测试上验证了 DiffuCoder 的性能。结果显示,经过 1,300 亿词元预训练的 DiffuCoder 基础模型,其性能已经与 Qwen2.5-Coder、OpenCoder 等开源自回归代码模型不相上下。

且相较于仅进行指令微调的版本,经过 coupled-GRPO 训练的模型在 EvalPlus 上还实现了 4.4% 的性能提升(这一改进仅使用了 21,000 个训练样本)。

进一步的分析显示,优化后的模型“自回归性”降低,对并行解码的适应性更强。当解码步数减半(即生成速度加倍)时,优化后的模型性能下降幅度更小。这表明模型对严格生成顺序的依赖性降低,更能发挥扩散模型并行生成的潜力。

参考资料:

1. https://arxiv.org/pdf/2506.20639

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年高考数学满分率为0

今年高考数学满分率为0

新浪财经
2026-06-22 16:59:55
属羊6月23日至25日将有一生中最大的横祸不是玄学要小心

属羊6月23日至25日将有一生中最大的横祸不是玄学要小心

牛锅巴小钒
2026-06-23 18:18:14
乌克兰可能在日本生产作战无人机,中方回应:国与国开展合作应当有利于促进地区和平稳定

乌克兰可能在日本生产作战无人机,中方回应:国与国开展合作应当有利于促进地区和平稳定

政知新媒体
2026-06-23 15:28:19
拉姆:因凡蒂诺“出卖”了世界杯,并削弱了足球的公信力

拉姆:因凡蒂诺“出卖”了世界杯,并削弱了足球的公信力

懂球帝
2026-06-23 19:04:09
以色列只是背锅的!真正使特朗普签投降协议的,是中国的石油储备

以色列只是背锅的!真正使特朗普签投降协议的,是中国的石油储备

阿握聊事
2026-06-23 13:07:56
米兰达可儿身材太辣了

米兰达可儿身材太辣了

情感大头说说
2026-06-23 18:57:08
婆婆去世,丈夫失联,儿子转性,52岁的王艳,如今活成了人生赢家

婆婆去世,丈夫失联,儿子转性,52岁的王艳,如今活成了人生赢家

东方不败然多多
2026-06-23 17:08:38
皇马收到明确底价:想签下迈克尔・奥利塞,必须掏出2.22亿欧元!

皇马收到明确底价:想签下迈克尔・奥利塞,必须掏出2.22亿欧元!

夜白侃球
2026-06-22 22:14:51
宝马断臂求生!7月停产全部国产纯电,All in新世代豪赌翻盘

宝马断臂求生!7月停产全部国产纯电,All in新世代豪赌翻盘

小怪吃美食
2026-06-23 07:33:29
章子怡坦言:你帮别人养孩子我管不着,但我儿女的抚养费一定给全

章子怡坦言:你帮别人养孩子我管不着,但我儿女的抚养费一定给全

张鴘喜欢软软糯糯
2026-06-21 00:17:49
评论员:如果C罗想成为GOAT,那他就必须赢得一座世界杯

评论员:如果C罗想成为GOAT,那他就必须赢得一座世界杯

懂球帝
2026-06-23 11:38:07
千万别低估每月2000多的退休金,等你老了,它可以胜过你养的子女

千万别低估每月2000多的退休金,等你老了,它可以胜过你养的子女

小马达情感故事
2026-06-23 19:10:03
沈阳“五环”定了,三份重要文件拍板,这次真要动工了!

沈阳“五环”定了,三份重要文件拍板,这次真要动工了!

醉美盛京
2026-06-23 12:11:25
钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

悄悄史话
2026-06-21 14:06:30
英格兰让2球太深了!78.8%胜率背后,加纳这数据暗藏杀机

英格兰让2球太深了!78.8%胜率背后,加纳这数据暗藏杀机

林子说事
2026-06-23 16:10:02
林庆华,已任甘肃省领导!湖南省委副秘书长白云峰,任郴州市代市长!

林庆华,已任甘肃省领导!湖南省委副秘书长白云峰,任郴州市代市长!

吃货的分享
2026-06-23 11:55:30
这真是全新一代宝马X5?外媒:全新宝马X5将于6月30日全球首发

这真是全新一代宝马X5?外媒:全新宝马X5将于6月30日全球首发

优视汽车
2026-06-23 16:22:20
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现5症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现5症状

叙说医疗健康
2026-06-18 08:00:23
很多人已经在崩k的边缘了!

很多人已经在崩k的边缘了!

黯泉
2026-06-21 17:42:51
随着挪威3-2,法国3-0大胜!最新积分榜:3队晋级,阿根廷锁第一

随着挪威3-2,法国3-0大胜!最新积分榜:3队晋级,阿根廷锁第一

体育就你秀
2026-06-23 10:39:06
2026-06-23 19:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16872文章数 515044关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

家居
房产
本地
数码
公开课

家居要闻

绿意盎然 自然之境

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

数码要闻

System76推16" Linux移动工作站Serval WS,至高290HX Plus

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版