网易首页 > 网易号 > 正文 申请入驻

Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心编辑部

扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特性而备受关注,如能加速的非自回归并行生成特性,能直接起草编辑的特性,能数据增强的特性。然而,其模型能力往往落后于同等规模的强力自回归(AR)模型。

近日,华中科技大学和字节跳动联合推出了 Stable-DiffCoder。这不仅仅是一个新的扩散代码模型,更是一次关于 「扩散训练能否提升模型能力上限」 的深度探索。

Stable-DiffCoder 在完全复用 Seed-Coder 架构、数据的条件下,通过引入 Block Diffusion 持续预训练(CPT)及一系列稳定性优化策略,成功实现了性能反超。在 多个 Code 主流榜单上(如 MBPP,BigCodeBench 等),它不仅击败了其 AR 原型,更在 8B 规模下超越了 Qwen2.5-Coder ,Qwen3,DeepSeek-Coder 等一众强力开源模型,证明了扩散训练范式本身就是一种强大的数据增强手段。


  • 论文标题:Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

  • 论文链接: https://arxiv.org/pdf/2601.15892

  • Github 链接: https://github.com/ByteDance-Seed/Stable-DiffCoder

  • 模型链接: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder


扩散过程难以高效学习样本知识

扩散过程虽然表面上可以扩充很多数据,可以作为一个数据增强的手段,但是实际上会引入很多噪声甚至错误知识的学习。

例如下面的例子:

将其 mask 成

可以发现对于最后一个 mask_n,其只能在看见 a=1,b=2 的情况下去学习 a+b=7,会形成错误的知识映射。最后充其量也只能学到,a=3,b=4 在 a+b = 这个语境下的共现概率更大一点,不能学到明确的加法规则。

token 推理的知识和流程设计

论文通过建模这个知识的学习来解释这个现象:


假设 c 是当前可见的样本,根据真实分布通过这些样本在当前位置能够推理出的 token 集合为 C (c),大小为 K (c)(这里多个 token 同时推理的情景一致,因此只简单的考虑单个 token 推理)。由于使用的真实分布来定义的,所以 c 越多越干净的时候,K (c) 越小。

可以知道模型最后希望学习的分布是


,而要学好这个过程需要满足两个条件:(1)K (c) 比较小;(2)从数据中采样的 c 要尽可能多。

因此,如果用纯双向的扩散过程,在 mask 比例较大的时候,当前 token 见到的 c 变小,不干净的概率变大,导致 K (c) 变大,难以映射到清晰的规则。同时其会产生会产生各种各样的 c,平均每个 c 的学习量会减小。另外,还要保证训练采样的 c 跟推理用的 c 是一致的,才能更好的使用训练学习的知识。

接下来论文通过在 2.5B 的模型设计实验来进一步阐释并证明这个结论。论文从一个 AR model 初始化,然后训练一段新的知识。论文设计了 3 个训练方式来探索:


(1)AR->BiDLLM: 用 AR 的方式继续训练,在 100k step 的时候 CPT 成双向的 DLLM。

(2)ARDLLM->BiDLLM: 用 AR 的结构,但是使用纯双向的采样模式来训练。然后 100k step CPT 成 BiDLLM。

(3)BiDLLM:使用纯双向的 DLLM 训练。

可以发现,最后效果是(1)>(2)>(3),这也符合前面的理论。不用随机 [MASK] 的(1)方案对于知识有更快的压缩速度,并且转换成 BiDLLM 也保持着最佳性能,这可以证明在要高效的学好一个 DLLM,可以用 AR 或者小 block size 的 block diffusion 来进行知识压缩。另外有趣的是,在 block=32 时(1)和(2)的表现比(3)差,但是在 100k 之后表现比(3)好。100k 之前可以说明,AR 采样的 c 跟 block size=32 推理过程的 c 不太匹配,但是由于 AR 压缩了大量有用的知识,稍微 CPT 一下就能适配这种推理过程。同时也可以说明,AR 这种结构的先验,可能更适合 prompt+response 这种从左侧开始推理的过程。

因此我们将训练流程设计为,先用 AR 压缩一遍知识,然后用 AR 退火的前一个 checkpoint 继续 CPT 成小 block 的 block diffusion,来探索 diffusion 过程的数据增强能力。

稳定的 DLLM warmup 策略持续预训练设计

扩散模型的持续预训练通常对超参数的设计(如学习率)非常敏感,容易出现 grad norm 的异常变高,这也会受到各种训练架构的影响。为了保持各种训练架构的学习稳定,以及繁杂的调参过程,团队设计了一种适配的 warmup 策略。


DLLM 的 CPT 过程不稳定主要受到下面 3 个原因影响:

(1)Attention 从单向变成双向

(2)Mask 变多导致任务变得很难

(3)为了对齐 ELBO,会在交叉熵前面乘上加权系数。比如只 mask 了一个 token,会等价于只计算了这个 token 的 loss,会大幅增大这个 token 对于梯度的影响,进而影响 grad norm 和 loss。

由于退火 attention 的方式难以灵活适配 flash attention 等架构,该团队针对(2)(3)来设计 warmup 过程。具体的,在 warmup 阶段将 mask 比例上界逐渐 warmup 到最大值,从而使得一开始任务从易变难。


其次,在 warmup 阶段去掉交叉熵中加权的系数,从而让每个 token 对 loss 的影响更平稳:


Block-wise 截断的噪声调度

在使用 block diffusion 时,由于通过 cross attention 拼接了干净的前缀,可以使得每个 token 都产生有用的 loss。然而如果使用传统的 noise schedule 会使得有些块不产生 loss 信号,通过求解积分可以算出 block 不产生信号的概率如下,这在小 block 时会特别明显:


因此团队做了两个设计:(1)强制每个块都采样一个 token(2)将 noise 采样下界设置为 1/B,这样可以使得至少期望采样一个 token。同时可以避免强制采样 1 个 token 之后,原本对应的 t 过小,从而使得交叉熵加权过大的问题。


实验结果:多个代码 benchmark 在 8B 左右的模型保持领先

对于 Base 模型




Stable-DiffCoder-8B-Base 在代码生成,多代码语言生成,代码推理上表现出色。超过一系列 AR 和 diffusion-based 的模型。另外可以发现模型在稀疏代码语言上(如 C#,PHP 等,预训练中数据较少),相比于 AR baseline 得到了大幅增强,可以证明 DLLM 的训练过程起到了一定的数据增强的效果。同时在代码推理能力上也得到了增强。

对于 Instruct 模型

Stable-DiffCoder-8B-Instruct 在代码生成,代码编辑,代码推理等任务上做了综合评测,并有着优越的表现。其中在常用的任务(humaneval,mbpp)上大幅超过原有 AR baseline 和其他 8B 左右的 DLLM model。在测试集闭源的 MHPP 达到 qwen32B 的水平,BigCodeBench 上更是超过一系列模型并仅次于 DeepSeek236B 的模型。同时在代码编辑 CanItEdit 任务上更是有着惊艳的效果。






总结与展望

Stable-DiffCoder 的发布,打破了 「扩散模型只能做并行加速」 的刻板印象。它证明了:扩散训练范式本身就是一种极佳的表征学习手段。通过合理的课程设计及稳定性优化,扩散模型完全可以在代码理解和生成质量上超越传统的 AR 模型。

对于未来的大模型演进,Stable-DiffCoder 提示了一条新路径:也许我们不需要抛弃 AR,而是将 AR 作为高效的知识压缩器,再利用 Diffusion 作为 「强化剂」,进一步推高模型的智能上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
父母离婚不接年幼乘客,遭网约车司机怒斥?警方通报

父母离婚不接年幼乘客,遭网约车司机怒斥?警方通报

观察者网
2026-04-11 07:16:07
70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

眼界看视野
2026-04-11 21:09:54
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

冰雅忆史
2026-04-12 07:05:10
从满身纪念到彻底清空:维多利亚·贝克汉姆已激光去除全部纹身

从满身纪念到彻底清空:维多利亚·贝克汉姆已激光去除全部纹身

观察鉴娱
2026-04-11 10:49:04
李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

快科技
2026-04-10 12:20:06
国羽包揽亚锦赛女双冠亚军 李怡婧/罗徐敏首夺冠

国羽包揽亚锦赛女双冠亚军 李怡婧/罗徐敏首夺冠

体坛周报
2026-04-12 18:06:09
美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

起喜电影
2026-04-12 15:05:06
一场3-1!国乒拿下第2冠!太原赛12日赛程出炉:温瑞博冲双冠王

一场3-1!国乒拿下第2冠!太原赛12日赛程出炉:温瑞博冲双冠王

桃叶渡春
2026-04-12 12:45:53
广东战广厦12人名单,黄明依入围,杜锋变阵,徐杰替补三将关键

广东战广厦12人名单,黄明依入围,杜锋变阵,徐杰替补三将关键

佳佳说奇事故事
2026-04-12 16:58:26
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
东契奇最新动态:在斯洛文尼亚陪女儿 下阶段治疗结束与湖人会合

东契奇最新动态:在斯洛文尼亚陪女儿 下阶段治疗结束与湖人会合

罗说NBA
2026-04-12 06:24:57
38岁梅西获评最高分9分+加冕MVP:中柱+率队2-2战平美职联劲旅

38岁梅西获评最高分9分+加冕MVP:中柱+率队2-2战平美职联劲旅

侧身凌空斩
2026-04-12 09:35:47
Surfshark把VPN压到2美元/月

Surfshark把VPN压到2美元/月

闪存猎手
2026-04-11 09:40:51
奥迪Q5L价格再下探,优惠11.08万,网友:奔驰这下真急了

奥迪Q5L价格再下探,优惠11.08万,网友:奔驰这下真急了

汽车网评
2026-04-11 21:30:13
浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

魔都姐姐杂谈
2026-03-30 19:25:57
3个月4位至亲相继离世!定格在83、81、78、76岁,浙江网友引热议

3个月4位至亲相继离世!定格在83、81、78、76岁,浙江网友引热议

火山詩话
2026-04-12 17:45:19
大兴安岭发现“犴达罕”, 被称为“森林之神”, 一架犴角值1万多

大兴安岭发现“犴达罕”, 被称为“森林之神”, 一架犴角值1万多

万象硬核本尊
2026-04-11 18:55:29
何超蕸去世!何超蕸曾罕见谈与父亲何鸿燊相处:几姊弟虽然都被送到外国留学,但他们都遵守传统礼仪

何超蕸去世!何超蕸曾罕见谈与父亲何鸿燊相处:几姊弟虽然都被送到外国留学,但他们都遵守传统礼仪

极目新闻
2026-04-12 16:14:23
1954年,甘祖昌得知被评为准军级:我有意见,要向中央讨要个说法

1954年,甘祖昌得知被评为准军级:我有意见,要向中央讨要个说法

史之铭
2026-04-12 17:55:26
36岁时的郑丽文与兰宣、尹乃菁合影。

36岁时的郑丽文与兰宣、尹乃菁合影。

草莓解说体育
2026-04-12 08:02:43
2026-04-12 18:36:50
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2836079文章数 6589关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊朗不接受美"红线" 消息人士:美在谈判决策上犯了错

头条要闻

伊朗不接受美"红线" 消息人士:美在谈判决策上犯了错

体育要闻

五大联赛首冠出炉?拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

游戏
时尚
艺术
旅游
军事航空

《塞尔达时之笛RE》可能是假的!任天堂在搞钓鱼执法

伊姐周六热推:电视剧《八千里路云和月》;综艺《乘风2026》......

艺术要闻

书法“初学者”如何选帖?这3大重点一定要牢牢记住!

旅游要闻

春染大别山,有空来安徽六安看看!

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版