网易首页 > 网易号 > 正文 申请入驻

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

0
分享至



机器之心报道

编辑:张倩

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路:在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能力



他们刚刚发布的RND1-Base(Radical Numerics Diffusion)是迄今为止规模最大的开源扩散语言模型。其生成效果如下:



这是一个实验性的30B 参数稀疏 MoE 模型,其中有3B 激活参数,由一个预训练的 AR 模型(Qwen3-30BA3B)转换而来,并在持续预训练中累积训练500B 个 token,以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。



  • 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 报告链接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代码链接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 链接:https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括:

  • 系统性研究了大规模 A2D(Autoregressive-to-Diffusion)转换过程中的关键因素,如初始化策略、层级学习率和临界批大小。
  • 识别出能够实现可扩展性与稳定性的关键因素,并证明当这些因素与成熟的自回归预训练方法结合时,简单的技术组合也能催生可扩展的 DLM。
  • 推出了迄今为止最大的基础扩散语言模型RND1-30B,展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代码生成(MBPP)等通用基准测试中测试了 RND1。结果显示,它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B,同时保持了其自回归基础模型的强大性能。



这些结果表明,将扩散语言模型规模扩展到 80 亿参数以上不仅可行,而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过,需要指出的是,研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。



图源:https://arxiv.org/pdf/2509.24389

简单持续预训练(SCP)

从一个自回归检查点训练扩散语言模型,会引出两个核心问题:

第一,如何在一个原本仅支持因果注意力(causal attention)的架构中引入双向上下文?

第二,如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识?

早期研究提出了多阶段复杂流程,例如注意力掩码退火(attention mask annealing),通过逐步放松因果掩码实现双向注意力;或嫁接法(grafting),即系统性修改模型结构,用双向注意力替换因果注意力。

这些方法在小规模模型上有效,但往往引入额外设计选择(如掩码变化策略、退火 / 嫁接调度),难以稳定地推广至大规模。

相较之下,作者发现了一种更简单的方法 ——简单持续预训练(SCP),能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接:

  • 从一个强大的 AR 检查点开始;
  • 在初始化时将因果掩码替换为双向掩码;
  • 在掩码扩散目标下继续预训练,并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘:模型可能在转换过程中丢失原有的事实知识。 既有研究表明,Transformer 类语言模型中的知识(尤其是事实关联)主要编码在FFN/MLP 层中 。基于这一认识,他们在不同参数组间采用了分层学习率策略:

在转换期间,注意力层使用更高的学习率以便快速适应双向上下文,而非注意力层(如 MLP 与嵌入层)使用较低学习率,以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于:每个批次提供的监督信号量不同。 在 AR 模型中,每个 token 都会参与损失计算;而在扩散训练中,只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下,平均掩码比例约为 50%,也就是说只有一半的 token 参与学习。 这种较弱的学习信号意味着,用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点,作者估计了临界批大小(Critical Batch Size, CBS)—— 即当数据并行度继续增大时,损失改进收益开始递减的阈值。按照其他论文中的方法,他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发,作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变,并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明,在40 亿参数规模下,随着批量增大,扩散损失持续单调下降,直到约 800 万 token 仍有收益。换句话说,扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。



为什么要改造自回归模型?

RND1 展示了如何在不推倒重来的情况下,高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台,让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环,他们能够更快地遍历搜索空间,验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。



Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构,偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中,公司创始人之一 Michael Poli 阐述了他们的信念和愿景。



感兴趣的读者可以查阅更多资料了解该公司。

参考链接:https://www.radicalnumerics.ai/blog/rnd1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

法老不说教
2025-11-03 19:36:43
大战一触即发!!!以色列突袭法军,美军威胁轰炸联合国维和部队

大战一触即发!!!以色列突袭法军,美军威胁轰炸联合国维和部队

南方健哥
2025-11-04 12:21:38
下一个恒大?前中超冠军赛季资金断裂:背后集团亏损近10亿!

下一个恒大?前中超冠军赛季资金断裂:背后集团亏损近10亿!

邱泽云
2025-11-04 13:59:21
退休两年后,重庆国企原高管龚晓莉被查!

退休两年后,重庆国企原高管龚晓莉被查!

时代周报
2025-11-04 16:19:13
相当炸裂!网传某大厂领导裁掉一个边缘员工,然后和她结婚了

相当炸裂!网传某大厂领导裁掉一个边缘员工,然后和她结婚了

星河也灿烂
2025-10-30 16:46:24
“土皇帝”许家印的“恒大歌舞团”服务了那些“蛀虫”

“土皇帝”许家印的“恒大歌舞团”服务了那些“蛀虫”

创作者_IE2295
2025-10-27 18:24:27
不敢认!“这还是李宗伟?”43 岁近照引热议!

不敢认!“这还是李宗伟?”43 岁近照引热议!

情感大头说说
2025-11-03 12:28:01
可控核聚变+核电  市盈率最低的10大龙头!或有望成为跨年牛

可控核聚变+核电 市盈率最低的10大龙头!或有望成为跨年牛

元芳说投资
2025-11-04 07:00:07
江西省商务厅原党组书记、厅长谢一平接受审查调查

江西省商务厅原党组书记、厅长谢一平接受审查调查

界面新闻
2025-11-04 17:35:57
郑智化清空微博,攻击他的百万粉丝大V永封

郑智化清空微博,攻击他的百万粉丝大V永封

智识漂流
2025-11-04 16:45:30
快船输球后,伦纳德伤情确认,泰伦卢态度变了,比尔也模棱两可

快船输球后,伦纳德伤情确认,泰伦卢态度变了,比尔也模棱两可

体坛大辣椒
2025-11-04 15:34:24
上海炒股大赛冠军坦言:盈利多年只入两种股票,献给在沉浮的股民

上海炒股大赛冠军坦言:盈利多年只入两种股票,献给在沉浮的股民

股经纵横谈
2025-11-03 21:17:48
秦雯被请喝茶,她老公保不住了!?

秦雯被请喝茶,她老公保不住了!?

八卦疯叔
2025-11-04 09:57:54
曝范冰冰王传君撕奖成功!拿下东京影帝影后,难怪白百何接连破防

曝范冰冰王传君撕奖成功!拿下东京影帝影后,难怪白百何接连破防

萌神木木
2025-11-04 16:06:27
天涯神贴:普通人家孩子的最好出路

天涯神贴:普通人家孩子的最好出路

前沿天地
2025-11-03 07:42:49
江苏明确:这些轻微违法不予处罚!

江苏明确:这些轻微违法不予处罚!

句容发布
2025-11-03 21:56:41
赫鲁晓夫政变细节:朱可夫提前调兵入莫斯科,会上拔枪扣押贝利亚

赫鲁晓夫政变细节:朱可夫提前调兵入莫斯科,会上拔枪扣押贝利亚

大海的诺言
2024-10-03 08:36:35
吴亦凡监狱近况曝光:身染重病、夜夜痛哭!网友:这下彻底完了!

吴亦凡监狱近况曝光:身染重病、夜夜痛哭!网友:这下彻底完了!

可乐谈情感
2025-11-02 03:45:56
男子4万元拍下宝马X6,页面标注“无重大事故”;两机构检测:存纵梁切割

男子4万元拍下宝马X6,页面标注“无重大事故”;两机构检测:存纵梁切割

大风新闻
2025-11-03 19:18:05
爸爸去哪儿6孩子现状:子承父业、进国家队、国外读书,个个不同

爸爸去哪儿6孩子现状:子承父业、进国家队、国外读书,个个不同

书雁飞史oh
2025-11-04 17:26:59
2025-11-04 18:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11647文章数 142497关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

房产
旅游
游戏
本地
公开课

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

旅游要闻

陕西山阳县天竺山“引客” 僧道关村“变身”

国行PS5 Pro百亿补贴!无需领券 比官方还便宜200元

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版