网易首页 > 网易号 > 正文 申请入驻

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

0
分享至



机器之心报道

编辑:张倩

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路:在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能力



他们刚刚发布的RND1-Base(Radical Numerics Diffusion)是迄今为止规模最大的开源扩散语言模型。其生成效果如下:



这是一个实验性的30B 参数稀疏 MoE 模型,其中有3B 激活参数,由一个预训练的 AR 模型(Qwen3-30BA3B)转换而来,并在持续预训练中累积训练500B 个 token,以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。



  • 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 报告链接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代码链接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 链接:https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括:

  • 系统性研究了大规模 A2D(Autoregressive-to-Diffusion)转换过程中的关键因素,如初始化策略、层级学习率和临界批大小。
  • 识别出能够实现可扩展性与稳定性的关键因素,并证明当这些因素与成熟的自回归预训练方法结合时,简单的技术组合也能催生可扩展的 DLM。
  • 推出了迄今为止最大的基础扩散语言模型RND1-30B,展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代码生成(MBPP)等通用基准测试中测试了 RND1。结果显示,它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B,同时保持了其自回归基础模型的强大性能。



这些结果表明,将扩散语言模型规模扩展到 80 亿参数以上不仅可行,而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过,需要指出的是,研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。



图源:https://arxiv.org/pdf/2509.24389

简单持续预训练(SCP)

从一个自回归检查点训练扩散语言模型,会引出两个核心问题:

第一,如何在一个原本仅支持因果注意力(causal attention)的架构中引入双向上下文?

第二,如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识?

早期研究提出了多阶段复杂流程,例如注意力掩码退火(attention mask annealing),通过逐步放松因果掩码实现双向注意力;或嫁接法(grafting),即系统性修改模型结构,用双向注意力替换因果注意力。

这些方法在小规模模型上有效,但往往引入额外设计选择(如掩码变化策略、退火 / 嫁接调度),难以稳定地推广至大规模。

相较之下,作者发现了一种更简单的方法 ——简单持续预训练(SCP),能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接:

  • 从一个强大的 AR 检查点开始;
  • 在初始化时将因果掩码替换为双向掩码;
  • 在掩码扩散目标下继续预训练,并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘:模型可能在转换过程中丢失原有的事实知识。 既有研究表明,Transformer 类语言模型中的知识(尤其是事实关联)主要编码在FFN/MLP 层中 。基于这一认识,他们在不同参数组间采用了分层学习率策略:

在转换期间,注意力层使用更高的学习率以便快速适应双向上下文,而非注意力层(如 MLP 与嵌入层)使用较低学习率,以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于:每个批次提供的监督信号量不同。 在 AR 模型中,每个 token 都会参与损失计算;而在扩散训练中,只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下,平均掩码比例约为 50%,也就是说只有一半的 token 参与学习。 这种较弱的学习信号意味着,用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点,作者估计了临界批大小(Critical Batch Size, CBS)—— 即当数据并行度继续增大时,损失改进收益开始递减的阈值。按照其他论文中的方法,他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发,作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变,并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明,在40 亿参数规模下,随着批量增大,扩散损失持续单调下降,直到约 800 万 token 仍有收益。换句话说,扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。



为什么要改造自回归模型?

RND1 展示了如何在不推倒重来的情况下,高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台,让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环,他们能够更快地遍历搜索空间,验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。



Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构,偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中,公司创始人之一 Michael Poli 阐述了他们的信念和愿景。



感兴趣的读者可以查阅更多资料了解该公司。

参考链接:https://www.radicalnumerics.ai/blog/rnd1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轰炸伊朗学校和医院,美国和以色列为何如此胆大妄为?

轰炸伊朗学校和医院,美国和以色列为何如此胆大妄为?

毛开云
2026-03-03 11:06:56
王楚然巴黎时装周“牛仔裤灾难”引全网吐槽

王楚然巴黎时装周“牛仔裤灾难”引全网吐槽

深度解析热点
2026-03-02 18:41:27
中国艺人被困中东!黄渤惊险逃离,玄子一家7000租车,周雨彤回京

中国艺人被困中东!黄渤惊险逃离,玄子一家7000租车,周雨彤回京

潮鹿逐梦
2026-03-02 22:48:22
面对霍尔姆茨海峡的封锁,中国准备好了吗?

面对霍尔姆茨海峡的封锁,中国准备好了吗?

胜研集
2026-03-02 12:20:33
美军承认三架F-15坠毁:被科威特误击

美军承认三架F-15坠毁:被科威特误击

观察者网
2026-03-02 19:54:05
中国人偷中国人行李,58岁中国老登在日本行窃遭日本警方逮捕

中国人偷中国人行李,58岁中国老登在日本行窃遭日本警方逮捕

日本物语
2026-03-02 20:34:21
深圳夫妻月入2万却陷“隐蔽贫困”:孩子送回老家,不敢去医院

深圳夫妻月入2万却陷“隐蔽贫困”:孩子送回老家,不敢去医院

豆腐脑观察局
2026-03-03 00:05:03
太有福了!山东体育频道压哨护驾,山东泰山这排面,全中超羡慕

太有福了!山东体育频道压哨护驾,山东泰山这排面,全中超羡慕

狮王乱弹
2026-03-03 09:01:28
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
伊朗前王储巴列维宣布将返回伊朗领导革命

伊朗前王储巴列维宣布将返回伊朗领导革命

一种观点
2026-01-19 19:36:11
迪拜人设崩了

迪拜人设崩了

睡前马戏团
2026-03-02 16:21:05
伊朗那边还没结束,美国又盯上一个国家,这次不斩首,想用新花招

伊朗那边还没结束,美国又盯上一个国家,这次不斩首,想用新花招

音乐时光的娱乐
2026-03-03 11:33:38
伊朗拒绝全部条件

伊朗拒绝全部条件

锋火故事会
2026-02-27 18:25:26
皇马输球又输人,伯纳乌喊弗洛伦蒂诺辞职

皇马输球又输人,伯纳乌喊弗洛伦蒂诺辞职

体坛周报
2026-03-03 12:18:15
触目惊心!山东37家检验检测机构被查!六大乱象曝光,全行业警醒!

触目惊心!山东37家检验检测机构被查!六大乱象曝光,全行业警醒!

济宁人
2026-03-02 20:23:16
官宣!山东签强援,1米95,锋卫摇摆人,场均20分,首秀时间定了

官宣!山东签强援,1米95,锋卫摇摆人,场均20分,首秀时间定了

萌兰聊个球
2026-03-03 10:39:23
86岁哈梅刚死,伊朗突然迎来救兵,中国使领馆表态,多国已选边站

86岁哈梅刚死,伊朗突然迎来救兵,中国使领馆表态,多国已选边站

古史青云啊
2026-03-03 11:31:49
富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

百态人间
2026-02-12 15:21:00
泰国暂停石油出口

泰国暂停石油出口

新华社
2026-03-02 16:55:03
伊朗人拿的清末剧本,答案在我们中学课本

伊朗人拿的清末剧本,答案在我们中学课本

鉴茶院
2026-03-03 08:03:31
2026-03-03 12:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12396文章数 142576关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

游戏
本地
手机
旅游
公开课

《三角洲》主播毁号事件后续!当事人征集联名控告

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

手机要闻

一加15T新机正面形象公开,采用1.xx mm物理极窄四等边设计

旅游要闻

从“观灯”到“玩灯” 达州“灯会+”激活夜经济新动能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版