网易首页 > 网易号 > 正文 申请入驻

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

0
分享至



机器之心报道

编辑:张倩

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路:在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能力



他们刚刚发布的RND1-Base(Radical Numerics Diffusion)是迄今为止规模最大的开源扩散语言模型。其生成效果如下:



这是一个实验性的30B 参数稀疏 MoE 模型,其中有3B 激活参数,由一个预训练的 AR 模型(Qwen3-30BA3B)转换而来,并在持续预训练中累积训练500B 个 token,以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。



  • 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 报告链接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代码链接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 链接:https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括:

  • 系统性研究了大规模 A2D(Autoregressive-to-Diffusion)转换过程中的关键因素,如初始化策略、层级学习率和临界批大小。
  • 识别出能够实现可扩展性与稳定性的关键因素,并证明当这些因素与成熟的自回归预训练方法结合时,简单的技术组合也能催生可扩展的 DLM。
  • 推出了迄今为止最大的基础扩散语言模型RND1-30B,展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代码生成(MBPP)等通用基准测试中测试了 RND1。结果显示,它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B,同时保持了其自回归基础模型的强大性能。



这些结果表明,将扩散语言模型规模扩展到 80 亿参数以上不仅可行,而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过,需要指出的是,研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。



图源:https://arxiv.org/pdf/2509.24389

简单持续预训练(SCP)

从一个自回归检查点训练扩散语言模型,会引出两个核心问题:

第一,如何在一个原本仅支持因果注意力(causal attention)的架构中引入双向上下文?

第二,如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识?

早期研究提出了多阶段复杂流程,例如注意力掩码退火(attention mask annealing),通过逐步放松因果掩码实现双向注意力;或嫁接法(grafting),即系统性修改模型结构,用双向注意力替换因果注意力。

这些方法在小规模模型上有效,但往往引入额外设计选择(如掩码变化策略、退火 / 嫁接调度),难以稳定地推广至大规模。

相较之下,作者发现了一种更简单的方法 ——简单持续预训练(SCP),能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接:

  • 从一个强大的 AR 检查点开始;
  • 在初始化时将因果掩码替换为双向掩码;
  • 在掩码扩散目标下继续预训练,并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘:模型可能在转换过程中丢失原有的事实知识。 既有研究表明,Transformer 类语言模型中的知识(尤其是事实关联)主要编码在FFN/MLP 层中 。基于这一认识,他们在不同参数组间采用了分层学习率策略:

在转换期间,注意力层使用更高的学习率以便快速适应双向上下文,而非注意力层(如 MLP 与嵌入层)使用较低学习率,以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于:每个批次提供的监督信号量不同。 在 AR 模型中,每个 token 都会参与损失计算;而在扩散训练中,只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下,平均掩码比例约为 50%,也就是说只有一半的 token 参与学习。 这种较弱的学习信号意味着,用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点,作者估计了临界批大小(Critical Batch Size, CBS)—— 即当数据并行度继续增大时,损失改进收益开始递减的阈值。按照其他论文中的方法,他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发,作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变,并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明,在40 亿参数规模下,随着批量增大,扩散损失持续单调下降,直到约 800 万 token 仍有收益。换句话说,扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。



为什么要改造自回归模型?

RND1 展示了如何在不推倒重来的情况下,高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台,让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环,他们能够更快地遍历搜索空间,验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。



Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构,偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中,公司创始人之一 Michael Poli 阐述了他们的信念和愿景。



感兴趣的读者可以查阅更多资料了解该公司。

参考链接:https://www.radicalnumerics.ai/blog/rnd1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王家卫录音曝光!金靖《繁花》戏份被删真相终揭晓

王家卫录音曝光!金靖《繁花》戏份被删真相终揭晓

阿废冷眼观察所
2025-11-02 15:44:55
你不大可能见过的照片

你不大可能见过的照片

霹雳炮
2025-10-04 22:58:14
皇马,再见!阿隆索拍板,5000万“嫡系”离队!9000万节拍器来投

皇马,再见!阿隆索拍板,5000万“嫡系”离队!9000万节拍器来投

头狼追球
2025-11-02 16:33:56
苏超联赛落幕!诞生3个赢家,4个输家!泰州队、南通队位列其中

苏超联赛落幕!诞生3个赢家,4个输家!泰州队、南通队位列其中

球场没跑道
2025-11-01 21:46:49
大惊喜!舷号闪亮,摆满舰载机!福建舰的“大日子”,真的要来了

大惊喜!舷号闪亮,摆满舰载机!福建舰的“大日子”,真的要来了

顾蔡卫
2025-11-02 15:16:10
柚子立大功!医生研究:糖尿病患者常吃柚子,或能收获这7大益处

柚子立大功!医生研究:糖尿病患者常吃柚子,或能收获这7大益处

新时代的两性情感
2025-11-01 12:27:37
俄罗斯计划在被占领土动员5万至10万乌克兰人参加对乌克兰的攻击

俄罗斯计划在被占领土动员5万至10万乌克兰人参加对乌克兰的攻击

山河路口
2025-11-01 23:56:08
杭州富豪为瘫痪女儿招婿,穷小伙咬牙接受,新婚当晚他却傻眼了

杭州富豪为瘫痪女儿招婿,穷小伙咬牙接受,新婚当晚他却傻眼了

牛魔王与芭蕉扇
2025-03-10 11:10:01
抱团黄昏!小球终结!NBA的冠军新时代

抱团黄昏!小球终结!NBA的冠军新时代

篮球盛世
2025-11-02 10:51:23
一觉醒来,估计全国人民都知道了32岁的杨紫!

一觉醒来,估计全国人民都知道了32岁的杨紫!

动物奇奇怪怪
2025-10-31 02:51:26
1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

诺言卿史录
2025-07-17 14:23:29
四川7名干部履新厅级领导职务

四川7名干部履新厅级领导职务

金台资讯
2025-11-02 16:33:43
另一个角度看清军的入关

另一个角度看清军的入关

尚曦读史
2025-11-01 22:20:06
古二超光鲜履历曝光!本想到王家卫身边镀金,反被做局“摘桃”

古二超光鲜履历曝光!本想到王家卫身边镀金,反被做局“摘桃”

小海娱计
2025-11-02 11:54:56
NBA今日里程碑!威少超越历史助攻王,KD追平哈登,巴特勒队史第1

NBA今日里程碑!威少超越历史助攻王,KD追平哈登,巴特勒队史第1

世界体育圈
2025-11-02 14:03:14
分走刘銮雄七百亿身家后,布局15年原形毕露,手段高明令人吃惊

分走刘銮雄七百亿身家后,布局15年原形毕露,手段高明令人吃惊

仙味少女心
2025-10-14 15:09:38
终于!Windows 11迎来蓝牙音频共享功能:可惜还是有限制

终于!Windows 11迎来蓝牙音频共享功能:可惜还是有限制

快科技
2025-11-02 19:17:05
老年人行房最晚到多大年龄?或许很多人想错了!

老年人行房最晚到多大年龄?或许很多人想错了!

深度报
2025-09-11 23:05:16
如果红军城失去,乌军的下一条防线在哪里?

如果红军城失去,乌军的下一条防线在哪里?

布拉旅游说
2025-11-02 13:55:07
万万没想到,在焦裕禄带领下防沙种的泡桐,竟制成了中国30%乐器

万万没想到,在焦裕禄带领下防沙种的泡桐,竟制成了中国30%乐器

老闫侃史
2025-10-30 19:05:03
2025-11-02 20:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
本地
教育
健康
手机

艺术要闻

她被誉为东方梦露,年过半百依然迷倒众生

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

教育要闻

教育部留学服务中心更新官方学位认证的境外院校!哪些大学落榜?

核磁VS肌骨超声,谁更胜一筹?

手机要闻

同样开售三天,小米、vivo、荣耀、OPPO新旗舰销量对比

无障碍浏览 进入关怀版