网易首页 > 网易号 > 正文 申请入驻

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

0
分享至

机器之心报道

编辑:张倩

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路:在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能力

他们刚刚发布的RND1-Base(Radical Numerics Diffusion)是迄今为止规模最大的开源扩散语言模型。其生成效果如下:

这是一个实验性的30B 参数稀疏 MoE 模型,其中有3B 激活参数,由一个预训练的 AR 模型(Qwen3-30BA3B)转换而来,并在持续预训练中累积训练500B 个 token,以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。

  • 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 报告链接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代码链接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 链接:https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括:

  • 系统性研究了大规模 A2D(Autoregressive-to-Diffusion)转换过程中的关键因素,如初始化策略、层级学习率和临界批大小。
  • 识别出能够实现可扩展性与稳定性的关键因素,并证明当这些因素与成熟的自回归预训练方法结合时,简单的技术组合也能催生可扩展的 DLM。
  • 推出了迄今为止最大的基础扩散语言模型RND1-30B,展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代码生成(MBPP)等通用基准测试中测试了 RND1。结果显示,它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B,同时保持了其自回归基础模型的强大性能。

这些结果表明,将扩散语言模型规模扩展到 80 亿参数以上不仅可行,而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过,需要指出的是,研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。

图源:https://arxiv.org/pdf/2509.24389

简单持续预训练(SCP)

从一个自回归检查点训练扩散语言模型,会引出两个核心问题:

第一,如何在一个原本仅支持因果注意力(causal attention)的架构中引入双向上下文?

第二,如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识?

早期研究提出了多阶段复杂流程,例如注意力掩码退火(attention mask annealing),通过逐步放松因果掩码实现双向注意力;或嫁接法(grafting),即系统性修改模型结构,用双向注意力替换因果注意力。

这些方法在小规模模型上有效,但往往引入额外设计选择(如掩码变化策略、退火 / 嫁接调度),难以稳定地推广至大规模。

相较之下,作者发现了一种更简单的方法 ——简单持续预训练(SCP),能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接:

  • 从一个强大的 AR 检查点开始;
  • 在初始化时将因果掩码替换为双向掩码;
  • 在掩码扩散目标下继续预训练,并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘:模型可能在转换过程中丢失原有的事实知识。 既有研究表明,Transformer 类语言模型中的知识(尤其是事实关联)主要编码在FFN/MLP 层中 。基于这一认识,他们在不同参数组间采用了分层学习率策略:

在转换期间,注意力层使用更高的学习率以便快速适应双向上下文,而非注意力层(如 MLP 与嵌入层)使用较低学习率,以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于:每个批次提供的监督信号量不同。 在 AR 模型中,每个 token 都会参与损失计算;而在扩散训练中,只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下,平均掩码比例约为 50%,也就是说只有一半的 token 参与学习。 这种较弱的学习信号意味着,用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点,作者估计了临界批大小(Critical Batch Size, CBS)—— 即当数据并行度继续增大时,损失改进收益开始递减的阈值。按照其他论文中的方法,他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发,作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变,并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明,在40 亿参数规模下,随着批量增大,扩散损失持续单调下降,直到约 800 万 token 仍有收益。换句话说,扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。

为什么要改造自回归模型?

RND1 展示了如何在不推倒重来的情况下,高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台,让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环,他们能够更快地遍历搜索空间,验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。

Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构,偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中,公司创始人之一 Michael Poli 阐述了他们的信念和愿景。

感兴趣的读者可以查阅更多资料了解该公司。

参考链接:https://www.radicalnumerics.ai/blog/rnd1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
森林狼为麦克丹尼尔斯标天价:非字母哥约基奇不换

森林狼为麦克丹尼尔斯标天价:非字母哥约基奇不换

甜度百分百21
2026-06-22 00:24:15
我25岁,跟40岁女主管同居三个月后,她拿着验孕棒问我愿意娶她吗

我25岁,跟40岁女主管同居三个月后,她拿着验孕棒问我愿意娶她吗

千秋文化
2026-06-16 19:33:45
演员袁泉与女儿夏哈哈的日常留影,女儿不太像妈妈

演员袁泉与女儿夏哈哈的日常留影,女儿不太像妈妈

娱你同欢
2026-06-21 23:06:52
看到梅西帽子戏法那一刻,我明白了什么叫“为自己踢球”

看到梅西帽子戏法那一刻,我明白了什么叫“为自己踢球”

一隅安稳
2026-06-21 00:41:39
L3智驾强制国标报批稿公示!特斯拉沉默,小鹏忙发声,华为偷着乐

L3智驾强制国标报批稿公示!特斯拉沉默,小鹏忙发声,华为偷着乐

华庭讲美食
2026-06-22 01:49:28
全球狂押500亿赌世界杯!92%胜率踢出0比0,有人百万身家秒归零

全球狂押500亿赌世界杯!92%胜率踢出0比0,有人百万身家秒归零

刘哥谈体育
2026-06-22 05:31:34
白鹿《奔跑吧》收官浓妆翻车?章若楠淡妆反而赢了

白鹿《奔跑吧》收官浓妆翻车?章若楠淡妆反而赢了

情感大头说说
2026-06-22 01:33:40
真的吗?万佩塔:拉菲尼亚陷入家庭和经济困境,期待转会新月

真的吗?万佩塔:拉菲尼亚陷入家庭和经济困境,期待转会新月

懂球帝
2026-06-22 13:14:20
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

叙说医疗健康
2026-06-16 08:00:21
离谱到家,日本踢世界杯比赛,中国观众超过了日本观众数倍

离谱到家,日本踢世界杯比赛,中国观众超过了日本观众数倍

体坛狗哥
2026-06-21 18:36:47
健身这样穿,效果惊艳全场!

健身这样穿,效果惊艳全场!

独角showing
2026-06-22 14:30:11
中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

医学科普汇
2026-06-16 21:50:07
央视曝光!多款水果接连暴雷,滥用甜味剂8000倍甜度、违规防腐剂

央视曝光!多款水果接连暴雷,滥用甜味剂8000倍甜度、违规防腐剂

阿纂看事
2026-06-22 13:44:48
工行、农行、中行、建行、交行,集体宣布→

工行、农行、中行、建行、交行,集体宣布→

城市速递
2026-06-21 20:46:12
耿同学的导师杨昀发声明:她未被处理,高考676分从宁夏考入清华

耿同学的导师杨昀发声明:她未被处理,高考676分从宁夏考入清华

汉史趣闻
2026-06-22 14:49:30
赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

沙雕小琳琳
2026-06-22 11:34:08
为何越来越多人搬离“一楼带院”的房子,过来人说出大实话

为何越来越多人搬离“一楼带院”的房子,过来人说出大实话

家居设计师苏哥
2026-06-22 12:38:58
洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

谁将主宰未来
2026-06-21 09:57:43
A股:紧急提醒2.5亿股民!从今天6月22日起,A股或迎大级别变盘行情?

A股:紧急提醒2.5亿股民!从今天6月22日起,A股或迎大级别变盘行情?

趋势清风侠
2026-06-22 07:29:05
又一金饭碗彻底凉了!当年砸钱挤进银行的富二代,如今集体跑路了

又一金饭碗彻底凉了!当年砸钱挤进银行的富二代,如今集体跑路了

新时代的两性情感
2026-06-21 14:57:32
2026-06-22 15:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13328文章数 142677关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

37万的新车送店贴膜3小时被店员撞损直贬7万 多方回应

头条要闻

37万的新车送店贴膜3小时被店员撞损直贬7万 多方回应

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

为AI芯片续命 中国人造钻石等来了大机会

汽车要闻

电动MINIJCW缎光特别版藏锋上市尽显低调赛道本色

态度原创

本地
教育
手机
房产
公开课

本地新闻

龙腾资江 韵动邵阳

教育要闻

聚焦小初高英语衔接,AI+教师发展公益行2026暑期名师工作室联合教研活动首场专场顺利举行

手机要闻

高盛将全球智能手机今明两年的出货量预测分别下调4%和3%

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版