网易首页 > 网易号 > 正文 申请入驻

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

0
分享至

机器之心报道

编辑:张倩

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路:在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能力

他们刚刚发布的RND1-Base(Radical Numerics Diffusion)是迄今为止规模最大的开源扩散语言模型。其生成效果如下:

这是一个实验性的30B 参数稀疏 MoE 模型,其中有3B 激活参数,由一个预训练的 AR 模型(Qwen3-30BA3B)转换而来,并在持续预训练中累积训练500B 个 token,以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。

  • 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 报告链接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代码链接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 链接:https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括:

  • 系统性研究了大规模 A2D(Autoregressive-to-Diffusion)转换过程中的关键因素,如初始化策略、层级学习率和临界批大小。
  • 识别出能够实现可扩展性与稳定性的关键因素,并证明当这些因素与成熟的自回归预训练方法结合时,简单的技术组合也能催生可扩展的 DLM。
  • 推出了迄今为止最大的基础扩散语言模型RND1-30B,展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代码生成(MBPP)等通用基准测试中测试了 RND1。结果显示,它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B,同时保持了其自回归基础模型的强大性能。

这些结果表明,将扩散语言模型规模扩展到 80 亿参数以上不仅可行,而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过,需要指出的是,研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。

图源:https://arxiv.org/pdf/2509.24389

简单持续预训练(SCP)

从一个自回归检查点训练扩散语言模型,会引出两个核心问题:

第一,如何在一个原本仅支持因果注意力(causal attention)的架构中引入双向上下文?

第二,如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识?

早期研究提出了多阶段复杂流程,例如注意力掩码退火(attention mask annealing),通过逐步放松因果掩码实现双向注意力;或嫁接法(grafting),即系统性修改模型结构,用双向注意力替换因果注意力。

这些方法在小规模模型上有效,但往往引入额外设计选择(如掩码变化策略、退火 / 嫁接调度),难以稳定地推广至大规模。

相较之下,作者发现了一种更简单的方法 ——简单持续预训练(SCP),能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接:

  • 从一个强大的 AR 检查点开始;
  • 在初始化时将因果掩码替换为双向掩码;
  • 在掩码扩散目标下继续预训练,并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘:模型可能在转换过程中丢失原有的事实知识。 既有研究表明,Transformer 类语言模型中的知识(尤其是事实关联)主要编码在FFN/MLP 层中 。基于这一认识,他们在不同参数组间采用了分层学习率策略:

在转换期间,注意力层使用更高的学习率以便快速适应双向上下文,而非注意力层(如 MLP 与嵌入层)使用较低学习率,以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于:每个批次提供的监督信号量不同。 在 AR 模型中,每个 token 都会参与损失计算;而在扩散训练中,只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下,平均掩码比例约为 50%,也就是说只有一半的 token 参与学习。 这种较弱的学习信号意味着,用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点,作者估计了临界批大小(Critical Batch Size, CBS)—— 即当数据并行度继续增大时,损失改进收益开始递减的阈值。按照其他论文中的方法,他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发,作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变,并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明,在40 亿参数规模下,随着批量增大,扩散损失持续单调下降,直到约 800 万 token 仍有收益。换句话说,扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。

为什么要改造自回归模型?

RND1 展示了如何在不推倒重来的情况下,高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台,让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环,他们能够更快地遍历搜索空间,验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。

Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构,偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中,公司创始人之一 Michael Poli 阐述了他们的信念和愿景。

感兴趣的读者可以查阅更多资料了解该公司。

参考链接:https://www.radicalnumerics.ai/blog/rnd1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗拒绝开放霍尔木兹海峡!以色列让中东火药桶又冒青烟

伊朗拒绝开放霍尔木兹海峡!以色列让中东火药桶又冒青烟

子桑说
2026-06-22 19:00:07
大别山失利真实原因被掩盖,粟裕默默背锅,替帐下大将扛下所有

大别山失利真实原因被掩盖,粟裕默默背锅,替帐下大将扛下所有

幻梦人生
2024-12-11 11:44:48
1年2100万!正式达成续约!谢谢你,特雷杨!

1年2100万!正式达成续约!谢谢你,特雷杨!

篮球实战宝典
2026-06-22 07:52:24
晚饭七分饱被推翻了?医生:过了65岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生:过了65岁,吃饭尽量要做到这5点

健康科普365
2026-06-14 18:10:08
实事求是,姆巴佩点评梅西!

实事求是,姆巴佩点评梅西!

体育哲人
2026-06-22 16:52:28
巴萨脸都不要了!嫌 2600 万拉什福德贵,转头挖曼联 7400 万神锋

巴萨脸都不要了!嫌 2600 万拉什福德贵,转头挖曼联 7400 万神锋

奶盖熊本熊
2026-06-22 04:31:19
美洲印第安人起源终于有了定论:人类2.6万年前从中国抵达美洲

美洲印第安人起源终于有了定论:人类2.6万年前从中国抵达美洲

小豫讲故事
2026-06-22 08:04:31
李若彤参观驻港部队,换上军装端起枪,这身板绝了

李若彤参观驻港部队,换上军装端起枪,这身板绝了

落雪听梅a
2026-06-21 14:21:41
朝鲜向来谁都不服,唯独把3个中国人写进教科书,还立了铜像

朝鲜向来谁都不服,唯独把3个中国人写进教科书,还立了铜像

梅姨在路上
2026-06-09 14:43:55
郭德纲撤场,上海德云社空座近八成?相声顶流的隐形危机!

郭德纲撤场,上海德云社空座近八成?相声顶流的隐形危机!

喜欢历史的阿繁
2026-06-22 09:59:28
向日菲表忠心!赖清德终于动手,包围大陆民船,连人带船又被扣?

向日菲表忠心!赖清德终于动手,包围大陆民船,连人带船又被扣?

纪中百大事
2026-06-22 16:50:47
贪官末日来了!中央反腐新规已落地,无论在职退休一律终身追责

贪官末日来了!中央反腐新规已落地,无论在职退休一律终身追责

细说职场
2026-06-21 14:19:49
一个加速信号了!周二,A股走势分析

一个加速信号了!周二,A股走势分析

郭小凡财经
2026-06-22 18:44:58
7号台风将冲17级,风眼已开,9省暴雨5省大暴雨,主雨带大整合

7号台风将冲17级,风眼已开,9省暴雨5省大暴雨,主雨带大整合

老牛讲
2026-06-22 17:55:07
价格战之下,千亿补贴也救不了的车市真相

价格战之下,千亿补贴也救不了的车市真相

大佬灼见
2026-06-22 11:18:11
曹德旺要求院系自养:结果福耀科大不到一年,就搞出硬核技术?

曹德旺要求院系自养:结果福耀科大不到一年,就搞出硬核技术?

离离言几许
2026-06-22 15:57:45
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
为什么没人联合打以色列

为什么没人联合打以色列

今日养生之道
2026-06-20 05:25:38
拍吻戏被传染口臭!男星爆「戴口罩都闻到腐臭味」 下场惨遭全网出征

拍吻戏被传染口臭!男星爆「戴口罩都闻到腐臭味」 下场惨遭全网出征

ETtoday星光云
2026-06-22 15:47:36
首例5胞胎长大了,父亲已劳累去世,母亲直言:如能重来一个也不要

首例5胞胎长大了,父亲已劳累去世,母亲直言:如能重来一个也不要

柳絮忆史
2025-07-22 07:15:03
2026-06-22 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13329文章数 142677关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

数码
本地
手机
艺术
公开课

数码要闻

酷冷至尊2026年中新品发布会定档6月26日

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

手机要闻

苹果摊上事儿了!48位中国开发者直接举报,都是费率惹的祸?

艺术要闻

画中女人究竟在等谁?他笔下的柔情,让整个美国都沦陷了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版