网易首页 > 网易号 > 正文 申请入驻

华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」

0
分享至



机器之心发布

机器之心编辑部

今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务,尤其是需要深度推理的「慢思考」场景时,显得捉襟见肘。

华为近日正式发布 openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B 进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至 32K

在「慢思考」能力的加持下,该模型在多个权威基准中创下了 7B 参数量级的全新 SOTA 纪录:

  • 多学科知识(MMLU-Pro):超越 16B 参数量的 LLaDA 2.0-mini-preview22%
  • 数学推理(MATH):得分,大幅领先同类模型。
  • 代码生成(MBPP):得分,展现出卓越的逻辑泛化能力。





  • Base模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-7B-Diffusion-Base
  • 慢思考模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-R-7B-Diffusion

接下来,我们将深入解析这款模型背后的技术革新。

1. 架构创新:

前文因果注意力掩码,自回归到 BlockDiffusion 的无缝迁移



openPangu-R-7B-Diffusion 在注意力机制上并未沿用传统扩散模型(如 LLaDA)的全注意力(Full Attention),也未采用 SDAR 或 Fast-dLLMv2 的分块掩码(Block Attention),而是创新性地融合了自回归的前文因果注意力掩码(Causal Attention Mask)。

这一设计从根本上解决了架构适配难题:

  • 消除适配壁垒:以往将自回归模型适配至扩散模型,往往需要 Attention Mask Annealing 或 Shift Operation 等复杂操作来弥合差异。而 openPangu-R-7B-Diffusion 通过保留前文的因果注意力特性,使得模型仅需从「预测 Next Token」转变为「预测 Next Block 中的 Mask Token」,极大地降低了适配成本。
  • 兼容性最大化:该设计让模型能够自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础。

2. 训练与推理:双模式解码与效率倍增



在训练策略上,openPangu-R-7B-Diffusion 延续了 BlockDiffusion 的思路(拼接带掩码的 Block 与无掩码的 Context),但进行了关键优化:

  • Context 利用率 100%:传统方法往往忽略无掩码 Context 部分的 Loss 计算,导致一半的数据被浪费。openPangu-R-7B-Diffusion 则将这部分数据用于标准的自回归 Next Token Prediction 训练。
  • 双模式解码:这种训练方式赋予了模型「自回归 + 扩散」的双重解码能力。用户可以通过不同的采样设置,灵活权衡生成质量与速度。
  • 极致性能:模型完整保留了变长推理与 KV-Cache 特性。在并行解码模式下,其速度最高可达自回归解码的2.5 倍

可视化实测:亲眼见证「慢思考」与扩散生成的融合



为了更直观地展示 openPangu-R-7B-Diffusion 的工作机制,我们对模型的推理过程进行了可视化处理。

在输入一道经典的数学逻辑推理题(Claire 的煎蛋问题)后,我们可以清晰地观察到扩散语言模型的独特生成方式:模型并非像传统自回归模型那样「逐词蹦出」,而是在 4 个生成步数(Generation Steps)内,并行地将多个 [MASK] 噪声逐步去噪还原为

、Claire、makes 等清晰的语义 Token。

图中首位的Token 尤为关键,它标志着模型正在启动我们前文提到的 「慢思考」模式。这种结合了扩散并行生成与深度思维链(Chain-of-Thought)的能力,正是 openPangu-R-7B-Diffusion 能够在数学和编程基准上大幅超越同类模型的核心原因。

结语:开启扩散语言模型的新篇章

openPangu-R-7B-Diffusion 的发布,不仅仅是一个新模型的开源,更是对「扩散模型能否处理复杂长文本」这一难题的有力回应。凭借其创新的因果注意力掩码架构,它成功证明了扩散模型不仅可以「快」(并行解码),更可以「深」(32K 长文与慢思考)。

值得一提的是,openPangu-R-7B-Diffusion 的训练、推理及评测全流程均在昇腾 NPU集群上完成,有力证明了国产算力在以前沿扩散语言模型领域的强劲实力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那番绝境,大帝终究还要面对

那番绝境,大帝终究还要面对

虚声
2026-04-20 08:08:29
属兔人听劝:4月26日,这个人不走,你永远好不了

属兔人听劝:4月26日,这个人不走,你永远好不了

糖逗在娱乐
2026-04-20 18:58:28
树倒猢狲散!峰学未来翻天了, 大鹏高调离职反踩一脚, 张姩菡不忍

树倒猢狲散!峰学未来翻天了, 大鹏高调离职反踩一脚, 张姩菡不忍

阿凫爱吐槽
2026-04-16 06:07:04
输麻了!金像奖后陈可辛血亏5亿,章子怡无缘影后,赢家毫不意外

输麻了!金像奖后陈可辛血亏5亿,章子怡无缘影后,赢家毫不意外

梦想总会变成真
2026-04-20 15:06:08
NBA官方:本赛季最佳防守球员将于北京时间今天6点公布

NBA官方:本赛季最佳防守球员将于北京时间今天6点公布

懂球帝
2026-04-21 00:58:35
张泽群退休晒证,全网追问一句扎心:儿子找到了吗?

张泽群退休晒证,全网追问一句扎心:儿子找到了吗?

吃货的分享
2026-04-20 09:48:48
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
“给你女儿买件好内衣吧!”中学女孩锻炼视频,网友都看不下去了

“给你女儿买件好内衣吧!”中学女孩锻炼视频,网友都看不下去了

妍妍教育日记
2026-03-30 18:38:24
A股:人民日报重磅发文,散户做好准备,周二很可能迎来新的行情

A股:人民日报重磅发文,散户做好准备,周二很可能迎来新的行情

云鹏叙事
2026-04-21 00:00:03
锂矿龙头公告:一季度净利预增1800%

锂矿龙头公告:一季度净利预增1800%

第一财经资讯
2026-04-20 20:40:52
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
A股:注意以下这些!明天(4月21日)的市场会这样走

A股:注意以下这些!明天(4月21日)的市场会这样走

风风顺
2026-04-21 01:05:03
吃里扒外、永不回国?带30名演员留美不归,如今年过花甲归来

吃里扒外、永不回国?带30名演员留美不归,如今年过花甲归来

林轻吟
2026-04-20 14:48:28
特朗普:若有突破进展 愿同伊朗高级别领导人会面

特朗普:若有突破进展 愿同伊朗高级别领导人会面

财联社
2026-04-20 21:36:15
亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

新浪财经
2026-04-17 15:19:51
5月1日严查开始,家里有车、开店的抓紧办!别等罚单找上门

5月1日严查开始,家里有车、开店的抓紧办!别等罚单找上门

花小猫的美食日常
2026-04-21 00:02:29
1898 年,谭嗣同就义,他永远不知,自己的后人有多让人心疼

1898 年,谭嗣同就义,他永远不知,自己的后人有多让人心疼

小燕聊剧
2026-04-14 19:53:58
亚洲身价之王!乌兹别克斯坦后卫在曼城闪耀,完封阿森纳锋线

亚洲身价之王!乌兹别克斯坦后卫在曼城闪耀,完封阿森纳锋线

星耀国际足坛
2026-04-20 23:51:03
华润置地转让华润万象城

华润置地转让华润万象城

地产微资讯
2026-04-20 17:44:48
快手震怒,大批网红被永久封杀

快手震怒,大批网红被永久封杀

新浪财经
2026-04-19 19:46:47
2026-04-21 06:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12813文章数 142633关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
数码
本地
健康
公开课

艺术要闻

春天最适合小住三五天的地方

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版