网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

2025-06-05 17:33:22　来源: 雷峰网

北京举报

0

分享至

RL后训练已成为大模型性能突破的「杀手锏」，而算力浪费和集群效率低成为一大难题。这次，华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡，资源利用率翻倍，还打破了同步算法限制，让训练速度再提升50%。

作者丨李希

在大模型竞赛白热化的当下，「强化学习后训练」已成为突破LLM性能天花板的核心路径。

爆火出圈的OpenAI o1、DeepSeek-R1等模型，背后都是依靠RL后训练点石成金。

相较于预训练阶段的「广撒网」式知识获取，RL 后训练通过驱动模型与外部环境进行动态交互，直接塑造了 LLM 在复杂任务中的推理效能。

当前，RL后训练阶段已经吃掉了训练全流程20%的算力，未来会飙升到50%，直接影响模型的性能和成本。

在传统RL后训练中，训练和推理得排队干活，也就说大量算力都在「摸鱼」。

对此，华为团队拿出「RL Fusion训推共卡」和「StaleSync 准异步并行」两大黑科技，把训练效率和资源利用率拉满。

· RL Fusion：让一张卡同时兼顾训练和推理两件事，资源利用率和吞吐翻倍。

· StaleSync：打破了同步限制，让集群扩展效率超90%，训练吞吐再提50%。

CloudMatrix超节点，就像大模型的「超级加速器」，让百亿、甚至千亿级模型训练更快更省。

至此，大模型强化学习训练正式迈入超节点时代！

01

RL后训练「算力黑洞」

如今，强化学习，已成为激活大模型推理思考能力的关键buff。

不论是语言模型的对话优化，还是多模态模型的复杂任务适配，RL后训练都在提升模型精度、泛化性、用户体验方面，发挥着不可替代的作用。

然而，这种性能提升的代价是巨大的算力需求。

尤其是在现有主流On-Policy算法下，训练与推理的严格交替导致了资源利用率低下。

总的来说，RL后训练作为大模型训练最后冲刺阶段，面临着两大不容忽视的挑战。

On-Policy算法的同步枷锁

在大模型后训练过程中，Actor模型的训练与推理（生成）过程构成主要负载。

在传统「训推分离」架构下，主流的On-Policy策略要求训练和推理任务交替执行，互相等待，导致大量计算资源处于闲置状态。

这种「轮流休息」的模式，在小规模集群场景下已然造成显著浪费，若在千卡/万卡集群中更是放大为「算力黑洞」，推高了LLM后训练成本。

因此，训推共卡技术，成为提升集群资源利用率的核心突破口。

大规模集群的扩展困境

另一方面，随着MoE模型普及，专家并行（EP）、张量并行（TP）、数据并行（DP）等多模型异构并行策略组合，使得任务调度复杂度呈指数级增长。

而现有框架在大规模集群中，难以让其实现高效协同，进而导致了扩展效率显著下降。

如何通过软硬协同打破资源瓶颈，释放潜在的红利，成为华为团队聚焦突破的关键方向。

02

RL Fusion：一卡干俩活，利用率吞吐翻倍

针对RL后训练资源利用率低的问题，华为团队深入剖析异构模型和多任务场景的负载特点，提出了创新性的RL Fusion训推共卡技术。

简单来说，就是让一张卡既做训练又做推理，效率直接翻倍。

RL Fusion支持训练推理共卡、全共卡等多种灵活部署模式（如图1），可实现推理阶段资源调度的精细化可控管理。

它还支持张量并行（TP）、数据并行（DP）、流水线并行（PP）等多维并行策略的动态无缝切换，实现计算资源「一箭双雕」，即在同一计算资源上执行Actor模型生成和训练2个任务。

图1：训推分离、训推共卡、全共卡部署计算资源利用情况示意图

值得一提的是，在小规模场景下，RL Fusion还能把Reference及Reward模型的资源「榨干」，进一步实现「一箭四雕」，效率直接拉满。

此外，针对大规模高稀疏比MoE模型，华为通过对训推态内存进行极致分析，首次提出了训推内存0冗余切换，实现训推EP动态切换，如图2所示。

图2：MoE大模型训推EP动态变化示意图

在训练态及推理态切换过程中，通过「分桶」管理参数，可消除由于EP变化造成的冗余内存。

同时，推理时把训练的优化器及梯度，完全卸载到主机侧，尽可能将NPU内存留给推理态，保证长序列下推理阶段吞吐（如图3所示）。

图3：MoE大模型训推内存0冗余切换技术示意图

不仅如此，通过对训推共卡中权重通信、内存加卸载进行系统性优化后，训推切换过程优化到秒级，快如闪电。

由此，RL Fusion能让强化学习后训练集群利用率倍增，成本省一大截。

03

StaleSync：水平扩展效率超90%，训练吞吐再提50%

针对大规模集群扩展性低的问题，华为团队摒弃全同步迭代方式，设计了准异步机制StaleSync（如图4所示）。

StaleSync机制能容忍梯度「陈旧性」，让不同RL阶段的任务在「陈旧度阈值」内并行执行。

这使得CloudMatrix 384超节点的水平扩展效率超90%。

图4：StaleSync准异步并行技术示意图

这一创新得益于对RL计算任务的细致分析。

在RL训练中，研究团队发现，不同计算任务的算力需求各异。

基于这一特点，新的后训练系统结合了共置和分离架构的优势，平衡了各个RL计算任务的资源需求，从而提高了整体硬件资源的利用率。

图5：共置/分离架构下同策训练方案示意图和缺点

此外，在Actor Rollout过程中，长尾样本的存在导致了效率的降低。

为了解决此问题，新系统引入了准异步调度机制：

当生成结束的样本达到一定阈值时，数据立刻流向下一阶段的计算任务，允许未完成的推理样本的训练存在一定滞后性，从而提高了整体后训练吞吐。

在保证模型精度的前提下，StaleSync方案使系统整体训练吞吐量提升了50%。

04

背后功臣：数据队列DistQueue

为了满足StaleSync的数据调度与管理要求，研究团队专门设计了分布式数据队列DistQueue。

DistQueue实现了不同计算任务之间数据的拆分、缓存与动态读取。

为了提高通信效率，DistQueue采取了分层数据传输与零冗余通信两项技术，缓解了数据系统压力。

以Pangu 718B-MoE训练并行策略为例（TP8，EP4，PP16），引入分层数据传输可将DistQueue的负载降低为 1/128，从而支持后训练规模的进一步扩展。

图6：分层数据传输技术示意图

在后训练中，传统的样本Padding补齐方案存在大量冗余通信，降低了通信效率。

对此，研究者引入零冗余通信技术，如图7所示：

首先将各个样本在序列维度进行拼接；

在各个进程收到数据后，再根据原始序列长度进行恢复。

这避免了Padding带来的额外通信，大大提升了通信效率。

在盘古长序列训练集实测，研究团队发现上述优化可降低80%以上的通信量，有效支撑大规模集群训练的扩展效率。

图7：DistQueue零冗余数据传输

05

实测：昇腾超节点见证效率跃升

RL Fusion与StaleSync的协同优化，形成了「资源复用+任务并行」的双重保障体系，显著提升了效率。

在RL后训练中，下表1展示了不同加速配置方案对整体性能提升情况。

RL Fusion训推共卡，能够消除RL后训练中模型级空泡，提高资源利用率，单个超节点吞吐提升了78.5%。

再结合StaleSync准异步技术，可以实现35k token/s吞吐效率，整体可提升1.5倍性能。

表1：单超节点RL后训练性能分析

表2展示了StaleSync对集群扩展性的提升。

当集群规模从1个超节点扩展至4个超节点时，StaleSync 的吞吐从35k tokens/s提升至127k tokens/s，扩展线性度达91%；而全同步方案在同等规模下吞吐仅从25k tokens/s 增至 85k tokens/s，线性度约为85%。

表2：RL后训练性能分析

06

结语

在AI风起云涌的当下，RL后训练正成为大模型突围的关键，而效率是决胜的王牌。

昇腾超节点以RL Fusion和StaleSync两大杀招，攻克算力浪费和集群扩展的瓶颈，带来了高效、高扩展、高通用性的集群调度与融合方案。

一张卡干俩活、流水线永不停，单节点速度狂飙2.5倍，集群扩展效率突破90%。

它如同一台「加速引擎」，正为百亿、千亿级大模型的后训练注入强劲动力，点燃下一代AI效率革命的火花。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

交警执勤时全身叮满蚊虫，让人心疼！

中国日报网 2026-06-21 09:46:06
15 跟贴 15
演员张颂文深夜街头救人，获评“见义勇为先进个人”；此前本人回应：该帮就帮，该扶就扶，有什么可怕的呢？

极目新闻 2026-06-20 18:01:24
4141 跟贴 4141

大学生实习日薪180元弄丢客户6.5万元劳力士表

极目新闻 2026-06-21 14:57:13
1006 跟贴 1006

外资机构：越来越开放的中国市场越来越有吸引力

每日经济新闻 2026-06-20 20:19:05
5298 跟贴 5298
上海公安机关多措并举全力护航中考

中国经营报 2026-06-20 22:45:43
135 跟贴 135

国道为何改成景区内部路？记者实地探访绵阳梓潼七曲山景区

极目新闻 2026-06-19 22:13:08
210 跟贴 210

外国知名学者：当今世界只有四个大国

参考消息 2026-06-21 12:27:22
16 跟贴 16
“苏超”第10周比赛狂进11球！最新战报出炉：南京队2:1淮安队、苏州队2:2南通队、扬州队1:0连云港队、常州队2:1盐城队，160954人现场观战

江苏新闻 2026-06-20 21:47:00
261 跟贴 261

库拉索门将多次扑救厄瓜多尔0-0战平库拉索

央视新闻 2026-06-21 09:58:57
1989 跟贴 1989
三大品牌公布甲酰胺检测结果

红星新闻 2026-06-21 10:46:39
1625 跟贴 1625
导航软件开屏"摇一摇"广告影响行车安全客服回应

极目新闻 2026-06-20 18:09:43
1182 跟贴 1182
62脚射门一球没进！土耳其等了24年，再见比进球先来

新民晚报 2026-06-21 15:06:07
1 跟贴 1
王树国辟谣“福耀科技大学不发课本只发岗位清单”：我们对学生的知识基础要求很严，数学用的都是英文原版教材，老师是来自欧洲的数学家

潇湘晨报 2026-06-20 18:56:12
752 跟贴 752
中国女排1比3不敌巴西女排，世界女排联赛5连胜遭终结

澎湃新闻 2026-06-20 22:56:29
492 跟贴 492
WTT卢布尔雅那站国乒无缘冠军，继上周萨格勒布常规挑战赛后，中国队已连续两站未获一冠

潇湘晨报 2026-06-21 08:34:12
86 跟贴 86
洛杉矶宣布进入紧急状态

澎湃新闻 2026-06-21 11:12:06
34 跟贴 34
端午假期第二天北京市属公园迎客超38万人次

北青网-北京青年报 2026-06-20 14:47:09
130 跟贴 130
医保比价小程序全国上线—— “比价神器”精准破解药价乱象

经济日报 2026-06-21 06:46:05
13 跟贴 13
从眼控到脑控，蔡磊化身“赛博躯体”称将把意识传送到具身机器人

第一财经资讯 2026-06-21 15:40:24
9 跟贴 9
43岁司机救12人后续！抢救无效身亡，母亲崩溃大哭，儿子才上小学

鲸探所长 2026-06-21 16:38:02
0 跟贴 0
“干干净净没被别的男人污染过”？！同一消毒液品牌刚被指侮辱男性，又来物化女性了？

新民周刊 2026-06-21 16:40:21
0 跟贴 0

国乒卢布尔雅那两冠在握，男双独苗死磕日本争冠

国乒卢布尔雅那两冠在握，男双独苗死磕日本争冠

小犙拍客在北漂

2026-06-21 02:19:28

内塔尼亚胡亲口承认：中国二战给予特殊援助，震撼真相大揭秘！

内塔尼亚胡亲口承认：中国二战给予特殊援助，震撼真相大揭秘！

云霄纪史观

2026-06-19 18:49:57

我87年军校毕业当排长，回家相亲，竟和小时候揍我的姑娘处成对象

我87年军校毕业当排长，回家相亲，竟和小时候揍我的姑娘处成对象

伊河生活

2026-06-21 04:44:43

向佐曝弟弟和父母断绝关系后，向太罕见给向佑留言，劝他做个好人

向佐曝弟弟和父母断绝关系后，向太罕见给向佑留言，劝他做个好人

小鋭有话说

2026-06-21 15:41:08

“扶弟魔”相亲被怒怼！50万彩礼30万给弟，那我是你弟妹的大股东

“扶弟魔”相亲被怒怼！50万彩礼30万给弟，那我是你弟妹的大股东

火山詩话

2026-06-19 07:26:02

比亚迪大气是真的，小气也是真的！今天上午我去看大唐了

比亚迪大气是真的，小气也是真的！今天上午我去看大唐了

沙雕小琳琳

2026-06-21 08:49:34

钱再多有啥用？42岁贾乃亮如今的现状，给所有中年男人提了一个醒

钱再多有啥用？42岁贾乃亮如今的现状，给所有中年男人提了一个醒

悄悄史话

2026-06-21 14:06:30

我如果在澳门赌场输了一千万，跑回内地，不还了可以吗

我如果在澳门赌场输了一千万，跑回内地，不还了可以吗

贱议你读史

2026-03-03 12:35:42

为何清朝权臣始终无法架空皇帝？即使清朝末年也不敢，原因很简单

为何清朝权臣始终无法架空皇帝？即使清朝末年也不敢，原因很简单

历史人文2

2026-06-11 20:30:03

父亲节，筱梅带小宝到商场给爸爸选礼物，手表特帅气！小菲真幸福

父亲节，筱梅带小宝到商场给爸爸选礼物，手表特帅气！小菲真幸福

暖心萌阿菇凉

2026-06-21 14:45:43

太炸裂！广东女子发视频称，为报复婆婆重男轻女，怀男孩直接流产

太炸裂！广东女子发视频称，为报复婆婆重男轻女，怀男孩直接流产

丫头舫

2026-06-20 22:43:07

只剩6511亿美元，中方潇洒离场，再抛12亿美债，逼出最大接盘国

只剩6511亿美元，中方潇洒离场，再抛12亿美债，逼出最大接盘国

小俎娱乐

2026-06-20 17:04:33

两性关系：如果还想多活几年，70岁以后必须牢记这几句

两性关系：如果还想多活几年，70岁以后必须牢记这几句

荔子言

2026-06-05 23:10:00

寿命短的男性，一般会有“3大1白”，如果没有，说明身体很健康

寿命短的男性，一般会有“3大1白”，如果没有，说明身体很健康

熊猫医学社

2026-05-31 11:30:03

奉劝所有人：退休后，跟别人关系再好，一日游、二日游都行，但千万别尝试长时间一起游，否则早晚会后悔

奉劝所有人：退休后，跟别人关系再好，一日游、二日游都行，但千万别尝试长时间一起游，否则早晚会后悔

背包旅行

2026-05-28 18:04:35

“碳水脸”引争议，网友：令人不适的网络词！

“碳水脸”引争议，网友：令人不适的网络词！

中国日报

2026-05-21 15:28:00

房价从1.5万元跌到5000元，却依旧无人问津，中介：根本就没人买

房价从1.5万元跌到5000元，却依旧无人问津，中介：根本就没人买

专业聊房君

2026-06-21 10:15:46

等了20年一锤定音！中缅铁路动工，整个西南都活了？

等了20年一锤定音！中缅铁路动工，整个西南都活了？

李云飞Afey

2026-06-20 20:13:41

马筱梅又晒娃了！宝宝自带福相，越长大越像外公了，比大s的好看

马筱梅又晒娃了！宝宝自带福相，越长大越像外公了，比大s的好看

阿废冷眼观察所

2026-06-21 14:28:25

蔡磊：渐冻症，已经迎来了它的倒计时

蔡磊：渐冻症，已经迎来了它的倒计时

极目新闻

2026-06-21 15:51:47

关注智能与未来！

69798文章数 656147关注度

往期回顾全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

体育要闻

沙特主帅：亚马尔是梅西在巴萨的接班人

娱乐要闻

李乃文带妻子法国购物，2人5个孩子！

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗！重庆实测奥迪A5L，华为智驾这波操作绝了…

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

教育

公开课

军事航空

吃粽子的3条保胃法则，消化科医生推荐

旅游要闻

烟火水乡迎端午全域联动焕活力成都郫都多元业态激活夏日文旅经济

教育要闻

全班都说缺条件？尖子生求面积的方法绝了

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

时隔44年试射洲际导弹现场照片传递三个重磅信息

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版