网易首页 > 网易号 > 正文 申请入驻

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

0
分享至

RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了同步算法限制,让训练速度再提升50%。

作者丨李希

在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。

爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。

相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了 LLM 在复杂任务中的推理效能。

当前,RL后训练阶段已经吃掉了训练全流程20%的算力,未来会飙升到50%,直接影响模型的性能和成本

在传统RL后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。

对此,华为团队拿出「RL Fusion训推共卡」和「StaleSync 准异步并行」两大黑科技,把训练效率和资源利用率拉满。

· RL Fusion:让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻倍。

· StaleSync:打破了同步限制,让集群扩展效率超90%,训练吞吐再提50%。

CloudMatrix超节点,就像大模型的「超级加速器」,让百亿、甚至千亿级模型训练更快更省。

至此,大模型强化学习训练正式迈入超节点时代!

01

RL后训练「算力黑洞」

如今,强化学习,已成为激活大模型推理思考能力的关键buff。

不论是语言模型的对话优化,还是多模态模型的复杂任务适配,RL后训练都在提升模型精度、泛化性、用户体验方面,发挥着不可替代的作用。

然而,这种性能提升的代价是巨大的算力需求。

尤其是在现有主流On-Policy算法下,训练与推理的严格交替导致了资源利用率低下。

总的来说,RL后训练作为大模型训练最后冲刺阶段,面临着两大不容忽视的挑战。

On-Policy算法的同步枷锁

在大模型后训练过程中,Actor模型的训练与推理(生成)过程构成主要负载。

在传统「训推分离」架构下,主流的On-Policy策略要求训练和推理任务交替执行,互相等待,导致大量计算资源处于闲置状态。

这种「轮流休息」的模式,在小规模集群场景下已然造成显著浪费,若在千卡/万卡集群中更是放大为「算力黑洞」,推高了LLM后训练成本。

因此,训推共卡技术,成为提升集群资源利用率的核心突破口。

大规模集群的扩展困境

另一方面,随着MoE模型普及,专家并行(EP)、张量并行(TP)、数据并行(DP)等多模型异构并行策略组合,使得任务调度复杂度呈指数级增长。

而现有框架在大规模集群中,难以让其实现高效协同,进而导致了扩展效率显著下降。

如何通过软硬协同打破资源瓶颈,释放潜在的红利,成为华为团队聚焦突破的关键方向。

02

RL Fusion:一卡干俩活,利用率吞吐翻倍

针对RL后训练资源利用率低的问题,华为团队深入剖析异构模型和多任务场景的负载特点,提出了创新性的RL Fusion训推共卡技术。

简单来说,就是让一张卡既做训练又做推理,效率直接翻倍。

RL Fusion支持训练推理共卡、全共卡等多种灵活部署模式(如图1),可实现推理阶段资源调度的精细化可控管理。

它还支持张量并行(TP)、数据并行(DP)、流水线并行(PP)等多维并行策略的动态无缝切换,实现计算资源「一箭双雕」,即在同一计算资源上执行Actor模型生成和训练2个任务。

图1:训推分离、训推共卡、全共卡部署计算资源利用情况示意图

值得一提的是,在小规模场景下,RL Fusion还能把Reference及Reward模型的资源「榨干」,进一步实现「一箭四雕」,效率直接拉满。

此外,针对大规模高稀疏比MoE模型,华为通过对训推态内存进行极致分析,首次提出了训推内存0冗余切换,实现训推EP动态切换,如图2所示。

图2:MoE大模型训推EP动态变化示意图

在训练态及推理态切换过程中,通过「分桶」管理参数,可消除由于EP变化造成的冗余内存。

同时,推理时把训练的优化器及梯度,完全卸载到主机侧,尽可能将NPU内存留给推理态,保证长序列下推理阶段吞吐(如图3所示)。

图3:MoE大模型训推内存0冗余切换技术示意图

不仅如此,通过对训推共卡中权重通信、内存加卸载进行系统性优化后,训推切换过程优化到秒级,快如闪电。

由此,RL Fusion能让强化学习后训练集群利用率倍增,成本省一大截。

03

StaleSync:水平扩展效率超90%,训练吞吐再提50%

针对大规模集群扩展性低的问题,华为团队摒弃全同步迭代方式,设计了准异步机制StaleSync(如图4所示)。

StaleSync机制能容忍梯度「陈旧性」,让不同RL阶段的任务在「陈旧度阈值」内并行执行。

这使得CloudMatrix 384超节点的水平扩展效率超90%。

图4:StaleSync准异步并行技术示意图

这一创新得益于对RL计算任务的细致分析。

在RL训练中,研究团队发现,不同计算任务的算力需求各异。

基于这一特点,新的后训练系统结合了共置和分离架构的优势,平衡了各个RL计算任务的资源需求,从而提高了整体硬件资源的利用率。

图5:共置/分离架构下同策训练方案示意图和缺点

此外,在Actor Rollout过程中,长尾样本的存在导致了效率的降低。

为了解决此问题,新系统引入了准异步调度机制:

当生成结束的样本达到一定阈值时,数据立刻流向下一阶段的计算任务,允许未完成的推理样本的训练存在一定滞后性,从而提高了整体后训练吞吐。

在保证模型精度的前提下,StaleSync方案使系统整体训练吞吐量提升了50%。

04

背后功臣:数据队列DistQueue

为了满足StaleSync的数据调度与管理要求,研究团队专门设计了分布式数据队列DistQueue。

DistQueue实现了不同计算任务之间数据的拆分、缓存与动态读取。

为了提高通信效率,DistQueue采取了分层数据传输零冗余通信两项技术,缓解了数据系统压力。

以Pangu 718B-MoE训练并行策略为例(TP8,EP4,PP16),引入分层数据传输可将DistQueue的负载降低为 1/128,从而支持后训练规模的进一步扩展。

图6:分层数据传输技术示意图

在后训练中,传统的样本Padding补齐方案存在大量冗余通信,降低了通信效率。

对此,研究者引入零冗余通信技术,如图7所示:

首先将各个样本在序列维度进行拼接;

在各个进程收到数据后,再根据原始序列长度进行恢复。

这避免了Padding带来的额外通信,大大提升了通信效率。

在盘古长序列训练集实测,研究团队发现上述优化可降低80%以上的通信量,有效支撑大规模集群训练的扩展效率。

图7:DistQueue零冗余数据传输

05

实测:昇腾超节点见证效率跃升

RL Fusion与StaleSync的协同优化,形成了「资源复用+任务并行」的双重保障体系,显著提升了效率。

在RL后训练中,下表1展示了不同加速配置方案对整体性能提升情况。

RL Fusion训推共卡,能够消除RL后训练中模型级空泡,提高资源利用率,单个超节点吞吐提升了78.5%。

再结合StaleSync准异步技术,可以实现35k token/s吞吐效率,整体可提升1.5倍性能。

表1:单超节点RL后训练性能分析

表2展示了StaleSync对集群扩展性的提升。

当集群规模从1个超节点扩展至4个超节点时,StaleSync 的吞吐从35k tokens/s提升至127k tokens/s,扩展线性度达91%;而全同步方案在同等规模下吞吐仅从25k tokens/s 增至 85k tokens/s,线性度约为85%。

表2:RL后训练性能分析

06

结语

在AI风起云涌的当下,RL后训练正成为大模型突围的关键,而效率是决胜的王牌。

昇腾超节点以RL Fusion和StaleSync两大杀招,攻克算力浪费和集群扩展的瓶颈,带来了高效、高扩展、高通用性的集群调度与融合方案。

一张卡干俩活、流水线永不停,单节点速度狂飙2.5倍,集群扩展效率突破90%。

它如同一台「加速引擎」,正为百亿、千亿级大模型的后训练注入强劲动力,点燃下一代AI效率革命的火花。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国乒卢布尔雅那两冠在握,男双独苗死磕日本争冠

国乒卢布尔雅那两冠在握,男双独苗死磕日本争冠

小犙拍客在北漂
2026-06-21 02:19:28
内塔尼亚胡亲口承认:中国二战给予特殊援助,震撼真相大揭秘!

内塔尼亚胡亲口承认:中国二战给予特殊援助,震撼真相大揭秘!

云霄纪史观
2026-06-19 18:49:57
我87年军校毕业当排长,回家相亲,竟和小时候揍我的姑娘处成对象

我87年军校毕业当排长,回家相亲,竟和小时候揍我的姑娘处成对象

伊河生活
2026-06-21 04:44:43
向佐曝弟弟和父母断绝关系后,向太罕见给向佑留言,劝他做个好人

向佐曝弟弟和父母断绝关系后,向太罕见给向佑留言,劝他做个好人

小鋭有话说
2026-06-21 15:41:08
“扶弟魔”相亲被怒怼!50万彩礼30万给弟,那我是你弟妹的大股东

“扶弟魔”相亲被怒怼!50万彩礼30万给弟,那我是你弟妹的大股东

火山詩话
2026-06-19 07:26:02
比亚迪大气是真的,小气也是真的!今天上午我去看大唐了

比亚迪大气是真的,小气也是真的!今天上午我去看大唐了

沙雕小琳琳
2026-06-21 08:49:34
钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

悄悄史话
2026-06-21 14:06:30
我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

贱议你读史
2026-03-03 12:35:42
为何清朝权臣始终无法架空皇帝?即使清朝末年也不敢,原因很简单

为何清朝权臣始终无法架空皇帝?即使清朝末年也不敢,原因很简单

历史人文2
2026-06-11 20:30:03
父亲节,筱梅带小宝到商场给爸爸选礼物,手表特帅气!小菲真幸福

父亲节,筱梅带小宝到商场给爸爸选礼物,手表特帅气!小菲真幸福

暖心萌阿菇凉
2026-06-21 14:45:43
太炸裂!广东女子发视频称,为报复婆婆重男轻女,怀男孩直接流产

太炸裂!广东女子发视频称,为报复婆婆重男轻女,怀男孩直接流产

丫头舫
2026-06-20 22:43:07
只剩6511亿美元,中方潇洒离场,再抛12亿美债,逼出最大接盘国

只剩6511亿美元,中方潇洒离场,再抛12亿美债,逼出最大接盘国

小俎娱乐
2026-06-20 17:04:33
两性关系:如果还想多活几年,70岁以后必须牢记这几句

两性关系:如果还想多活几年,70岁以后必须牢记这几句

荔子言
2026-06-05 23:10:00
寿命短的男性,一般会有“3大1白”,如果没有,说明身体很健康

寿命短的男性,一般会有“3大1白”,如果没有,说明身体很健康

熊猫医学社
2026-05-31 11:30:03
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
“碳水脸”引争议,网友:令人不适的网络词!

“碳水脸”引争议,网友:令人不适的网络词!

中国日报
2026-05-21 15:28:00
房价从1.5万元跌到5000元,却依旧无人问津,中介:根本就没人买

房价从1.5万元跌到5000元,却依旧无人问津,中介:根本就没人买

专业聊房君
2026-06-21 10:15:46
等了20年一锤定音!中缅铁路动工,整个西南都活了?

等了20年一锤定音!中缅铁路动工,整个西南都活了?

李云飞Afey
2026-06-20 20:13:41
马筱梅又晒娃了!宝宝自带福相,越长大越像外公了,比大s的好看

马筱梅又晒娃了!宝宝自带福相,越长大越像外公了,比大s的好看

阿废冷眼观察所
2026-06-21 14:28:25
蔡磊:渐冻症,已经迎来了它的倒计时

蔡磊:渐冻症,已经迎来了它的倒计时

极目新闻
2026-06-21 15:51:47
2026-06-21 16:51:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69798文章数 656147关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

体育要闻

沙特主帅:亚马尔是梅西在巴萨的接班人

娱乐要闻

李乃文带妻子法国购物,2人5个孩子!

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

健康
旅游
教育
公开课
军事航空

吃粽子的3条保胃法则,消化科医生推荐

旅游要闻

烟火水乡迎端午 全域联动焕活力 成都郫都多元业态激活夏日文旅经济

教育要闻

全班都说缺条件?尖子生求面积的方法绝了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

时隔44年试射洲际导弹 现场照片传递三个重磅信息

无障碍浏览 进入关怀版