网易首页 > 网易号 > 正文 申请入驻

开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架

0
分享至



还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。

事实上,当前最顶尖的基础模型,从DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都离不开大规模强化学习的加持。这充分表明,RL Scaling 已经成为大模型领域迈向更高智能的 “军备竞赛” 核心,是大势所趋。而 xAI 最近发布的Grok 4,更是将这一趋势推向了新的高度,他们直接在其拥有的 200,000 块 GPU 大集群上,以前所未有的 “后训练规模” 来运行强化学习,旨在精进模型的推理能力。

Grok 4 和其他顶尖推理模型的成功共同揭示了一个明确的事实:解决强化学习的扩展性瓶颈,已不再仅仅是一个工程挑战,而是解锁下一代 AI 高级推理能力、实现更强通用智能的关键所在。因此,对 RL Scaling 的投入和研究,是未来 AI 发展的重要方向和核心战略。

现在,来自上海创智学院的研究团队正式推出siiRL,一个支持大规模高效强化学习训练的 RL 框架!

siiRL 的核心在于其创新的多控制器范式和全分布式架构,它将数据加载、计算和数据流转等任务均匀地分散到所有工作节点,从根本上解决了传统 RL 框架中由单一控制器引发的性能瓶颈。

  • 线性扩展:全分布式架构带来近乎线性的扩展能力,已在1024 GPU规模下成功验证 。
  • 性能再飞跃:彻底消除单点瓶颈,实现最高达到 7 倍 的端到端训练吞吐提升 。
  • 极致灵活:基于DAG的工作流定义,将算法逻辑与物理资源解耦,让算法创新和实验迭代快如闪电,并且能够更灵活的支持多智能体协同训练。
  • 跨硬件平台兼容:siiRL 现已正式支持华为昇腾(Ascend)NPU,为用户提供在不同的硬件平台上进行 RL 训练的高性能选择。
  • 开箱即用:全面开源,轻松部署。



  • 论文链接: https://arxiv.org/abs/2507.13833
  • 代码链接: https://github.com/sii-research/siiRL

传统 RL 框架为何遭遇瓶颈?

解构单控制器之痛



图 1:传统单控制器架构瓶颈。所有数据操作(初始加载、中间数据流转)都需经过中心控制器,导致严重的通信开销和扩展限制 。

在主流的强化学习框架中,系统通常采用一种混合或单一控制器架构,即由一个中心化的控制器节点来调度整个执行逻辑和管理数据流 。无论是初始的数据集加载,还是各计算阶段间海量中间数据的收集与分发,所有数据都必须流经这个中心节点 。

这种设计在小规模下尚可运行,但一旦扩展到数百乃至上千 GPU,该中心节点就会因巨大的 I/O 和通信开销而成为系统的性能瓶颈 。更糟糕的是,海量数据很容易压垮中心节点的内存,导致系统崩溃(OOM),从根本上限制了系统的可扩展性和稳定性 。此外,固化的算法流程也大大增加了研究者进行算法创新的难度 。

siiRL 的高效秘诀:全分布式架构

为了彻底解决上述痛点, siiRL 创新性地采用了全分布式架构 和 多控制器范式,移除了中心节点,将数据与计算的调度权下放到每一个工作单元 。



图 2:siiRL 架构概览

siiRL 的整体设计包含三大核心组件:

a.DAG Planner (DAG 规划器):用户可以通过配置文件灵活定义一个代表完整 RL 工作流的有向无环图(DAG)。DAG Planner 负责接收这个逻辑图,并将其自动解析、分解为一系列线性的执行任务,分发给每个 Worker 。这种设计将算法逻辑与物理执行完全解耦,赋予了研究者极大的灵活性 。

b.DAG Worker (DAG 工作单元):作为框架的基本执行单位,每个 DAG Worker 绑定到一个 GPU,并独立执行由 DAG Planner 分配的任务链 。它通过动态函数分发机制,将 DAG 节点定义(如角色、类型)与具体的计算函数实现解耦,使得框架极易扩展 。

c.Data Coordinator (数据协调器):它负责管理整个数据生命周期,确保数据在全分布式系统中的高效、正确流动 。

i.Distributed Dataloader:在初始加载阶段,每个 Worker 只加载自己所需的数据分片,通过并行加载的方式从源头避免了单点瓶颈 。

ii.Distributed Databuffer:在阶段转换时,当并行策略(如数据并行度)发生变化,Databuffer 会自动完成跨节点的数据重组与分发,确保数据流无缝衔接 。



图 3:Distributed Databuffer 示意图。当数据并行从 2(生成阶段)变为 4(训练阶段)时,Databuffer 自动将数据重新切分并分发给正确的 Worker 。

效果验证:速度与扩展性双丰收,

性能依旧强劲!

我们在涵盖 7B 到 72B 的多种模型尺寸和算法上,将 siiRL 与当前最主流的开源框架 verl 进行了全面对比。实验结果证明了 siiRL 架构的巨大优势。

在 PPO 和 GRPO 算法的端到端训练中,siiRL 的性能全面超越基线。尤其是在数据交互量更大的 GRPO 算法下,siiRL 实现了高达 2.62 倍的吞吐提升 。值得注意的是,在训练 72B 模型时,基线框架在 32 卡配置下便遭遇了 OOM 错误,而 siiRL 则能轻松完成任务。





图 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐对比。siiRL(蓝色)在所有模型尺寸和 GPU 规模上均大幅领先基线框架 verl(红色) 。

扩展性评估:千卡规模下的近线性扩展

得益于全分布式设计,siiRL 在扩展至 1024 个 GPU 时仍表现出近乎完美的线性扩展能力 。如下图所示,在训练 32B 模型时,从 64 卡扩展至 512 卡,系统依然保持了 80.5%的线性扩展效率 。由于基线框架在同等规模下无法运行,我们转而测试其所能支持的最大训练批次大小,在此条件下,siiRL 在 VLM 设定下实现了惊人的 7 倍 速度提升



图 5:siiRL 在 VLM 任务上的扩展性评估,展示了从 32 到 1024 GPU 规模下的近线性扩展能力 。



图 6: siiRL 和基线框架在基线框架支持最大训练批次下对比实验,7B 模型训练吞吐提升最高达到 7 倍。

数据密集型场景:优势愈发明显

在长上下文这类数据密集型任务中,siiRL 的优势愈发凸显 。随着上下文长度从 8k 增加到 64k,siiRL 相对于基线的领先优势从 1.48 倍扩大到 2.03 倍。这充分证明,数据通信量越大,siiRL 的全分布式数据流设计的效率提升就越高 。



图 7:长上下文性能评估。随着上下文长度增加,siiRL(蓝色)的性能优势愈发显著 。

收敛性验证:性能提升,精度无损

为了确保性能提升不以牺牲模型精度为代价,我们进行了收敛性对比实验 。结果表明,在完全相同的超参数下,siiRL 和基线框架的奖励值与熵值曲线几乎完全重合 。这意味着,siiRL 在将训练总耗时大幅减少的同时,保证了与基线完全一致的训练效果 。



图 8:收敛性对比。siiRL 与基线框架的训练曲线趋势一致,证明其优化不影响模型最终精度 。

未来计划:

我们基于 DAG 的灵活设计,为构建复杂的 “多智能体系统” 奠定了天然且坚实的基础。展望未来,我们计划将多智能体支持作为系统的核心特性进行重点拓展,这包括支持更复杂的智能体交互工作流,扩展对多智能体强化学习(MARL)算法的兼容性,并实现更丰富的智能体与环境的交互机制,从而将我们的框架打造为一个功能全面的多智能体研发平台。

总结:

开启大规模强化学习新纪元

本文介绍了 siiRL,一个为解决大规模 RL 训练中的扩展性和灵活性挑战而设计的全新框架 。通过创新的全分布式架构和用户自定义的DAG 驱动流程,siiRL 不仅彻底解决了传统单控制器设计的瓶颈问题,实现了千卡规模的近线性扩展和高达 7 倍的吞吐提升,还极大地增强了框架的灵活性,加速了算法的创新迭代周期 。

我们相信这项工作为大规模强化学习研究铺平了道路,提供了一个更高效、更灵活、真正可扩展的解决方案 。欢迎大家试用 siiRL,共同迈向大规模 AI 的未来!

上海创智学院 AI Infra 团队介绍

siiRL 诞生于上海创智学院产学研一体化人才培养模式

  • 团队成员包括来自国内 31 所顶尖高校的博士生和一线大厂丰富产业经验的导师,含万卡集群建设者、中国第一批 CUDA 开发者、国产芯片优化专家、互联网大厂机器学习平台负责人等。
  • 全链路开源:从硬件到框架,代码 100% 开放。
  • 团队核心目标:让大模型跑在中国芯,让 AGI 基石全球共享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普被曝希望对伊朗的军事打击快速且具决定性

特朗普被曝希望对伊朗的军事打击快速且具决定性

界面新闻
2026-01-15 12:17:07
女子上班不化妆,领导让化一次妆上班觉得不是本人,评论区炸锅!

女子上班不化妆,领导让化一次妆上班觉得不是本人,评论区炸锅!

观察鉴娱
2026-01-12 09:06:07
美国航母出动!伊朗处于最高战备状态

美国航母出动!伊朗处于最高战备状态

每日经济新闻
2026-01-15 16:42:30
“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

妍妍教育日记
2026-01-08 20:37:01
怎样判断一个人的认知在你之上

怎样判断一个人的认知在你之上

诗词中国
2026-01-13 19:38:16
《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

粤睇先生
2026-01-15 00:13:17
纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

谈史论天地
2026-01-14 12:55:03
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
贵州跑圈“女神”李绍艳去世,年仅30岁,多次在马路上逆行摆拍

贵州跑圈“女神”李绍艳去世,年仅30岁,多次在马路上逆行摆拍

裕丰娱间说
2026-01-15 12:51:13
株洲女子灿灿宣布杀猪宴提前结束,在直播间大哭致歉,此前曾准备10头猪万人报名

株洲女子灿灿宣布杀猪宴提前结束,在直播间大哭致歉,此前曾准备10头猪万人报名

极目新闻
2026-01-15 14:46:05
专机已抵京,卡尼对台叫停一件事,大陆发布照会,民进党连犯4错

专机已抵京,卡尼对台叫停一件事,大陆发布照会,民进党连犯4错

时时有聊
2026-01-14 19:33:23
男童骑车遭混凝土罐车碾轧致死,昆明警方:司机涉多重违规,且在禁行道路行驶

男童骑车遭混凝土罐车碾轧致死,昆明警方:司机涉多重违规,且在禁行道路行驶

澎湃新闻
2026-01-15 20:56:29
纳指收涨0.25% 芯片股领涨

纳指收涨0.25% 芯片股领涨

财联社
2026-01-16 05:02:20
《寻秦记》原班人马庆功,香港票房破6600万,古天乐承诺过亿出加长版

《寻秦记》原班人马庆功,香港票房破6600万,古天乐承诺过亿出加长版

你约电影
2026-01-15 21:09:00
陶哲轩惊叹!数学奇点初现,AI首次给出人类无法企及的原创证明

陶哲轩惊叹!数学奇点初现,AI首次给出人类无法企及的原创证明

新智元
2026-01-15 21:19:52
中央一号文放大招!城镇户口能迁回农村了,这几类人要偷着乐!

中央一号文放大招!城镇户口能迁回农村了,这几类人要偷着乐!

今朝牛马
2026-01-15 17:36:28
狂飙不止!AI的终点是有色金属?

狂飙不止!AI的终点是有色金属?

和讯网
2026-01-15 12:05:13
从基建到应用大爆发,AI或进入下半场

从基建到应用大爆发,AI或进入下半场

金融界
2026-01-15 11:12:32
当下,很多家庭已经处于崩溃的边缘

当下,很多家庭已经处于崩溃的边缘

诗词中国
2026-01-14 20:55:27
吉普赛灵媒预测2026:大地重归其主,三个王冠坠地,四个身影倒下

吉普赛灵媒预测2026:大地重归其主,三个王冠坠地,四个身影倒下

心灵短笛
2026-01-12 15:23:05
2026-01-16 06:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12126文章数 142536关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

时尚
旅游
家居
数码
公开课

年度最扎心电影,看得中年男女坐立难安

旅游要闻

龙庆峡冰灯节“上新”

家居要闻

自在自宅 个性自由

数码要闻

部分内存条价格暴涨超300% 报告称存储市场进入超级牛市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版