网易首页 > 网易号 > 正文 申请入驻

开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架

0
分享至



还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。

事实上,当前最顶尖的基础模型,从DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都离不开大规模强化学习的加持。这充分表明,RL Scaling 已经成为大模型领域迈向更高智能的 “军备竞赛” 核心,是大势所趋。而 xAI 最近发布的Grok 4,更是将这一趋势推向了新的高度,他们直接在其拥有的 200,000 块 GPU 大集群上,以前所未有的 “后训练规模” 来运行强化学习,旨在精进模型的推理能力。

Grok 4 和其他顶尖推理模型的成功共同揭示了一个明确的事实:解决强化学习的扩展性瓶颈,已不再仅仅是一个工程挑战,而是解锁下一代 AI 高级推理能力、实现更强通用智能的关键所在。因此,对 RL Scaling 的投入和研究,是未来 AI 发展的重要方向和核心战略。

现在,来自上海创智学院的研究团队正式推出siiRL,一个支持大规模高效强化学习训练的 RL 框架!

siiRL 的核心在于其创新的多控制器范式和全分布式架构,它将数据加载、计算和数据流转等任务均匀地分散到所有工作节点,从根本上解决了传统 RL 框架中由单一控制器引发的性能瓶颈。

  • 线性扩展:全分布式架构带来近乎线性的扩展能力,已在1024 GPU规模下成功验证 。
  • 性能再飞跃:彻底消除单点瓶颈,实现最高达到 7 倍 的端到端训练吞吐提升 。
  • 极致灵活:基于DAG的工作流定义,将算法逻辑与物理资源解耦,让算法创新和实验迭代快如闪电,并且能够更灵活的支持多智能体协同训练。
  • 跨硬件平台兼容:siiRL 现已正式支持华为昇腾(Ascend)NPU,为用户提供在不同的硬件平台上进行 RL 训练的高性能选择。
  • 开箱即用:全面开源,轻松部署。



  • 论文链接: https://arxiv.org/abs/2507.13833
  • 代码链接: https://github.com/sii-research/siiRL

传统 RL 框架为何遭遇瓶颈?

解构单控制器之痛



图 1:传统单控制器架构瓶颈。所有数据操作(初始加载、中间数据流转)都需经过中心控制器,导致严重的通信开销和扩展限制 。

在主流的强化学习框架中,系统通常采用一种混合或单一控制器架构,即由一个中心化的控制器节点来调度整个执行逻辑和管理数据流 。无论是初始的数据集加载,还是各计算阶段间海量中间数据的收集与分发,所有数据都必须流经这个中心节点 。

这种设计在小规模下尚可运行,但一旦扩展到数百乃至上千 GPU,该中心节点就会因巨大的 I/O 和通信开销而成为系统的性能瓶颈 。更糟糕的是,海量数据很容易压垮中心节点的内存,导致系统崩溃(OOM),从根本上限制了系统的可扩展性和稳定性 。此外,固化的算法流程也大大增加了研究者进行算法创新的难度 。

siiRL 的高效秘诀:全分布式架构

为了彻底解决上述痛点, siiRL 创新性地采用了全分布式架构 和 多控制器范式,移除了中心节点,将数据与计算的调度权下放到每一个工作单元 。



图 2:siiRL 架构概览

siiRL 的整体设计包含三大核心组件:

a.DAG Planner (DAG 规划器):用户可以通过配置文件灵活定义一个代表完整 RL 工作流的有向无环图(DAG)。DAG Planner 负责接收这个逻辑图,并将其自动解析、分解为一系列线性的执行任务,分发给每个 Worker 。这种设计将算法逻辑与物理执行完全解耦,赋予了研究者极大的灵活性 。

b.DAG Worker (DAG 工作单元):作为框架的基本执行单位,每个 DAG Worker 绑定到一个 GPU,并独立执行由 DAG Planner 分配的任务链 。它通过动态函数分发机制,将 DAG 节点定义(如角色、类型)与具体的计算函数实现解耦,使得框架极易扩展 。

c.Data Coordinator (数据协调器):它负责管理整个数据生命周期,确保数据在全分布式系统中的高效、正确流动 。

i.Distributed Dataloader:在初始加载阶段,每个 Worker 只加载自己所需的数据分片,通过并行加载的方式从源头避免了单点瓶颈 。

ii.Distributed Databuffer:在阶段转换时,当并行策略(如数据并行度)发生变化,Databuffer 会自动完成跨节点的数据重组与分发,确保数据流无缝衔接 。



图 3:Distributed Databuffer 示意图。当数据并行从 2(生成阶段)变为 4(训练阶段)时,Databuffer 自动将数据重新切分并分发给正确的 Worker 。

效果验证:速度与扩展性双丰收,

性能依旧强劲!

我们在涵盖 7B 到 72B 的多种模型尺寸和算法上,将 siiRL 与当前最主流的开源框架 verl 进行了全面对比。实验结果证明了 siiRL 架构的巨大优势。

在 PPO 和 GRPO 算法的端到端训练中,siiRL 的性能全面超越基线。尤其是在数据交互量更大的 GRPO 算法下,siiRL 实现了高达 2.62 倍的吞吐提升 。值得注意的是,在训练 72B 模型时,基线框架在 32 卡配置下便遭遇了 OOM 错误,而 siiRL 则能轻松完成任务。





图 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐对比。siiRL(蓝色)在所有模型尺寸和 GPU 规模上均大幅领先基线框架 verl(红色) 。

扩展性评估:千卡规模下的近线性扩展

得益于全分布式设计,siiRL 在扩展至 1024 个 GPU 时仍表现出近乎完美的线性扩展能力 。如下图所示,在训练 32B 模型时,从 64 卡扩展至 512 卡,系统依然保持了 80.5%的线性扩展效率 。由于基线框架在同等规模下无法运行,我们转而测试其所能支持的最大训练批次大小,在此条件下,siiRL 在 VLM 设定下实现了惊人的 7 倍 速度提升



图 5:siiRL 在 VLM 任务上的扩展性评估,展示了从 32 到 1024 GPU 规模下的近线性扩展能力 。



图 6: siiRL 和基线框架在基线框架支持最大训练批次下对比实验,7B 模型训练吞吐提升最高达到 7 倍。

数据密集型场景:优势愈发明显

在长上下文这类数据密集型任务中,siiRL 的优势愈发凸显 。随着上下文长度从 8k 增加到 64k,siiRL 相对于基线的领先优势从 1.48 倍扩大到 2.03 倍。这充分证明,数据通信量越大,siiRL 的全分布式数据流设计的效率提升就越高 。



图 7:长上下文性能评估。随着上下文长度增加,siiRL(蓝色)的性能优势愈发显著 。

收敛性验证:性能提升,精度无损

为了确保性能提升不以牺牲模型精度为代价,我们进行了收敛性对比实验 。结果表明,在完全相同的超参数下,siiRL 和基线框架的奖励值与熵值曲线几乎完全重合 。这意味着,siiRL 在将训练总耗时大幅减少的同时,保证了与基线完全一致的训练效果 。



图 8:收敛性对比。siiRL 与基线框架的训练曲线趋势一致,证明其优化不影响模型最终精度 。

未来计划:

我们基于 DAG 的灵活设计,为构建复杂的 “多智能体系统” 奠定了天然且坚实的基础。展望未来,我们计划将多智能体支持作为系统的核心特性进行重点拓展,这包括支持更复杂的智能体交互工作流,扩展对多智能体强化学习(MARL)算法的兼容性,并实现更丰富的智能体与环境的交互机制,从而将我们的框架打造为一个功能全面的多智能体研发平台。

总结:

开启大规模强化学习新纪元

本文介绍了 siiRL,一个为解决大规模 RL 训练中的扩展性和灵活性挑战而设计的全新框架 。通过创新的全分布式架构和用户自定义的DAG 驱动流程,siiRL 不仅彻底解决了传统单控制器设计的瓶颈问题,实现了千卡规模的近线性扩展和高达 7 倍的吞吐提升,还极大地增强了框架的灵活性,加速了算法的创新迭代周期 。

我们相信这项工作为大规模强化学习研究铺平了道路,提供了一个更高效、更灵活、真正可扩展的解决方案 。欢迎大家试用 siiRL,共同迈向大规模 AI 的未来!

上海创智学院 AI Infra 团队介绍

siiRL 诞生于上海创智学院产学研一体化人才培养模式

  • 团队成员包括来自国内 31 所顶尖高校的博士生和一线大厂丰富产业经验的导师,含万卡集群建设者、中国第一批 CUDA 开发者、国产芯片优化专家、互联网大厂机器学习平台负责人等。
  • 全链路开源:从硬件到框架,代码 100% 开放。
  • 团队核心目标:让大模型跑在中国芯,让 AGI 基石全球共享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一夜之间,喜欢杨幂的人都沉默了!这姐为了美,实在太能扛了!

一夜之间,喜欢杨幂的人都沉默了!这姐为了美,实在太能扛了!

乐悠悠娱乐
2025-10-27 10:31:08
寡姐黑衣写真,性感与力量的完美融合?

寡姐黑衣写真,性感与力量的完美融合?

娱乐领航家
2025-11-10 00:00:03
全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

知轩体育
2025-11-09 22:58:45
“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂

“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂

爱吃醋的猫咪
2025-11-08 22:04:01
宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

孤傲何妨初
2025-11-08 08:59:15
英法德没想到,曾经无足轻重的匈牙利,竟然成为了新欧洲经济中心

英法德没想到,曾经无足轻重的匈牙利,竟然成为了新欧洲经济中心

百科密码
2025-11-04 16:25:52
比特币巨震!加密货币近14万人爆仓,发生了什么?

比特币巨震!加密货币近14万人爆仓,发生了什么?

每日经济新闻
2025-11-09 09:12:05
西渝高铁站点布局,四川5站碾压重庆3站,达州4站赢麻了

西渝高铁站点布局,四川5站碾压重庆3站,达州4站赢麻了

晨晨星
2025-11-10 00:06:34
世界杯亚洲8个名额全部确定,一文回顾世预赛,中国男足很可惜

世界杯亚洲8个名额全部确定,一文回顾世预赛,中国男足很可惜

摸神drose
2025-11-09 16:08:14
突击清查“三非”人员,印度人这事闹大后,深圳的反应速度封神!

突击清查“三非”人员,印度人这事闹大后,深圳的反应速度封神!

华史谈
2025-11-09 12:32:00
全运会举重小将刘嘉鑫:每天累计举重10吨,希望成为下一个刘焕华

全运会举重小将刘嘉鑫:每天累计举重10吨,希望成为下一个刘焕华

新京报
2025-11-09 22:13:23
全运会乒乓:单打首场大爆冷!奥运季军0-4出局,王艺迪晋级16强

全运会乒乓:单打首场大爆冷!奥运季军0-4出局,王艺迪晋级16强

一只番茄鱼
2025-11-09 15:59:03
一边是政府关门不作为,一边是4200万百姓饥饿,这就是腐烂的美国

一边是政府关门不作为,一边是4200万百姓饥饿,这就是腐烂的美国

古史青云啊
2025-11-07 14:16:21
男子徒步攀登惠州大南山倒地昏迷离世,景区提醒:未开发未开放地点,不建议登山者探险

男子徒步攀登惠州大南山倒地昏迷离世,景区提醒:未开发未开放地点,不建议登山者探险

大风新闻
2025-11-09 14:39:06
甜瓜儿子基扬-安东尼首次在NCAA先发,出场29分钟11中8拿19分3板4助

甜瓜儿子基扬-安东尼首次在NCAA先发,出场29分钟11中8拿19分3板4助

懂球帝
2025-11-09 09:09:10
你见过最烂的婚姻是啥样?网友:至少百分之80以上,都凑活着过着

你见过最烂的婚姻是啥样?网友:至少百分之80以上,都凑活着过着

解读热点事件
2025-11-07 00:05:03
FSD有望全面入华,L3延期到2026年,华为与特斯拉将有一战?

FSD有望全面入华,L3延期到2026年,华为与特斯拉将有一战?

路咖汽车
2025-11-08 17:09:34
湖南19岁男生和母亲新疆自驾游,父亲发现纸篓异物,崩溃了

湖南19岁男生和母亲新疆自驾游,父亲发现纸篓异物,崩溃了

纸鸢奇谭
2024-10-13 19:26:30
被忽悠惨了!有人降价卖掉自己的房子,现在已经开始后悔了!

被忽悠惨了!有人降价卖掉自己的房子,现在已经开始后悔了!

小谈食刻美食
2025-11-09 15:45:45
332场104球64助!曼城太子将涨薪续约 坚守伊蒂哈德终得丰厚回报

332场104球64助!曼城太子将涨薪续约 坚守伊蒂哈德终得丰厚回报

雪狼侃体育
2025-11-09 21:19:46
2025-11-10 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

游戏
时尚
健康
艺术
公开课

尺度太大被迫降级16+?灵笼团队做了款剧情演出降维打击的二游

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

超声探头会加重受伤情况吗?

艺术要闻

探索风情万种的高级美,优雅与野性并存!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版