网易首页 > 网易号 > 正文 申请入驻

开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架

0
分享至



还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。

事实上,当前最顶尖的基础模型,从DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都离不开大规模强化学习的加持。这充分表明,RL Scaling 已经成为大模型领域迈向更高智能的 “军备竞赛” 核心,是大势所趋。而 xAI 最近发布的Grok 4,更是将这一趋势推向了新的高度,他们直接在其拥有的 200,000 块 GPU 大集群上,以前所未有的 “后训练规模” 来运行强化学习,旨在精进模型的推理能力。

Grok 4 和其他顶尖推理模型的成功共同揭示了一个明确的事实:解决强化学习的扩展性瓶颈,已不再仅仅是一个工程挑战,而是解锁下一代 AI 高级推理能力、实现更强通用智能的关键所在。因此,对 RL Scaling 的投入和研究,是未来 AI 发展的重要方向和核心战略。

现在,来自上海创智学院的研究团队正式推出siiRL,一个支持大规模高效强化学习训练的 RL 框架!

siiRL 的核心在于其创新的多控制器范式和全分布式架构,它将数据加载、计算和数据流转等任务均匀地分散到所有工作节点,从根本上解决了传统 RL 框架中由单一控制器引发的性能瓶颈。

  • 线性扩展:全分布式架构带来近乎线性的扩展能力,已在1024 GPU规模下成功验证 。
  • 性能再飞跃:彻底消除单点瓶颈,实现最高达到 7 倍 的端到端训练吞吐提升 。
  • 极致灵活:基于DAG的工作流定义,将算法逻辑与物理资源解耦,让算法创新和实验迭代快如闪电,并且能够更灵活的支持多智能体协同训练。
  • 跨硬件平台兼容:siiRL 现已正式支持华为昇腾(Ascend)NPU,为用户提供在不同的硬件平台上进行 RL 训练的高性能选择。
  • 开箱即用:全面开源,轻松部署。



  • 论文链接: https://arxiv.org/abs/2507.13833
  • 代码链接: https://github.com/sii-research/siiRL

传统 RL 框架为何遭遇瓶颈?

解构单控制器之痛



图 1:传统单控制器架构瓶颈。所有数据操作(初始加载、中间数据流转)都需经过中心控制器,导致严重的通信开销和扩展限制 。

在主流的强化学习框架中,系统通常采用一种混合或单一控制器架构,即由一个中心化的控制器节点来调度整个执行逻辑和管理数据流 。无论是初始的数据集加载,还是各计算阶段间海量中间数据的收集与分发,所有数据都必须流经这个中心节点 。

这种设计在小规模下尚可运行,但一旦扩展到数百乃至上千 GPU,该中心节点就会因巨大的 I/O 和通信开销而成为系统的性能瓶颈 。更糟糕的是,海量数据很容易压垮中心节点的内存,导致系统崩溃(OOM),从根本上限制了系统的可扩展性和稳定性 。此外,固化的算法流程也大大增加了研究者进行算法创新的难度 。

siiRL 的高效秘诀:全分布式架构

为了彻底解决上述痛点, siiRL 创新性地采用了全分布式架构 和 多控制器范式,移除了中心节点,将数据与计算的调度权下放到每一个工作单元 。



图 2:siiRL 架构概览

siiRL 的整体设计包含三大核心组件:

a.DAG Planner (DAG 规划器):用户可以通过配置文件灵活定义一个代表完整 RL 工作流的有向无环图(DAG)。DAG Planner 负责接收这个逻辑图,并将其自动解析、分解为一系列线性的执行任务,分发给每个 Worker 。这种设计将算法逻辑与物理执行完全解耦,赋予了研究者极大的灵活性 。

b.DAG Worker (DAG 工作单元):作为框架的基本执行单位,每个 DAG Worker 绑定到一个 GPU,并独立执行由 DAG Planner 分配的任务链 。它通过动态函数分发机制,将 DAG 节点定义(如角色、类型)与具体的计算函数实现解耦,使得框架极易扩展 。

c.Data Coordinator (数据协调器):它负责管理整个数据生命周期,确保数据在全分布式系统中的高效、正确流动 。

i.Distributed Dataloader:在初始加载阶段,每个 Worker 只加载自己所需的数据分片,通过并行加载的方式从源头避免了单点瓶颈 。

ii.Distributed Databuffer:在阶段转换时,当并行策略(如数据并行度)发生变化,Databuffer 会自动完成跨节点的数据重组与分发,确保数据流无缝衔接 。



图 3:Distributed Databuffer 示意图。当数据并行从 2(生成阶段)变为 4(训练阶段)时,Databuffer 自动将数据重新切分并分发给正确的 Worker 。

效果验证:速度与扩展性双丰收,

性能依旧强劲!

我们在涵盖 7B 到 72B 的多种模型尺寸和算法上,将 siiRL 与当前最主流的开源框架 verl 进行了全面对比。实验结果证明了 siiRL 架构的巨大优势。

在 PPO 和 GRPO 算法的端到端训练中,siiRL 的性能全面超越基线。尤其是在数据交互量更大的 GRPO 算法下,siiRL 实现了高达 2.62 倍的吞吐提升 。值得注意的是,在训练 72B 模型时,基线框架在 32 卡配置下便遭遇了 OOM 错误,而 siiRL 则能轻松完成任务。





图 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐对比。siiRL(蓝色)在所有模型尺寸和 GPU 规模上均大幅领先基线框架 verl(红色) 。

扩展性评估:千卡规模下的近线性扩展

得益于全分布式设计,siiRL 在扩展至 1024 个 GPU 时仍表现出近乎完美的线性扩展能力 。如下图所示,在训练 32B 模型时,从 64 卡扩展至 512 卡,系统依然保持了 80.5%的线性扩展效率 。由于基线框架在同等规模下无法运行,我们转而测试其所能支持的最大训练批次大小,在此条件下,siiRL 在 VLM 设定下实现了惊人的 7 倍 速度提升



图 5:siiRL 在 VLM 任务上的扩展性评估,展示了从 32 到 1024 GPU 规模下的近线性扩展能力 。



图 6: siiRL 和基线框架在基线框架支持最大训练批次下对比实验,7B 模型训练吞吐提升最高达到 7 倍。

数据密集型场景:优势愈发明显

在长上下文这类数据密集型任务中,siiRL 的优势愈发凸显 。随着上下文长度从 8k 增加到 64k,siiRL 相对于基线的领先优势从 1.48 倍扩大到 2.03 倍。这充分证明,数据通信量越大,siiRL 的全分布式数据流设计的效率提升就越高 。



图 7:长上下文性能评估。随着上下文长度增加,siiRL(蓝色)的性能优势愈发显著 。

收敛性验证:性能提升,精度无损

为了确保性能提升不以牺牲模型精度为代价,我们进行了收敛性对比实验 。结果表明,在完全相同的超参数下,siiRL 和基线框架的奖励值与熵值曲线几乎完全重合 。这意味着,siiRL 在将训练总耗时大幅减少的同时,保证了与基线完全一致的训练效果 。



图 8:收敛性对比。siiRL 与基线框架的训练曲线趋势一致,证明其优化不影响模型最终精度 。

未来计划:

我们基于 DAG 的灵活设计,为构建复杂的 “多智能体系统” 奠定了天然且坚实的基础。展望未来,我们计划将多智能体支持作为系统的核心特性进行重点拓展,这包括支持更复杂的智能体交互工作流,扩展对多智能体强化学习(MARL)算法的兼容性,并实现更丰富的智能体与环境的交互机制,从而将我们的框架打造为一个功能全面的多智能体研发平台。

总结:

开启大规模强化学习新纪元

本文介绍了 siiRL,一个为解决大规模 RL 训练中的扩展性和灵活性挑战而设计的全新框架 。通过创新的全分布式架构和用户自定义的DAG 驱动流程,siiRL 不仅彻底解决了传统单控制器设计的瓶颈问题,实现了千卡规模的近线性扩展和高达 7 倍的吞吐提升,还极大地增强了框架的灵活性,加速了算法的创新迭代周期 。

我们相信这项工作为大规模强化学习研究铺平了道路,提供了一个更高效、更灵活、真正可扩展的解决方案 。欢迎大家试用 siiRL,共同迈向大规模 AI 的未来!

上海创智学院 AI Infra 团队介绍

siiRL 诞生于上海创智学院产学研一体化人才培养模式

  • 团队成员包括来自国内 31 所顶尖高校的博士生和一线大厂丰富产业经验的导师,含万卡集群建设者、中国第一批 CUDA 开发者、国产芯片优化专家、互联网大厂机器学习平台负责人等。
  • 全链路开源:从硬件到框架,代码 100% 开放。
  • 团队核心目标:让大模型跑在中国芯,让 AGI 基石全球共享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

清茶浅谈
2026-01-13 21:21:11
马斯克:三年内星舰发射频率将超过每小时一次!SpaceX的终极目标是每年生产1万艘星舰飞船

马斯克:三年内星舰发射频率将超过每小时一次!SpaceX的终极目标是每年生产1万艘星舰飞船

和讯网
2026-01-15 14:55:12
卡尼没想到,他动身访华前夕,赖清德突然攀关系,一句话要坏好事

卡尼没想到,他动身访华前夕,赖清德突然攀关系,一句话要坏好事

博览历史
2026-01-14 21:58:40
章泽天身价600亿,为何突然与穷人抢饭碗?背后真相终于曝光!

章泽天身价600亿,为何突然与穷人抢饭碗?背后真相终于曝光!

影像温度
2026-01-14 09:52:01
1月13日深夜,中国发射了一颗神秘的逆向轨道卫星

1月13日深夜,中国发射了一颗神秘的逆向轨道卫星

趣文说娱
2026-01-15 14:57:30
29万人逃离湖南,22万人离开吉林!人口大迁徙中,谁是最后赢家?

29万人逃离湖南,22万人离开吉林!人口大迁徙中,谁是最后赢家?

流史岁月
2025-12-29 15:45:03
特朗普:非常恶劣,“泄密者”已被抓!

特朗普:非常恶劣,“泄密者”已被抓!

环球时报国际
2026-01-16 00:13:09
上海独生子女的幸福:上班不啃老,就是给父母省钱!父母不差钱!

上海独生子女的幸福:上班不啃老,就是给父母省钱!父母不差钱!

捣蛋窝
2026-01-16 00:24:16
要引狼入室?柬埔寨副首相呼吁减少对中国的依赖,欢迎美军舰来访

要引狼入室?柬埔寨副首相呼吁减少对中国的依赖,欢迎美军舰来访

时时有聊
2026-01-15 10:29:54
中东国家都已意识到了!就算中国高端武器再多,也无法保护他们

中东国家都已意识到了!就算中国高端武器再多,也无法保护他们

轩逸阿II
2026-01-14 04:20:15
澳网中国正赛8人团成形,女单四美王欣瑜最好命,男单F4自求多福

澳网中国正赛8人团成形,女单四美王欣瑜最好命,男单F4自求多福

网球之家
2026-01-15 22:18:28
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
闫学晶风波后现身机场!状态良好轻松,疑似离开三亚回东北

闫学晶风波后现身机场!状态良好轻松,疑似离开三亚回东北

素素娱乐
2026-01-15 14:39:04
毫无下限、尺度拉满,这5部黄暴美剧,强烈推荐

毫无下限、尺度拉满,这5部黄暴美剧,强烈推荐

小微看电影
2026-01-16 06:40:03
跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

墨兰史书
2026-01-03 05:45:03
凌晨4点 领头羊对决!巴萨冲11连胜+晋级8强 飞翼回归首秀

凌晨4点 领头羊对决!巴萨冲11连胜+晋级8强 飞翼回归首秀

叶青足球世界
2026-01-15 09:47:20
33天黄粱一梦,从“楚门的世界”里走出的苏超历史最差主帅

33天黄粱一梦,从“楚门的世界”里走出的苏超历史最差主帅

懂球帝
2026-01-15 18:06:15
央行副行长邹澜:近期中国物价水平已出现积极变化

央行副行长邹澜:近期中国物价水平已出现积极变化

新京报
2026-01-15 17:15:06
警惕!东南亚航班多人中招!飞机上熟睡半小时,信用卡、现金都没了,刚落地就收到盗刷短信

警惕!东南亚航班多人中招!飞机上熟睡半小时,信用卡、现金都没了,刚落地就收到盗刷短信

鲁中晨报
2026-01-15 16:43:15
特朗普被曝希望对伊朗的军事打击快速且具决定性

特朗普被曝希望对伊朗的军事打击快速且具决定性

界面新闻
2026-01-15 12:17:07
2026-01-16 07:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12126文章数 142536关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

艺术
家居
数码
亲子
公开课

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

家居要闻

自在自宅 个性自由

数码要闻

部分内存条价格暴涨超300% 报告称存储市场进入超级牛市

亲子要闻

宝妈必学,让孩子警惕身边的这种朋友!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版