网易首页 > 网易号 > 正文 申请入驻

RLinf v0.2尝鲜版发布,像使用GPU一样使用你的机器人!

0
分享至



在具身智能领域,特别是如何构造一个高泛化性的 VLA,数据之争一直存在:仿真数据 vs 真机数据。数据来源不同,导致算法设计迥然不同,进一步对系统设计提出了更多的要求。做 infra 的目标是做好服务,支持不同技术路线的探索。

「仿训推一体化」RLinf v0.1 面向的是采用仿真路线的用户,那么今天要给大家介绍的是 RLinf v0.2,面向采用真机路线的用户,也就是支持了真机强化学习。



  • 论文标题:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
  • 论文地址:https://arxiv.org/abs/2509.15965
  • 开源地址:https://github.com/RLinf/RLinf

下面针对 RLinf v0.2 的特色展开介绍。

特色 1:RLinf 允许用户

像使用 GPU 一样使用机器人

在 RLinf 中,我们将机器人看作与 GPU 相同层级的、可灵活配置的资源,如图 1 所示,GPU Node 和 Robot Node 处于同一层级。过去我们通常把 Worker(训练、推理等工作组件)加载在 GPU 上,现在我们可以把 Worker 加载在机器人上。只要能够 access 到机器人的 IP 和端口,无论它们身在何处,都可以接入 RLinf 系统。

RLinf 会按照用户配置进一步完成模型与机器人的对应映射,之后 RLinf 会通过 Data Channel(RLinf 的通信原语)完成数据收集和模型参数更新。而实现这一切,用户只需要编写 YAML 文件即可完成,极大地降低了使用成本。例如,下图 2 展示了以 Franka 为例的 2 台机器人配置方法。



图 1 将机器人看作与 GPU 相同层级的、可灵活配置的资源 图 2 用户只需要编写 YAML 文件即可完成真机对接



图2 用户只需要编写YAML文件即可完成真机对接

RLinf 这一独特设计是为了解锁更宏大的目标,即大规模分布式真机强化学习训练范式,如图 3 所示。

这一范式将有望成为具身智能在除了 Scaling 数据、模型之外的第三条路径:Scaling 真机。大规模真机强化学习能够解决当下真机强化学习面临的诸多问题,当然,天下没有免费的午餐,放松了对算法的要求,对应地增加了对 infra 的要求,如何做到稳定、易用、灵活是 infra 要解决的主要挑战。

RLinf 针对这一问题给出了自己的答案:极度灵活的系统设计思想支持多样需求。特别地,RLinf 提出适配强化学习的新一代编程范式 Macro-to-Micro Flow (M2Flow),将上层工作流与底层计算优化解耦,兼顾了灵活性与高效性。



图 3 大规模分布式真机强化学习系统

特色 2:RLinf 支持

全异构软硬件集群配置

由于与物理世界高度耦合,真机强化学习面临的集群配置通常是异构的、端云协同的。例如,机器人的控制端需要实时操作系统且不需要运行神经网络模型,通常会运行在单独的 CPU 机器,如 NUC;VLA 模型推理端需要与机器人的控制端足够近,使得通信代价最小,且推理需要显存较小,因此 VLA 模型推理通常直接运行在端侧小显存机器,如 24GB 的 4090;VLA 模型训练为了加快训练速度,通常需要云端大显存机器集群,如 80GB 的 A100/800 等。

在端云协同的背景下,RLinf 支持灵活的全异构的软硬件集群配置,提升系统吞吐和训练效率。例如,你可以:

  • 在支持光线追踪的 GPU(如 RTX 4090)上运行高保真模拟器;
  • 在大显存计算 GPU(如 A800)上进行训练;
  • 在小显存计算 GPU(如 RTX 4090)进行推理;
  • 在无显存的 CPU 机器(如 NUC)运行机器人控制器。

在 RLinf 中接入这样的异构环境,只需要在 YAML 配置文件中正确配置 cluster 段落即可,如下图 4 所示。



图 4 RLinf 支持全异构软硬件集群配置

特色 3:RLinf 支持

全异步 off-policy 算法

真机强化学习的一个典型局限就是物理世界无法被加速,数据效率成为显著瓶颈,所以如何提高数据利用率成为关键一环。除此之外,当下真机强化学习的一种行之有效的方法是人在环介入,例如在执行过程中提供专家示教数据,或者实时标注数据等,传统同步训推框架将会极大限制这一类方法的训练效率。

因此,RLinf v0.2 新增全异步设计,端侧推理节点与云侧训练节点解耦,通过 Data Channel 进行数据周期性同步,进而实现训推并行,极大提高训练效率。同时,RLinf v0.2 上线典型 off-policy RL 算法,包括仅利用在线数据的 SAC [1]、CrossQ [2] 和同时利用离线数据集和在线数据的 RLPD [3] 等,进一步提升数据利用率。RLinf 中异步工作流示意图如图 5 所示。



图 5 全异步算法流图

实验结果

本次发布的尝鲜版是基于小模型的真机强化学习。为了方便大家快速、低成本复现实验,我们采用常见的Franka 机械臂,基于常见物品或者易获取标准件设计了两个快速验证任务:ChargerPeg Insertion。其中,Charger 任务为稠密奖励,使用异步 SAC [1] 算法训练,训练过程中有 20 次左右的人在环空间鼠标接管,以提高训练效率。Peg Insertion 任务为稀疏奖励,使用异步 RLPD 算法 [3] 训练。在开始训练前,采集了 20 条人类操作数据存储在 Demo Buffer 中。

两个任务的成功率曲线如图 6 所示。可以发现,两个任务均可以在 1.5h 以内收敛。收敛后,Peg Insertion 任务可以连续 100+ 次成功,Charger 任务可以连续 50+ 次成功



图 6 Peg Insertion & Charger 成功率曲线

训练过程的视频记录如视频 1 所示,完整记录了两个任务的训练过程。同时我们也验证了位于不同空间的两台 Franka 机械臂同时进行真机强化学习,见视频 2。

视频 1:训练过程。上:Peg Insertion;下:Charger

视频 2:位于不同房间的两台 Franka 机械臂同时进行真机强化学习

RLinf 全体成员向支持 RLinf 的 2k 位社区用户表达感谢。用户的使用和反馈促使团队不断完善代码,也不断增加了团队坚定走下去的信心。自 2025.9.1 发布以来,RLinf 几乎保持着每 2 周更新一次新 feature 的开发速度,在经过几轮重构后,面向具身仿真路线需求的「仿训推一体化」强化学习框架 RLinf v0.1 版本于 2025.12.17 正式 release,欢迎大家查看中英双语文档(对!除了代码没有中文版,其他材料都有中文版!不要错过!)。目前 RLinf 支持矩阵可以总结如下:

  • Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
  • VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
  • Custom policy:MLP、CNN
  • RL Algos:GRPO、PPO、DAPO、Reinforce++
  • SFT:Full-para SFT、LoRA

仿真路线还在持续开发,更多的 feature,如仿真器、模型也会尽快跟大家见面!

参考文献:

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军凌晨斩首!委内瑞拉防空毫无反应:美军陆战队直扑玛格丽塔岛

美军凌晨斩首!委内瑞拉防空毫无反应:美军陆战队直扑玛格丽塔岛

南宫一二
2026-01-03 19:32:59
广州市中心知名客运站,宣布将关停!它是很多人到广州的第一站

广州市中心知名客运站,宣布将关停!它是很多人到广州的第一站

南方都市报
2026-01-03 21:14:58
就在今天!贾巴尔保持了37年的NBA纪录被打破了

就在今天!贾巴尔保持了37年的NBA纪录被打破了

篮球大视野
2026-01-03 18:43:57
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
95后宝藏女孩!颜值气质双在线,魅力挡都挡不住

95后宝藏女孩!颜值气质双在线,魅力挡都挡不住

素然追光
2026-01-04 00:25:40
美国五艘航母同时逼近南海,白宫放话,要求解放军给台湾让出空间

美国五艘航母同时逼近南海,白宫放话,要求解放军给台湾让出空间

十三级台阶
2025-12-30 08:29:15
特朗普官宣马杜罗被捕照,送纽约公开羞辱,俄军瓦格纳一枪没开?

特朗普官宣马杜罗被捕照,送纽约公开羞辱,俄军瓦格纳一枪没开?

触摸史迹
2026-01-04 00:42:31
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

壹知眠羊
2025-12-21 07:15:19
45岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她追求是什么

45岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她追求是什么

丰谭笔录
2026-01-03 07:50:06
突发!中国资产大爆发!

突发!中国资产大爆发!

钱眼
2026-01-03 19:26:04
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
美方称抓捕马杜罗的行动由三角洲部队完成,这支部队有何历史?

美方称抓捕马杜罗的行动由三角洲部队完成,这支部队有何历史?

闻号说经济
2026-01-03 19:31:28
中方制裁刚落地,特朗普就改主意了!取消撤离计划,赖在琉球保台

中方制裁刚落地,特朗普就改主意了!取消撤离计划,赖在琉球保台

南风不及你温柔
2026-01-04 00:50:46
美女老板确认:遇暂时困难 无法兑现湘超夺冠赠车承诺 愿再奖10万

美女老板确认:遇暂时困难 无法兑现湘超夺冠赠车承诺 愿再奖10万

我爱英超
2026-01-03 16:38:23
中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

文雅笔墨
2026-01-01 05:32:43
不要再穿“打底裤”了,柔软舒适的“瑜伽裤”很香,展现优美身材

不要再穿“打底裤”了,柔软舒适的“瑜伽裤”很香,展现优美身材

灼灼小齐
2026-01-04 00:30:03
超级罕见的四位美女同框,你认识她们吗?

超级罕见的四位美女同框,你认识她们吗?

TVB的四小花
2026-01-04 00:43:47
刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面被猜亿万家产继承人

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面被猜亿万家产继承人

付老师种植技术团队
2026-01-03 12:57:17
童锦程私生子闹大,索赔220万,女方长相曝光,更毁三观言论被扒

童锦程私生子闹大,索赔220万,女方长相曝光,更毁三观言论被扒

阿纂看事
2026-01-03 09:26:29
2026-01-04 01:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12033文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

房产
游戏
家居
数码
艺术

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

猎魂世界:开服后全主C状态及处境分析!不知不觉已经十二位了!

家居要闻

无形有行 自然与灵感诗意

数码要闻

消息称索尼WF-1000XM6降噪豆定价为299.99欧元

艺术要闻

色彩能愉悦你的眼睛,黑白则能慰藉你的心灵!

无障碍浏览 进入关怀版