网易首页 > 网易号 > 正文 申请入驻

RLinf-USER发布!别再用仿真,真实世界训练也能极致效率与系统化

0
分享至



机器之心发布

核心速览:

  • 首个统一系统:将物理机器人提升为与 GPU 同等的计算资源,打破硬件隔阂。
  • ⚡️极致效率:全异步架构将真实世界训练吞吐量提升5.7 倍
  • 异构协同:让不同品牌、不同构型的机器人(如 Franka + ARX)在同一模型下协同进化。
  • 大模型支持:原生支持 VLA(如 PI0)的云边端在线微调。



  • Code: https://github.com/RLinf/RLinf
  • 论文链接:https://arxiv.org/abs/2602.07837

01. 背景:当 AI 撞上物理世界的墙

在具身智能的浪潮中,我们已经见证了仿真训练的巨大成功。然而,当我们试图将智能带入真实世界时,却撞上了一堵看不见的墙:

  • 时间无法加速:物理世界没有 100 倍速的快进键,数据采集极其昂贵。
  • 系统支离破碎:训练在云端,控制在边缘,中间隔着不稳定的网络;机器人被视为难以管理的 “外设”,而非计算资源。
  • 数据稍纵即逝:一旦发生故障或网络中断,昂贵的长序列数据往往付诸东流。

真实世界的策略学习(Real-World Policy Learning),不仅是算法的挑战,更是系统的挑战。

今天,我们正式介绍RLinf-USER—— 一个专为真实世界在线策略学习打造的统一且可扩展的系统。它不只是一个训练框架,更是连接数字大脑与物理躯体的 “神经系统”,是实现千台机器人物理世界策略进化的关键一环。

02. RLinf-USER 是什么?

RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基础设施构建的专用系统。它的核心理念只有一个:将物理世界的复杂性,封装为简洁的计算流。



图 1 RLinf-USER 是基于 RLinf 构建的真机强化学习专用系统

系统设计:

设计 1. 机器人即计算 (Robot as Compute)

RLinf 首次提出 “像使用 GPU 一样使用机器人” 的概念。在 RLinf-USER 中,机器人不再是游离于集群之外的 “设备”。通过统一硬件抽象层 (HAL),物理机器人被虚拟化为与 GPU/TPU 同等的可调度资源。

  • 自动发现:像插上显卡一样,系统自动识别接入的机器人。
  • 统一调度:无论是 7 自由度的机械臂,还是 4090 显卡,都在同一个资源池中被统一编排。

设计 2. 云边端无缝协同 (Adaptive Cloud-Edge Link)

大模型在云端,机器人在边缘。RLinf-USER 构建了一个自适应通信平面:

  • 隧道穿透:无论机器人身处防火墙后还是复杂内网中,隧道技术都能建立直达云端的专线。
  • 流量本地化:智能的分布式数据通道,只传输必要的训练样本,将海量原始观测数据截流在边缘,无惧带宽瓶颈。



图 2 RLinf-USER 系统设计总览:统一硬件抽象层与自适应通信平面

学习框架设计:



图 3 RLinf-USER 学习框架设计总览

⚡️ 设计 3. 全异步进化引擎 (Fully Asynchronous Pipeline)

真实世界不能等待。传统的 “采集 - 训练” 同步循环会让机器人把大量时间浪费在等待计算上。

RLinf-USER 采用了全异步流水线设计

  • 永不停歇:机器人在持续工作,GPU 在持续计算,网络在持续更新。三个进程完全解耦,互不等待。
  • 极致吞吐:在 VLA 模型训练中,这种设计将整体吞吐量提升了5.70 倍!这意味着在同样的物理时间内,你的机器人能多学 5 倍的经验。



图 4 全异步流水线

设计 4. 数据的 “时光机” (Persistent-Cache-Aware Buffer)

我们设计了持久化缓存感知缓冲区:

  • 无限记忆:打破内存限制,支持 TB 级甚至 PB 级的历史轨迹存储。
  • 崩溃恢复:即使实验意外中断,数据和状态也能毫发无损,支持长达数周的连续训练。



图 5 持久化缓存感知 buffer

设计 5. 丰富的在线学习组件支持

USER 在统一的接口下,支持了多样的学习组件,模块化的设计易于二次开发:

  • 模型支持:CNN model,Flow matching model,VLA(如 PI0)
  • 算法支持:强化学习(如 SAC、SAC Flow)、模仿学习(如 HG-DAgger)
  • 奖励函数支持:规则奖励、人工奖励、奖励模型

03. 硬核实战:它能做到什么?

RLinf-USER 在 5 个真实任务中证明了效率和性能。



图 6 在 5 个真实世界任务上验证 USER,对应不同的 reward、算法、策略

战绩一:VLA 大模型的在线进化

这是目前少有的支持3B 参数 VLA 模型(PI0)在真实世界进行在线微调的系统。

  • 任务:桌面清理(Table Clean-up)—— 一个包含分类、抓取、放置、关盖的长序列任务。
  • 结果:通过 HG-DAgger 算法,模型成功率从45%飙升至80%。随着训练进行,人工干预次数显著下降,机器人逐渐学会了独立思考。





图 7 USER 框架使用 HG-DAgger 算法微调 PI0 模型。人工干预次数显著下降,成功率从 45%->80%

战绩二:异构机器人 “大一统”

RLinf-USER 完成了一项极具挑战的实验:让两种完全不同的机器人一起学习。

  • 组合:高端的7-DoF Franka机械臂 + 低成本的6-DoF ARX机械臂。
  • 效果:尽管它们的构型、关节数、摄像头参数截然不同,但在 USER 的统一抽象下,它们共同为一个策略贡献数据。最终,同一个模型学会了控制这两种截然不同的 “身体”。





图 8 使用 USER 进行异构训练

☁️ 战绩三:跨越千里的 “云 - 边” 协同

针对大模型训练算力在云端、机器人执行在边缘端的典型场景,RLinf-USER 克服了物理距离和网络隔离的障碍。

  • 挑战:训练节点位于北京(云端),而机器人和推理节点位于数千公里外的深圳(边缘端),中间隔着高延迟、带宽受限且复杂的公网环境。
  • 效果:得益于 USER 的隧道网络技术(Tunneling-based Networking)和分布式数据通道,跨域通信的效率大幅提升。实验数据显示,在跨域部署下,单集(Episode)数据的生成时间缩短了约3 倍(从~69 秒 降至~22 秒),实现了如同在局域网般流畅的远程分布式训练。



图 9 USER 自适应通信平面显著降低了跨域部署的通信延迟

⏱️ 战绩四:异步 vs 同步架构速度的碾压

在经典的插孔(Peg Insertion)任务中:

  • 传统同步架构:收敛需要 8000+ 秒。
  • RLinf-USER:收敛仅需约 1500 秒。

效率提升超过 5 倍,让原本漫长的训练过程变得立等可取。



图 10 USER 的全异步工作流显著提升了物理世界中算法的收敛速度

战绩五:打破 “内存墙”,数据的无限记忆与极速吞吐

在真实世界长周期(Long-horizon)的训练中,数据是极其宝贵的资产。针对传统 Buffer “存不下” 或 “读得慢” 的痛点,RLinf-USER 拒绝妥协。

  • 机制:RLinf-USER 独创了持久化缓存感知 Buffer (Persistent-Cache-Aware Buffer),通过智能索引机制,将海量历史数据异步落盘,同时在内存中保留高频热点数据(Cache)。
  • 效果:这是一个 “鱼和熊掌兼得” 的方案。实验评测显示,RLinf-USER 在提供磁盘级 “无限” 容量(支持 TB 级历史数据回溯)的同时,实现了显著优于纯磁盘存储的采样吞吐量。同样关键的是,它自带崩溃恢复能力,即使实验因故障意外中断,长期积累的宝贵数据也能毫发无损,随时重启 “再战”。



图 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能测试,平衡了容量与效率

04. 为什么选择 RLinf-USER?

如果说 ChatGPT 是 AI 在数字世界的里程碑,那么 RLinf-USER 致力于成为具身智能在物理世界的基石。

如果你是研究者:它兼容 CNN、Flow-based policy、VLA 等多种策略,支持 RL、IL、Human-in-the-loop 等各种算法。它将模型、算法等模块解耦,简化开发难度。

如果你是工程师:它提供了工业级的稳定性(崩溃恢复)和扩展性(自动硬件发现),让大规模机器人集群管理变得像管理服务器一样简单。

此时此刻,机器人不再只是外设。RLinf-USER,让智能真正 “具身”。



视频链接:https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w

RLinf 发布半年,Github Star 2.5k+,得到了学术界和工业界的广泛认可,达成了多项战略合作,包括英伟达 IssacLab、原力灵机 Dexbotic 等,更多家合作官宣也会尽快和大家见面。道阻且长,26 年 RLinf 仍在为搭建更好的具身智能基础设施而努力,并持续做好可复现生态。团队也开放招生和招聘,欢迎大家联系于超老师(邮件:zoeyuchao@gmail.com)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美拦不住!加等不及了!民调:61%受访者支持进口中国电动汽车

美拦不住!加等不及了!民调:61%受访者支持进口中国电动汽车

趣生活
2026-02-11 18:37:32
一旦美伊爆发冲突,伊朗将在半小时灭掉一国,俄称这并非开玩笑

一旦美伊爆发冲突,伊朗将在半小时灭掉一国,俄称这并非开玩笑

混沌录
2026-02-10 23:20:08
可容纳6.5万余人,北京将建大型音乐公园

可容纳6.5万余人,北京将建大型音乐公园

首都之窗
2026-02-11 17:04:46
初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

好爸育儿
2026-02-04 22:18:57
高金素梅遭调查,震动岛内

高金素梅遭调查,震动岛内

环球时报国际
2026-02-11 09:06:56
伟伟道来 | 伊核:备战紧锣密鼓,谈判前景难卜

伟伟道来 | 伊核:备战紧锣密鼓,谈判前景难卜

经济观察报
2026-02-11 12:26:08
吴敏霞现状:住上海大豪宅,和老公很恩爱儿女双全,40岁越来越美

吴敏霞现状:住上海大豪宅,和老公很恩爱儿女双全,40岁越来越美

小莜读史
2025-12-21 11:40:31
高市胜选第二天,对中国发起5连问,中方斩钉截铁,送上三点忠告

高市胜选第二天,对中国发起5连问,中方斩钉截铁,送上三点忠告

知鉴明史
2026-02-10 18:49:16
历史独二!威少狂揽27000+10000+8000+2000,比肩詹皇成NBA活化石

历史独二!威少狂揽27000+10000+8000+2000,比肩詹皇成NBA活化石

体育闲话说
2026-02-11 08:31:02
人社部好消息!2026养老金或调整,养老金低于2000元能涨800元吗

人社部好消息!2026养老金或调整,养老金低于2000元能涨800元吗

另子维爱读史
2026-02-10 17:33:29
湖南卫视开播,又一巨制!37集谍战大剧来袭,演员阵容雄厚!

湖南卫视开播,又一巨制!37集谍战大剧来袭,演员阵容雄厚!

乐枫电影
2026-02-11 14:39:10
上海女牙医移民美国,爱上大13岁华裔老头,恋爱15年后遭老头杀害

上海女牙医移民美国,爱上大13岁华裔老头,恋爱15年后遭老头杀害

大鱼简科
2026-02-10 22:29:17
仅因一部剧终结7年连亏!TVB预计2025年盈利5000万港元

仅因一部剧终结7年连亏!TVB预计2025年盈利5000万港元

快科技
2026-02-11 18:31:33
输球又丢人!张本智和再传噩耗:亲妹竟被打哭,遮羞布彻底被撕碎

输球又丢人!张本智和再传噩耗:亲妹竟被打哭,遮羞布彻底被撕碎

晨光苏醒a
2026-02-11 01:44:48
消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

史之铭
2026-02-10 15:35:39
辽宁有雨雪!冷空气说来就来......

辽宁有雨雪!冷空气说来就来......

辽宁卫视
2026-02-11 16:32:59
笑岔气了!减肥一整年,终于以最胖的姿态迎来了新年!

笑岔气了!减肥一整年,终于以最胖的姿态迎来了新年!

另子维爱读史
2026-02-11 18:32:46
这一晚,洗把脸就走红毯的谢霆锋,秒了内娱一堆涂脂抹粉的小鲜肉

这一晚,洗把脸就走红毯的谢霆锋,秒了内娱一堆涂脂抹粉的小鲜肉

大铁猫娱乐
2026-02-10 13:45:07
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
吴彦姝和女儿吃火锅被偶遇!女儿断崖式衰老,3年时间像变了个人

吴彦姝和女儿吃火锅被偶遇!女儿断崖式衰老,3年时间像变了个人

林雁飞
2026-02-11 17:02:31
2026-02-11 19:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12290文章数 142565关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

百万粉丝网红起诉用6年的助理 对方直播获超百万打赏

头条要闻

百万粉丝网红起诉用6年的助理 对方直播获超百万打赏

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

房产
健康
艺术
家居
游戏

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

转头就晕的耳石症,能开车上班吗?

艺术要闻

砸200亿,郎酒庄园建在800米悬崖上,实景震撼,真没吹牛!

家居要闻

简雅闲居 静享时光柔

《海虎》何时来的《RE》官媒展示里昂帅照闹笑话

无障碍浏览 进入关怀版