网易首页 > 网易号 > 正文 申请入驻

让机器人在“想象”中学习世界的模型来了!

0
分享至

来源:市场资讯

(来源:量子位)

这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。



这项研究,正是她在斯坦福带领的课题组与清华大学陈建宇团队联合提出的可控生成世界模型Ctrl-World。

这是一个能让机器人在“想象空间”中完成任务预演、策略评估与自我迭代的突破性方案。

核心数据显示,该模型使用零真机数据,大幅提升策略在某些在下游任务的指令跟随能力,成功率从38.7%提升至83.4%,平均改进幅度达44.7%。

其相关论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已发布于arXiv平台。



注:Ctrl-World专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧级条件控制实现细粒度动作控制,并通过姿态条件记忆检索维持连贯的长时程动态。这些组件实现了:(1)在想象中进行精准的策略评估,并与真实世界轨迹推演对齐(2)通过合成轨迹实现针对性的策略改进

当前,视觉-语言-动作(VLA)模型虽在多种操作任务与场景中展现出卓越性能,但在开放世界场景中仍面临两大核心难题,这也是团队研发CTRL-WORLD的核心动因:

难题一,策略评估成本高,真实测试烧钱又低效。

验证机器人策略性能需在不同场景、任务中反复试错。

以“抓取物体”任务为例,研究者需准备大小、材质、形状各异的物体,搭配不同光照、桌面纹理的环境,让机器人重复成百上千次操作。

不仅如此,测试中还可能出现机械臂碰撞(故障率约5%-8%)、物体损坏(损耗成本单轮测试超千元)等问题,单策略评估周期常达数天。更关键的是,抽样测试无法覆盖所有潜在场景,难以全面暴露策略缺陷。

难题二,策略迭代同样难,真实场景数据永远不够用。

即便在含95k轨迹、564个场景的DROID数据集上训练的主流模型π₀.₅,面对“抓取左上角物体”“折叠带花纹毛巾”等陌生指令或“手套、订书机”等未见过的物体时,成功率仅38.7%。

传统改进方式依赖人类专家标注新数据,但标注速度远赶不上场景更新速度——标注100条高质量折叠毛巾轨迹需资深工程师20小时,成本超万元,且无法覆盖所有异形物体与指令变体。

开放世界尚存在棘手问题,另一边,传统世界模型目前也还面临三大痛点——

为解决真实世界依赖,学界曾尝试用世界模型(即虚拟模拟器)让机器人在想象中训练。

但研究团队在论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,现有世界模型多数方法聚焦于被动视频预测场景,无法与先进通用策略进行主动交互。

具体来说,存在三大关键局限,阻碍其支持策略在环(policy-in-the-loop)推演:

为此,清华大学陈建宇与斯坦福大学Chelsea Finn两大团队联合提出CTRL-WORLD,旨在构建一个“能精准模拟、可长期稳定、与真实对齐”的机器人虚拟训练空间,让机器人通过“想象”训练。

三大创新技术,让CTRL-WORLD突破传统世界模型局限

Ctrl-World通过三项针对性设计,解决了传统世界模型的痛点,实现“高保真、可控制、长连贯”的虚拟预演。

论文强调,这三大创新共同将“被动视频生成模型”转化为“可与VLA策略闭环交互的模拟器”。


Ctrl-World基于预训练视频扩散模型初始化,并通过以下方式适配为一个可控且时间一致的世界模型:

第一,多视角联合预测:解决“视野盲区”,降低幻觉率

一般来说,以往模型靠单视图预测,存在部分观测问题与幻觉。

而Ctrl-World结合第三人称与腕部视图联合预测,生成的未来轨迹精准且贴合真实情况。


传统世界模型仅模拟单一第三方视角,本质是“信息不全”。

而CTRL-WORLD创新性地联合生成第三方全局视角+腕部第一视角:


论文实验验证了这一设计的价值:

在涉及机械臂与物体接触的精细操作任务中(如抓取小型物体),腕部视角可精准捕捉夹爪与物体的接触状态(如捏合力度、接触位置),显著减少“无物理接触却完成抓取的幻觉”。

定量数据显示,该设计使物体交互幻觉率降低;在多视角评估中,Ctrl-World的峰值信噪比(PSNR)达23.56,远超传统单视角模型WPE(20.33)和IRASim(21.36),结构相似性(SSIM)0.828也显著高于基线(WPE0.772、IRASim0.774),证明虚拟画面与真实场景的高度契合。

第二,帧级动作控制:绑定动作与视觉因果,实现厘米级精准操控

要让虚拟预演“可控”,必须建立“动作-视觉”的强因果关系。

Ctrl-World的解决方案是“帧级动作绑定”:


注:上图展示的是Ctrl-World的可控性及其消融实验。不同的动作序列可以在Ctrl-World中以厘米级的精度产生不同的展开结果。移除记忆会导致预测模糊(蓝色),而移除帧级姿势条件会降低控制精度(紫色)。注意力可视化(左侧)在预测(t=4)秒帧时,对具有相同姿势的(t=0)秒帧显示出强烈的注意力,说明了记忆检索的有效性。为了清晰起见,每个动作块都用自然语言表达(例如,“Z轴-6厘米”)。由于空间限制,仅可视化了中间帧的腕部视角。


论文中给出了直观案例:

当机械臂执行不同的空间位移或姿态调整动作时(如沿特定轴的厘米级移动、夹爪开合),Ctrl-World能生成与动作严格对应的预演轨迹,即使是细微的动作差异(如几厘米的位移变化),也能被准确区分和模拟。

定量ablation实验显示,若移除“帧级动作条件”,模型的PSNR会从23.56降至21.20,LPIPS(感知相似度,数值越低越好)从0.091升至0.109,证明该设计是精准控制的核心。

第三,姿态条件记忆检索:给长时模拟“装稳定器”,20秒长时预演不漂移

长时预演的“时序漂移”,本质是模型“忘记历史状态”。

Ctrl-World引入“姿态条件记忆检索机制”,通过两个关键步骤解决:


注:上图展示的是Ctrl-World的一致性。由于腕部摄像头的视野在单一轨迹中会发生显著变化,利用多视角信息和记忆检索对于生成一致的腕部视角预测至关重要。绿色框中突出显示的预测是从其他摄像头视角推断出来的,而红色框中的预测则是从记忆中检索得到的。



论文实验显示,该机制能让Ctrl-World稳定生成20秒以上的连贯轨迹,时序一致性指标FVD(视频帧距离,数值越低越好)仅97.4,远低于WPE(156.4)和IRASim(138.1)。

ablation实验证明,若移除记忆模块,模型的FVD会从97.4升至105.5,PSNR从23.56降至23.06,验证了记忆机制对长时一致性的关键作用。

团队在DROID机器人平台(含Panda机械臂、1个腕部相机+2个第三方相机)上开展三轮实验测试,从生成质量、评估准确性、策略优化三个维度全面验证CTRL-WORLD的性能:

在10秒长轨迹生成测试中(256个随机剪辑,15步/秒动作输入),CTRL-WORLD在核心指标上全面领先基线模型(WPE、IRASim):

更关键的是,面对训练中未见过的相机布局(如新增顶部视角),CTRL-WORLD能零样本适配,生成连贯多视角轨迹,证明其场景泛化能力。


论文结果显示:

虚拟预演的“指令跟随率”与真实世界的相关系数达0.87(拟合公式y=0.87x-0.04)。

虚拟“任务成功率”与真实世界的相关系数达0.81(y=0.81x-0.11)。


这意味着,研究者无需启动真实机器人,仅通过Ctrl-World的虚拟预演,就能准确判断策略的真实性能,将策略评估周期从“周级”缩短至“小时级”。

Ctrl-World的终极价值在于用虚拟数据改进真实策略。


团队以π₀.₅为基础策略,按以下步骤进行优化(对应论文Algorithm1):

论文给出的细分任务改进数据极具说服力:

综合所有陌生场景,π₀.₅的任务成功率从38.7%飙升至83.4%,平均提升44.7%——更关键的是,整个过程未消耗任何真实物理资源,成本仅为传统专家数据方法的1/20。

尽管成果显著,团队也坦言CTRL-WORLD仍有改进空间:

首先,复杂物理场景适配不足。

在“液体倾倒”“高速碰撞”等任务中,虚拟模拟与真实物理规律的偏差,主要因模型对重力、摩擦力的建模精度不足。

其次,初始观测敏感性高。

若第一帧画面模糊(如光照过暗),后续推演误差会快速累积。

未来,团队计划从两方面突破——

一方面将视频生成与强化学习结合,让机器人在虚拟世界自主探索最优策略;

另一方面扩大训练数据集(当前基于DROID),加入“厨房油污环境”、“户外光照变化”等复杂场景数据,提升模型对极端环境的适配能力。

总的来说,此前机器人学习依赖“真实交互-数据收集-模型训练”的循环,本质是用物理资源换性能;而CTRL-WORLD构建了“虚拟预演-评估-优化-真实部署”的新闭环,让机器人能通过“想象”高效迭代。

该成果的价值不仅限于实验室。

对工业场景而言,它可降低机械臂调试成本(单条生产线调试周期从1周缩至1天)。

对家庭服务机器人而言,它能快速适配“操作异形水杯”“整理不规则衣物”等个性化任务。

随着视频扩散模型对物理规律建模的进一步精准,未来的CTRL-WORLD有望成为机器人“通用训练平台”,推动人形机器人更快走向开放世界。

论文地址:

https://arxiv.org/pdf/2510.10125

GitHub链接:

https://github.com/Robert-gyj/Ctrl-World

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
签运爆棚冲击冠军!张本智和迎翻身良机,中国男队空缺引风波

签运爆棚冲击冠军!张本智和迎翻身良机,中国男队空缺引风波

阿晞体育
2025-11-03 13:54:17
中共中央批准,开除宋朝华党籍

中共中央批准,开除宋朝华党籍

新京报
2025-11-03 11:16:30
“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

红星新闻
2025-10-31 21:35:21
吴石女儿吴学成,不愧是将门虎女,三重逆袭半世守魂苦难熬成荣耀

吴石女儿吴学成,不愧是将门虎女,三重逆袭半世守魂苦难熬成荣耀

阿钊是个小小评论员
2025-11-03 02:33:45
小S彻底走出伤痛!和好友看演唱会,包裹严实本想低调却被认出

小S彻底走出伤痛!和好友看演唱会,包裹严实本想低调却被认出

心静物娱
2025-11-03 10:43:04
退休后才发现:大多数退休老人不旅游,去旅游的往往是这3类人!

退休后才发现:大多数退休老人不旅游,去旅游的往往是这3类人!

双色球的方向舵
2025-11-03 12:21:19
彻底凉了,西贝闭店潮来袭,贾老板求锤得锤

彻底凉了,西贝闭店潮来袭,贾老板求锤得锤

吃瓜局
2025-10-27 20:39:25
大量“5G通信壳”流入闲鱼!原价799元起,如今全新才27块

大量“5G通信壳”流入闲鱼!原价799元起,如今全新才27块

闲搞机
2025-11-02 11:14:42
“吉林一号”对台湾省进行全方位拍摄,是一件非常轻松的事情

“吉林一号”对台湾省进行全方位拍摄,是一件非常轻松的事情

吉刻新闻
2025-11-01 00:17:11
黑龙江25岁独生子回家发现母亲怀孕后崩溃:我爸都没了好多年了

黑龙江25岁独生子回家发现母亲怀孕后崩溃:我爸都没了好多年了

牛牛叨史
2025-10-31 14:36:48
莫迪目睹!印度议员当场拆iPhone,震惊全场的真相曝光!

莫迪目睹!印度议员当场拆iPhone,震惊全场的真相曝光!

丹徒生
2025-11-02 07:57:35
【重磅官宣】中国银行普惠金融再升级!网贷多、负债高也能贷,最高1800万,3个工作日内极速放款!

【重磅官宣】中国银行普惠金融再升级!网贷多、负债高也能贷,最高1800万,3个工作日内极速放款!

闺蜜财经
2025-11-03 12:47:03
中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

起喜电影
2025-11-02 05:16:49
没想到,丈夫密春雷的争议过去仅两年,董卿就以“这种姿态”出现

没想到,丈夫密春雷的争议过去仅两年,董卿就以“这种姿态”出现

史行途
2025-11-03 08:55:18
火箭与绿军交易,篮网获渔利,双方共赢

火箭与绿军交易,篮网获渔利,双方共赢

徐觳解说
2025-11-03 08:32:38
51岁陈奕迅剪掉卷发,撞脸懒羊羊变大叔,网友直呼认不出冲上热搜

51岁陈奕迅剪掉卷发,撞脸懒羊羊变大叔,网友直呼认不出冲上热搜

妙知
2025-11-02 22:56:16
中国颜值巅峰的6个AAAAA景区,去过3个很幸福,去过6个此生无悔!

中国颜值巅峰的6个AAAAA景区,去过3个很幸福,去过6个此生无悔!

户外钓鱼哥阿勇
2025-10-21 08:15:56
云南一学校通报学生出现身体不适的情况:住院学生已全部康复出院返回学校

云南一学校通报学生出现身体不适的情况:住院学生已全部康复出院返回学校

极目新闻
2025-11-02 19:29:13
72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

39健康网
2025-10-28 19:30:54
章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

柠檬有娱乐
2025-11-01 14:25:10
2025-11-03 15:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1253510文章数 4330关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
亲子
家居
公开课
军事航空

教育要闻

AI时代应该培训小朋友什么能力

亲子要闻

程晓玥官宣怀二胎,透露早孕反应非常严重,近照曝光孕肚超明显

家居要闻

岁月柔情 现代品质轻奢

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版