网易首页 > 网易号 > 正文 申请入驻

清华陈建宇团队× 斯坦福Chelsea课组推出Ctrl-World可控世界模型

0
分享至

斯坦福大学助理教授、Physical Intelligence(PI)联合创始人Chelsea Finn近日在社交平台X上连续发文,为其斯坦福课题组最新研究“点赞”:“生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型——它需要紧密跟随动作,还要足够准确以避免频繁幻觉。我们在这两条战线上都取得了长足进步。”这项进步,正是她与清华大学陈建宇团队联合提出的可控生成世界模型“Ctrl-World”——一个能让机器人在“想象空间”中完成任务预演、策略评估与自我迭代的突破性方案,其相关论文《CTRL-WORLD: A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已发布于arxiv平台,核心数据显示:该模型使用“零真机数据”,大幅提升策略在某些在下游任务的指令跟随能力,成功率从38.7%提升至83.4%,平均改进幅度达44.7%。





Ctrl-World专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧级条件控制实现细粒度动作控制,并通过姿态条件记忆检索维持连贯的长时程动态。这些组件实现了:(1)在想象中进行精准的策略评估,并与真实世界轨迹推演对齐(2)通过合成轨迹实现针对性的策略改进

论文地址:https://arxiv.org/pdf/2510.10125

GitHub链接:https://github.com/Robert-gyj/Ctrl-World




Chelsea Finn在X上连续发了多条推文解读CTRL-WORLD


一、研究背景:机器人训练的“真实世界困境”与世界模型的破局价值

当前,视觉-语言-动作(VLA)模型虽在多种操作任务与场景中展现出卓越性能,但在开放世界场景中仍面临两大核心难题,这也是团队研发CTRL-WORLD的核心动因:

1.策略评估成本高:真实测试“烧钱又低效”

验证机器人策略性能需在不同场景、任务中反复试错。以“抓取物体”任务为例,研究者需准备大小、材质、形状各异的物体,搭配不同光照、桌面纹理的环境,让机器人重复成百上千次操作。不仅如此,测试中还可能出现机械臂碰撞(故障率约5%-8%)、物体损坏(损耗成本单轮测试超千元)等问题,单策略评估周期常达数天。更关键的是,抽样测试无法覆盖所有潜在场景,难以全面暴露策略缺陷。

2.策略迭代同样难:真实场景“数据永远不够用”

即便在含95k轨迹、564个场景的DROID数据集上训练的主流模型π₀.₅,面对“抓取左上角物体”、“折叠带花纹毛巾”等陌生指令或“手套、订书机”等未见过的物体时,成功率仅38.7%。传统改进方式依赖人类专家标注新数据,但标注速度远赶不上场景更新速度——标注100条高质量折叠毛巾轨迹需资深工程师20小时,成本超万元,且无法覆盖所有异形物体与指令变体。

3.传统世界模型的三大痛点

为解决“真实世界依赖”,学界曾尝试用“世界模型”(即虚拟模拟器)让机器人在想象中训练,但论文指出,现有世界模型多数方法聚焦于被动视频预测场景,无法与先进通用策略进行主动交互。存在三大关键局限,阻碍其支持“策略在环”(policy-in-the-loop)推演:

•单视角导致幻觉:多数模型仅模拟单一第三人称视角,导致“部分可观测性问题”——例如机械臂抓取物体时,模型看不到腕部与物体的接触状态,可能出现“物体无物理接触却瞬移到夹爪中”的幻觉;

•动作控制不精细:传统模型多依赖文本或初始图像条件,无法绑定高频、细微的动作信号,例如机械臂“Z轴移动6厘米”与“Z轴移动4厘米”的差异无法被准确反映,导致虚拟预演与真实动作脱节;

•长时一致性差:随着预测时间延长,微小误差会不断累积,导致“时序漂移”——论文实验显示,传统模型在10秒预演后,物体位置与真实物理规律的偏差,失去参考价值。

为此,清华大学陈建宇与斯坦福大学Chelsea Finn两大团队联合提出CTRL-WORLD,旨在构建一个“能精准模拟、可长期稳定、与真实对齐”的机器人虚拟训练空间,让机器人通过“想象”训练。

二、CTRL-WORLD:三大创新技术突破传统世界模型局限

Ctrl-World通过三项针对性设计,解决了传统世界模型的痛点,实现“高保真、可控制、长连贯”的虚拟预演。论文强调,这三大创新共同将“被动视频生成模型”转化为“可与VLA策略闭环交互的模拟器”。



Ctrl-World基于预训练视频扩散模型初始化,并通过以下方式适配为一个可控且时间一致的世界模型:(1)多视角输入与联合预测;(2)帧级动作条件控制;(3)姿态条件记忆检索

1.多视角联合预测:解决“视野盲区”,降低幻觉率



验证集长时程推演定性结果:以往模型靠单视图预测,存在部分观测问题与幻觉;而Ctrl-World结合第三人称与腕部视图联合预测,生成的未来轨迹精准且贴合真实情况。

传统世界模型仅模拟单一第三方视角,本质是“信息不全”。而CTRL-WORLD创新性地联合生成第三方全局视角+腕部第一视角:

•第三方视角提供环境全局信息(如物体在桌面的整体布局),腕部视角捕捉接触细节(如机械爪与毛巾的摩擦、与抽屉的碰撞位置);

•模型通过空间Transformer将多视角图像token拼接(单帧含3个192×320图像,编码为24×40 latent特征),实现跨视角空间关系对齐。



论文实验验证了这一设计的价值:在涉及机械臂与物体接触的精细操作任务中(如抓取小型物体),腕部视角可精准捕捉夹爪与物体的接触状态(如捏合力度、接触位置),显著减少‘无物理接触却完成抓取的幻觉;定量数据显示,该设计使“物体交互幻觉率”降低 ,在多视角评估中,Ctrl-World的峰值信噪比(PSNR)达23.56,远超传统单视角模型WPE(20.33)和IRASim(21.36),结构相似性(SSIM)0.828也显著高于基线(WPE 0.772、IRASim 0.774),证明虚拟画面与真实场景的高度契合。

2.帧级动作控制:绑定动作与视觉因果,实现“厘米级精准操控”

要让虚拟预演“可控”,必须建立“动作-视觉”的强因果关系。Ctrl-World的解决方案是“帧级动作绑定”:

•将机器人输出的动作序列(如关节速度)转化为笛卡尔空间中的机械臂姿态参数;

•通过帧级交叉注意力模块,让每一帧的视觉预测都与对应的姿态参数严格对齐——就像“分镜脚本”对应每一幕剧情,确保“动作A必然导致视觉结果B”。



Ctrl-World的可控性及其消融实验。不同的动作序列可以在Ctrl-World中以厘米级的精度产生不同的展开结果。移除记忆会导致预测模糊(蓝色),而移除帧级姿势条件会降低控制精度(紫色)。注意力可视化(左侧)在预测( t = 4 )秒帧时,对具有相同姿势的( t = 0 )秒帧显示出强烈的注意力,说明了记忆检索的有效性。为了清晰起见,每个动作块都用自然语言表达(例如,“Z轴-6厘米”)。由于空间限制,仅可视化了中间帧的腕部视角。



论文中给出了直观案例:当机械臂执行不同的空间位移或姿态调整动作时(如沿特定轴的厘米级移动、夹爪开合),Ctrl-World能生成与动作严格对应的预演轨迹,即使是细微的动作差异(如几厘米的位移变化),也能被准确区分和模拟。定量ablation实验显示,若移除“帧级动作条件”,模型的PSNR会从23.56降至21.20,LPIPS(感知相似度,数值越低越好)从0.091升至0.109,证明该设计是精准控制的核心。

3.姿态条件记忆检索:给长时模拟“装稳定器”,20秒长时预演不漂移

长时预演的“时序漂移”,本质是模型“忘记历史状态”。Ctrl-World引入“姿态条件记忆检索机制”,通过两个关键步骤解决:

•稀疏记忆采样:从历史轨迹中以固定步长(如1-2秒)采样k帧(论文中k=7),避免上下文过长导致的计算负担;

•姿态锚定检索:将采样帧的机械臂姿态信息嵌入视觉token,在预测新帧时,模型会自动检索“与当前姿态相似的历史帧”,以历史状态校准当前预测,避免漂移。



Ctrl-World的一致性。由于腕部摄像头的视野在单一轨迹中会发生显著变化,利用多视角信息和记忆检索对于生成一致的腕部视角预测至关重要。绿色框中突出显示的预测是从其他摄像头视角推断出来的,而红色框中的预测则是从记忆中检索得到的。





论文实验显示,该机制能让Ctrl-World稳定生成20秒以上的连贯轨迹,时序一致性指标FVD(视频帧距离,数值越低越好)仅97.4,远低于WPE(156.4)和IRASim(138.1);ablation实验证明,若移除记忆模块,模型的FVD会从97.4升至105.5,PSNR从23.56降至23.06,验证了记忆机制对长时一致性的关键作用。

三、实验验证:从“虚拟评估”到“策略提升”的全流程实效

团队在DROID机器人平台(含Panda机械臂、1个腕部相机+2个第三方相机)上开展三轮实验测试,从生成质量、评估准确性、策略优化三个维度全面验证CTRL-WORLD的性能:

1.生成质量:多指标碾压传统模型



在10秒长轨迹生成测试中(256个随机剪辑,15步/秒动作输入),CTRL-WORLD在核心指标上全面领先基线模型(WPE、IRASim):

• PSNR:23.56(WPE为20.33,IRASim为21.36),虚拟画面与真实场景的像素相似度提升15%-16%;

• SSIM:0.828(WPE为0.772,IRASim为0.774),物体形状、位置关系的结构一致性显著增强;

• LPIPS:0.091(WPE为0.131,IRASim为0.117),从人类视觉感知看,虚拟与真实画面几乎难以区分;

• FVD:97.4(WPE为156.4,IRASim为138.1),时序连贯性提升29%-38%。

更关键的是,面对训练中未见过的相机布局(如新增顶部视角),CTRL-WORLD能零样本适配,生成连贯多视角轨迹,证明其场景泛化能力。

2.策略评估:虚拟打分与真实表现高度对齐



论文结果显示:

•虚拟预演的“指令跟随率”与真实世界的相关系数达0.87(拟合公式y=0.87x-0.04);

•虚拟“任务成功率”与真实世界的相关系数达0.81(y=0.81x-0.11);

这意味着,研究者无需启动真实机器人,仅通过Ctrl-World的虚拟预演,就能准确判断策略的真实性能,将策略评估周期从“周级”缩短至“小时级”。

3.策略优化:400条虚拟轨迹实现44.7%性能飞跃



Ctrl-World的终极价值,在于“用虚拟数据改进真实策略”。团队以π₀.₅为基础策略,按以下步骤进行优化(对应论文Algorithm 1):

1.虚拟探索:在Ctrl-World中,通过“指令重述”(如将“放手套进盒子”改为“拿起布料放入盒子”)和“初始状态随机重置”,生成400条陌生任务的预演轨迹;

2.筛选高质量数据:由人类标注员筛选出25-50条“成功轨迹”(如准确折叠指定方向的毛巾、抓取异形物体);

3.监督微调:用这些虚拟成功轨迹微调π₀.₅策略。

论文给出的细分任务改进数据极具说服力:

•空间理解任务:识别“左上角物体”、“右下角物体”等指令的成功率,从平均28.75%升至87.5%;

•形状理解任务:区分“大/小红块”、“大/小绿块”的成功率,从43.74%升至91.25%;

•毛巾折叠(指定方向):按“左右折叠”、“右左折叠”等指令执行的成功率,从57.5%升至80%;

•新物体任务:抓取“手套”、“订书机”等未见过物体的成功率,从25%升至75%。

综合所有陌生场景,π₀.₅的任务成功率从38.7%飙升至83.4%,平均提升44.7%——更关键的是,整个过程未消耗任何真实物理资源,成本仅为传统专家数据方法的1/20。

四、研究与未来:让“想象”更贴近真实物理规律

尽管成果显著,团队也坦言CTRL-WORLD仍有改进空间:

1.复杂物理场景适配不足:在“液体倾倒”“高速碰撞”等任务中,虚拟模拟与真实物理规律的偏差,主要因模型对重力、摩擦力的建模精度不足;

2.初始观测敏感性高:若第一帧画面模糊(如光照过暗),后续推演误差会快速累积。

未来,团队计划从两方面突破:

•将视频生成与强化学习结合,让机器人在虚拟世界自主探索最优策略;

•扩大训练数据集(当前基于DROID),加入“厨房油污环境”、“户外光照变化”等复杂场景数据,提升模型对极端环境的适配能力。

五、从“真实试错”到“想象预演”,机器人训练范式的革新

清华陈建宇团队与斯坦福Chelsea Finn团队联合提出的CTRL-WORLD,不仅是技术层面的突破,更重塑了机器人训练的底层逻辑——此前机器人学习依赖“真实交互-数据收集-模型训练”的循环,本质是用物理资源换性能;而CTRL-WORLD构建了“虚拟预演-评估-优化-真实部署”的新闭环,让机器人能通过“想象”高效迭代。

该成果的价值不仅限于实验室:对工业场景而言,它可降低机械臂调试成本(单条生产线调试周期从1周缩至1天);对家庭服务机器人而言,它能快速适配“操作异形水杯”、“整理不规则衣物”等个性化任务。随着视频扩散模型对物理规律建模的进一步精准,未来的CTRL-WORLD有望成为机器人“通用训练平台”,推动人形机器人更快走向开放世界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

徐徐道史
2025-11-04 18:34:05
秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

鲁中晨报
2025-11-05 11:31:09
知名装备网站:阿迪达斯将于11月6日发售世界杯球衣,23队谍照泄露

知名装备网站:阿迪达斯将于11月6日发售世界杯球衣,23队谍照泄露

懂球帝
2025-11-05 16:50:15
三大指数集体高开

三大指数集体高开

每日经济新闻
2025-11-06 09:30:06
真相炸裂!吴石夫人家族联名发声,三面横幅揭开尘封百年身世!

真相炸裂!吴石夫人家族联名发声,三面横幅揭开尘封百年身世!

老谢谈史
2025-11-06 00:47:14
太突然!央视宣布撤档!

太突然!央视宣布撤档!

台州交通广播
2025-11-05 20:31:05
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

刘森森
2025-11-05 19:18:26
SE等日本游戏公司要求OpenAI停止使用其作品训练AI 

SE等日本游戏公司要求OpenAI停止使用其作品训练AI 

3DM游戏
2025-11-04 15:05:07
就在今天!11月6日凌晨,跳水界传来全红婵、王伟莹、陈芋汐消息

就在今天!11月6日凌晨,跳水界传来全红婵、王伟莹、陈芋汐消息

陈意小可爱
2025-11-06 06:12:38
他问了欧盟一个“有趣”的问题,然后被解雇了......

他问了欧盟一个“有趣”的问题,然后被解雇了......

环球时报国际
2025-11-05 23:25:45
一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

观威海
2025-11-04 09:58:04
布伦森23+7+10兰德尔32+5 尼克斯主场大胜森林狼

布伦森23+7+10兰德尔32+5 尼克斯主场大胜森林狼

北青网-北京青年报
2025-11-06 11:27:24
判了!上海一店铺生产销售毒面条,陆续加了近60斤有毒化工料

判了!上海一店铺生产销售毒面条,陆续加了近60斤有毒化工料

白浅娱乐聊
2025-11-06 06:16:58
价格大跳水!广东富豪最爱的“雷车”不香了?网友:老广买不动了

价格大跳水!广东富豪最爱的“雷车”不香了?网友:老广买不动了

品牌观察官
2025-11-04 21:42:02
伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

小玡说故事
2025-11-06 08:24:23
白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

我心纵横天地间
2025-11-05 11:28:28
三节35+5+5打卡!布朗独扛一队压力巨大 顶五年2.85亿还得更炸

三节35+5+5打卡!布朗独扛一队压力巨大 顶五年2.85亿还得更炸

颜小白的篮球梦
2025-11-06 10:54:10
中国治沙47年,目标根本不是消灭沙漠?真相颠覆你的认知

中国治沙47年,目标根本不是消灭沙漠?真相颠覆你的认知

削桐作琴
2025-11-05 14:15:04
黄金税改让整个实物黄金市场进入到了一种极度恐慌的状态

黄金税改让整个实物黄金市场进入到了一种极度恐慌的状态

流苏晚晴
2025-11-05 18:15:33
奉劝所有中国人,必须做好心理准备,俄罗斯外交部发言人说出事实

奉劝所有中国人,必须做好心理准备,俄罗斯外交部发言人说出事实

百态人间
2025-11-06 05:15:03
2025-11-06 11:40:49
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
5901文章数 4551关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

时尚
教育
家居
旅游
军事航空

中国色特别策划 | 故宫技艺与古意新生

教育要闻

惊!初三女孩大疆被老师没收,家长打电话也不还

家居要闻

别样府院 畅享诗意生活

旅游要闻

这家在B站爆火的旅行社,公开了自己的秘籍

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版