网易首页 > 网易号 > 正文 申请入驻

视频模型能解决机器人“预测未来”的问题吗?短期能,长期不行

0
分享至

2026 年 2 月 12 日,普林斯顿大学机械与航空航天工程系副教授 Anirudha Majumdar 在 X 上发表了一篇长博文,直面一个正在机器人学界升温的核心争论:为具身智能构建世界模型,到底应不应该去“预测像素”?

Majumdar 是普林斯顿机器人研究倡议(Princeton Robotics Initiative)的联合主任,同时在 Google DeepMind 担任兼职访问研究科学家。他的研究聚焦于让机器人在以人为中心的环境中安全、可靠地泛化到新场景,曾获斯隆研究奖(Sloan Fellowship)、两次 Google 教授研究奖,以及《国际机器人研究期刊》(IJRR)年度最佳论文等荣誉。


图丨Anirudha Majumdar(来源:Princeton MAE)

他本人也是去年 12 月 Google DeepMind 那篇引发广泛关注的 Veo 机器人策略评估工作的合作者之一,该研究展示了如何用前沿视频生成模型 Veo 作为机器人策略的“世界仿真器”,通过 1,600 多次真实世界评估验证了其有效性。

在文章中,Majumdar 表示当前机器人领域的世界模型几乎等同于视频生成模型,这条路线在概念简洁性、评估便利性、商业推动力等方面拥有不容低估的短期优势;但 Yann LeCun 倡导多年的潜在世界模型(以 JEPA 架构为代表)在长时域规划上更具前景,可能在五年左右的时间尺度上成为关键组件。两者并非你死我活的替代关系,更可能走向协同。

以下是这篇博文的全文编译。

机器人的世界模型

在机器人学界,一个大致的共识似乎正弥漫在空气中:未来的通用策略将建立在“世界建模”的配方之上,而非迄今为止占主导地位的 VLM(Vision-Language Model,视觉语言模型)骨架方案。

论点如下:VLM 没有被显式地训练来预测未来,因此在几何、空间和物理推理能力上,也就是预测动作精细后果所需的那类能力并不可靠。相比之下,世界模型允许机器人“想象”未来以进行规划,例如:(1)生成一段想象中成功执行的视频,再用逆动力学模型推断所需动作;或者(2)直接使用一个以动作为条件的世界模型来优化规划。

2026 年初的机器人学:世界模型=视频模型

在 2026 年初,机器人领域的世界建模由视频世界模型主导,即那些被训练来预测未来视频帧(以文本以及潜在的动作为条件)的生成式模型。这些模型建立在视频建模领域巨大进步的基础之上:在互联网规模数据上训练的基于扩散的架构,能够生成惊人逼真的视频,包含复杂的物理交互,例如来自 Veo、Cosmos 和 Wan 的视频。

仅在过去一年中,我们就已经看到经过机器人数据微调的视频模型能够执行策略评估、数据生成和推理时规划生成;相关综述可参阅文献[1]。就我个人而言,参与 Veo 的策略评估工作提供了一次巨大的认知更新,看到如下所示的视频模型“仿真”,让我确信视频模型终于到了可以在机器人领域大展身手的时刻。

视频模型的挑战

尽管结果令人振奋,当前所有用于机器人的视频模型都受到同一组幻觉问题的困扰:物体凭空复制、无中生有、凭空消失,或者在自发地或在被遮挡后重新出现时发生形变。

此外,长时域生成是一个重大挑战:当前机器人领域的视频模型很难在超过 20-30 秒之后仍能产出高质量的生成结果。

潜在世界模型:不要预测像素

从直觉上看,视频建模对于世界模型而言似乎是一个不必要地困难的任务。预测背景中树叶运动的像素级细节,或者预测即将出现在我办公室门口的人的精确面部特征,显然是没有必要的。

我们可以转而构建一个潜在世界模型(latent world model),只预测环境的某些特征。具体来说,通过预测可预测之物,我们可以将表征能力集中在真正重要的事情上,而不是那些细枝末节,比如在特定光照条件下物体的精确外观。

Yann LeCun 多年来已经非常有力地阐述了这一论点(参见他在普林斯顿机器人研讨会上的演讲)。他在 Meta 和 NYU 的团队开发了多种形式的 JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构),这种架构学习观测的潜在表征,以预测其他(例如未来)观测的表征。

V-JEPA 2 展示了这种自监督学习如何涌现出有用的视频特征。此外,该工作还展示了模型的动作条件版本如何通过在推理时优化动作序列来实现机器人规划。

潜在世界模型的论点在长时域任务上尤其有说服力。预测世界在未来 10-20 秒内如何在像素层面演化似乎还说得过去,但将这一尺度扩展到分钟或小时级别,既极其困难,又完全没有必要。

为什么视频模型将在短期内胜出

在接触视频模型之前,我曾被上述潜在世界模型的论点所说服;只预测世界显著特征的极简主义方法确实很有吸引力。然而,我想要论证的是,视频建模在技术和实践上有一些不应被低估的显著优势。这些优势在一年前对我来说并不显而易见,我希望在这里把它们明确写出来能对其他人有所帮助。

概念上的简洁性。视频建模的任务是明确无歧义的:预测未来帧。类似于 LLM(Large Language Model,大语言模型)的下一个 token 预测,一个清晰的监督信号可以为下游任务带来良好的特征,以及诸如物体分割、视频编辑和视觉推理等涌现能力。

这与 JEPA 形成鲜明对比:预测可预测之物这一任务并非完全指定的(not fully specified),如果实现不当会导致表征坍缩——构建一个可预测嵌入的最简单方式就是让它成为常数。

清晰的评估指标。对视频模型进行爬坡优化(hill-climbing)是直截了当的。有标准指标(如 LPIPS 或 FID)可以用来评估视频生成的质量。JEPA 则不然,它优化的损失函数并不一定与下游性能相关(不过最近的 LeJepa 论文在这方面展现了一些积极迹象)。

推理时缩放与验证器。视频模型允许 VLM 被直接用作验证器。通过生成多段视频并用 VLM 打分,我们可以过滤掉不真实或低质量的生成结果。这提供了一个简洁的推理时缩放配方。

视频模型赋能策略评估。视频模型可以充当机器人策略的完整仿真器。为了执行闭环 rollout,仿真器的输出必须与策略的输入匹配。对于视觉运动控制(visuomotor control),这就要求生成完整的图像(除非策略被迫在潜在世界模型的潜在空间中接收输入)。

视频模型与图像编辑器的天然组合。视频模型可以接受编辑后的帧作为输入。正如我们在 Veo 工作中所展示的,这提供了一个简洁的配方,用于在分布外(out-of-distribution)场景中进行策略评估。

真实世界的观测可以被编辑(例如引入新物体或背景),然后用于条件化策略 rollout。可以想象,类似的策略也能用于视频模型在分布外场景中的数据生成(类似于 DreamGen)。

巨大的商业激励。支持视频模型的主要论点实际上是一个非技术性的。开发好的视频生成模型面临着巨大的商业压力。从社交媒体应用到电影制作,视频模型将以独立于机器人领域的速度快速发展。

我们已经反复看到这部电影的剧情,从用于游戏的深度相机,到用于智能手机的 IMU(Inertial Measurement Unit,惯性测量单元),再到用于 NLP(Natural Language Processing,自然语言处理)的 LLM——因独立商业原因开发的技术,最终革新了机器人学。同样的事情很可能也会发生在视频模型身上。

在近期(2-3 年),我预计视频模型将继续作为机器人世界建模的主导力量。尤其是对于短时域操作任务,这仍然是当今机器人学大部分研究的北极星,我预计上述优势将超过潜在世界模型的潜在收益。

JEPA 会在长期胜出吗?

JEPA 用于机器人的核心未解技术问题是:JEPA 学到的"可预测特征"是否等同于对机器人有用的特征?可预测的特征本身并不一定有用——我们总是可以预测那个将任何图像映射为常数的特征。然而,DINO 的存在提供了一个强有力的证据,它可以说是 JEPA 风格自监督学习最大的成功案例。

DINO 特征在广泛的下游视觉任务中取得了最先进的结果,如分割、深度预测和物体检测。类似的收益能否在机器人世界建模中实现,仍然是一个开放问题。

为了超越视频模型,JEPA 还需要克服我上面强调的一些商业压力。然而,LeCun 的 AMI 初创公司似乎有可能积聚足够的资源来跨越这一障碍,并展示 JEPA 在世界建模方面的威力。

如果让我在大约 5 年的时间线上下注,我会押注 JEPA 成为机器人世界模型的关键组成部分。我怀疑,一旦我们在基础操作技能上取得进展,超过几秒的时间跨度将真正开始在机器人学中变得重要,届时 JEPA 在规划方面的优势应该会显现出来。

然而,基于上一节强调的原因,我不认为 JEPA 会一对一地替代视频模型。首先,JEPA 和视频模型可以协同工作。事实上,我们已经看到了将两者结合的工作,例如用潜在世界模型在推理时改进视频模型。此外,JEPA 的表征学习目标也可以与视频重建目标同时应用。最后,对于策略评估等用例,视频生成有非常明确的优势(例如使用图像编辑来生成场景变体)。

无论事情最终如何发展,这都是一个非常激动人心的时刻,不同的实体正在下注不同的路线,还有一些根本性的开放问题等待解决。

参考资料:

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

萌神木木
2026-02-11 15:37:43
赵睿被禁赛!中国男篮开会,9名球员进行反思!

赵睿被禁赛!中国男篮开会,9名球员进行反思!

德译洋洋
2026-02-12 14:00:32
中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

阿器谈史
2026-01-30 08:40:58
朱芳雨赌对了!广东最适合的大外援曝光,杜锋瞄准马刺弃将索汉?

朱芳雨赌对了!广东最适合的大外援曝光,杜锋瞄准马刺弃将索汉?

绯雨儿
2026-02-12 15:37:04
中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

流史岁月
2026-02-12 11:58:06
体内有癌,腿先知?若腿上出现这5种症状,小心恶性肿瘤"缠身"!

体内有癌,腿先知?若腿上出现这5种症状,小心恶性肿瘤"缠身"!

冷眼看世界728
2026-02-12 21:46:50
李嘉诚巴拿马港口完璧归赵,背后是强大的祖国

李嘉诚巴拿马港口完璧归赵,背后是强大的祖国

别人都叫我阿腈
2026-02-12 20:09:31
官方:英格兰与主帅图赫尔续约至2028年

官方:英格兰与主帅图赫尔续约至2028年

懂球帝
2026-02-12 18:21:08
出大事了,特朗普下总统令,美军发起双重袭击,英法俄罕见失声

出大事了,特朗普下总统令,美军发起双重袭击,英法俄罕见失声

安安说
2026-02-12 21:13:15
宁波化工巨头被追缴税款4.8亿后,果断离场,把公司卖给了国资

宁波化工巨头被追缴税款4.8亿后,果断离场,把公司卖给了国资

小蜜情感说
2026-02-12 19:49:11
关门14年,广州知名百年老字号重开!街坊激动哭了:必须支持

关门14年,广州知名百年老字号重开!街坊激动哭了:必须支持

羊城攻略
2026-02-12 04:39:35
火药味!怀特塞德顶翻迪亚洛 后者冲过来对喷冲突各吃一T

火药味!怀特塞德顶翻迪亚洛 后者冲过来对喷冲突各吃一T

醉卧浮生
2026-02-12 20:30:05
《太平年》里那些被强行“洗白”的人物!

《太平年》里那些被强行“洗白”的人物!

梦归秋辰
2026-02-12 15:38:20
750万发:俄罗斯炮弹产能大涨!频繁掉炸弹,俄博主要求百姓克制

750万发:俄罗斯炮弹产能大涨!频繁掉炸弹,俄博主要求百姓克制

鹰眼Defence
2026-02-12 17:22:05
2023年,联邦法院裁定——李昌钰伪造证据罪名成立。

2023年,联邦法院裁定——李昌钰伪造证据罪名成立。

百态人间
2026-02-07 15:38:20
敢去就断绝关系!湖南一研三女生吐槽母亲不让远行,3000机票亏了

敢去就断绝关系!湖南一研三女生吐槽母亲不让远行,3000机票亏了

火山詩话
2026-02-12 06:00:29
国台办:春节是中华民族最重要的传统节日 民进党当局如果胆敢在祥和的节日里无端挑起事端 必须承担由此引发的一切恶果

国台办:春节是中华民族最重要的传统节日 民进党当局如果胆敢在祥和的节日里无端挑起事端 必须承担由此引发的一切恶果

闪电新闻
2026-02-11 15:49:24
《生命树》反转了!孟耀辉不是杀害多杰的凶手,冯克青再起杀心

《生命树》反转了!孟耀辉不是杀害多杰的凶手,冯克青再起杀心

小丸子的娱乐圈
2026-02-12 15:02:18
演员郑恩宇去世,年仅40岁

演员郑恩宇去世,年仅40岁

草莓解说体育
2026-02-11 20:59:06
利润超腾讯阿里之和!字节跳动才是“光明顶”,六大门派全慌了

利润超腾讯阿里之和!字节跳动才是“光明顶”,六大门派全慌了

娱乐督察中
2026-02-12 04:38:33
2026-02-12 22:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16258文章数 514604关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

本地
旅游
艺术
数码
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

旅游要闻

国家体育总局发布全国13条“2026年春节假期户外运动精品线路”,苏超冠军城入选

艺术要闻

231米!意大利第一高楼,春节还亮“中国红”

数码要闻

1099元!AOC 25G41SE/WS显示器开启电竞新体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版