网易首页 > 网易号 > 正文 申请入驻

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

0
分享至

机器之心报道

编辑:冷猫、陈陈

2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。

近年来,世界模型逐渐受到大家的关注,当然也包括深度学习三巨头之一的 Yann LeCun,他将世界模型视为通向人类智能的核心路径。

然而,训练出有效的世界模型仍面临诸多挑战。

首先是数据问题:大规模、高质量的视频数据集获取成本高昂,尤其是在包含动作标注的情况下。目前世界模型的成功应用仍然局限于特定领域,如自动驾驶或电子游戏等。

其次,任务本身也非常困难:在无约束、部分可观测的环境中,准确建模物理规律与行为仍是一个尚未解决的问题,即使只考虑短时间尺度也是如此。目前最先进的基于像素的生成模型对计算资源的消耗极其庞大,例如 COSMOS 的训练耗时高达 2200 万 GPU 小时。

更令人担忧的是,这种算力可能被浪费在无关紧要的细节上。比如,在自动驾驶系统中,为了预测未来场景而去建模每一片树叶在风中的精确运动,并无必要。因此,以合适的抽象层级建模环境,对于提升世界模型的效率与效果至关重要。

最后,如何评估预训练的视频世界模型本身也是一大难题。

为了解决上述问题,来自 Meta 的研究者提出了一个强大的通用视频世界模型 DINO-world,用于预测未来帧。在实现方法上,DINO-world 在冻结的视觉编码器(如 DINOv2 )潜在空间中预训练视频世界模型,随后再通过动作数据进行后训练,以实现规划与控制。

  • 论文地址:https://arxiv.org/pdf/2507.19468v1
  • 论文标题: Back to the Features: DINO as a Foundation for Video World Models

这一方法具有多个优势:

  • 将视频预训练与基于动作 - 条件的微调解耦,可以利用大量未标注的视频学习通用知识,从而显著降低对标注数据的需求;
  • 训练潜在世界模型,避开了像素级建模带来的挑战,而像素级建模对大多数下游任务来说并非必要;
  • 冻结的编码器 DINO 能直接提供强大的语义和几何理解能力,加速了学习过程,并避免了同时训练编码器与预测器所带来的技术复杂性。

此外,该研究还引入了一种更高效的世界模型架构,相比当前最先进的模型,在训练与推理阶段都显著减少了资源消耗。

在一个包含约 6000 万条未经清洗的网络视频的大规模数据集上训练预测器,使其能够获得可以良好迁移到不同领域的通用特征。

在 VSPW 分割预测任务中,当预测未来 0.5 秒发生什么时,模型的 mIoU 提高了 6.3%,显著优于第二佳模型。在对动作数据进行后训练并在规划任务上进行评估时,实验结果进一步验证了大规模无监督预训练的优势。

方法介绍

图 1 概述了 DINO-world 主要组件,包括帧编码器(frame encoder)和未来预测器(future predictor)。

帧编码器

当今几乎所有世界模型都不再直接建模像素,而是基于视频块(video patches)的潜在表示进行建模。以 V-JEPA 为例,它包含一个编码器和一个预测器,这两个组件是联合优化的。

与此不同,本文选择使用专为表征学习而设计、并通过自监督训练的基础模型 DINOv2 对视频帧进行编码。

在这种潜在空间中进行建模显著降低了训练预测器所需的计算成本。实际上,本文成功实现了参数量少于 10 亿的世界模型的有效训练,而当前最先进的生成式模型(如 COSMOS)的参数规模可高达 120 亿。

预测器架构和训练

架构。本文将预测任务建模为一个解码问题,并将预测器设计为由 N 个残差预归一化交叉注意力块堆叠而成的结构。

在最后一个模块之后,通过一个线性映射将查询 token q 投影为预测的 patch token。

位置编码。在上述建模形式中,查询向量 q 和上下文特征 x 并不携带关于其在视频中位置的信息。为了使模型能够理解 token 之间的时空关系,本文在多头注意力机制中引入了旋转位置编码(RoPE)。

具体而言,本文将注意力头的维度 Dₕ 分成三部分,分别对每个 token 的时间坐标、水平坐标和垂直坐标进行编码。

对于空间坐标 (i, j),采用定义在 [−1, +1]² 网格上的相对位置表示,从而确保输入分辨率的变化不会影响 patch 之间的相对距离。

而对于时间坐标 τ,采用以秒为单位的绝对时间戳,使得模型能够区分高帧率与低帧率的序列,并具备对更长视频进行外推的能力。

训练目标。为了便于并行化,本文采用「下一帧预测」作为训练目标,即令 t′ = t + 1,并使用 teacher forcing 策略。在给定 T 帧的序列下,关于第 t+1 帧的查询只能访问到第 t 帧及之前的 patch token。对于参数为 θ 的预测器,其训练目标如下:

相比之下,掩码重建类的损失(如 V-JEPA 或 DINO-Foresight)仅对掩码位置的 token 计算损失,这些 token 只占处理总量的一小部分。

可变帧率(Variable FPS)。对于每段视频,本文从预设范围 [Δτ_min, Δτ_max] 中均匀采样 T−1 个时间间隔,并通过累加这些间隔以及一个随机起始点来生成 T 个时间戳。

这样一来,解码出最接近的帧及其实际时间戳用于训练。该方法确保了模型在训练时能够接触到均匀分布的时间间隔,从而具备更强的时间泛化能力。

动作条件微调

本文提出的视频世界模型可以通过自监督的方式,在大规模无标注视频数据集上进行训练。然而,许多下游应用往往涉及某种条件信号,例如智能体的动作或语言指令,而这类数据通常较为有限。

本文关注的是以观测 - 动作对 (v_t, a_t) 表示的智能体轨迹。

在预训练的视频世界模型基础上,本文提出了一种简单的适配方法,用于将预测第 t+1 帧的过程与当前动作 a_t 相结合。

实验结果

密集预测任务

本文在 Cityscapes、VSPW 和 KITTI 数据集上进行了评估。

评估类型包括:短期预测,即预测约 200 毫秒后的帧;以及中期预测,目标时间点为 0.5 秒后。

表 1 结果表明,DINO-world 世界模型优于像 V-JEPA 这样的联合预测架构,也优于像 COSMOS 这样的生成模型。DINO-Foresight 在 Cityscapes 和 KITTI 上略微占优,这归因于其在驾驶视频上的领域特定训练。

然而,DINO-world 在多个评测基准上表现稳健,验证了这一范式的有效性:在冻结的自监督学习编码器基础上训练潜在空间的世界模型。事实上,相较于 V-JEPA,本文预测的特征质量更高;相较于 COSMOS,本文对视频动态的建模也更为准确。

表 1:密集预测。当前表现与预测表现之间的差距越小,说明世界模型越强。

直觉物理(Intuitive physics)

本文采用了三个直觉物理测试基准:IntPhys 、GRASP 和 InfLevel 。并基于模型的预测定义了一个惊讶分数(surprise score),用于衡量模型输出与预期物理行为的偏差。

从表 2 的结果可以看出,所有在大规模数据集上训练的世界模型均表现出一定程度的物理理解能力。DINO-world 的表现与使用更大编码器的 V-JEPA ViT-H 相当。DINO-Foresight 在 IntPhys 和 GRASP 上的相对劣势,可归因于其训练域未包含合成视频。COSMOS 在相对简单的 IntPhys 任务中表现几乎完美,但在另外两个任务上明显不足。

表 2:直觉物理测试基准,报告了所有视频类别的平均相对准确率。

实验表明,潜在空间世界模型在性能上具有显著优势,同时也凸显了大规模预训练的重要性。

动作条件微调与规划评估

本文以预训练的基础模型为起点,在每个环境的离线轨迹上对动作条件模型训练 25 个 epoch,使用帧数 T = 4、分辨率为 224 像素的视频片段。

作为对比,本文还训练了两个模型:一个是仅训练动作模块、冻结其他所有参数的模型,另一个则是从头开始训练的模型。

表 4 报告了每个环境下、512 个测试回合中的成功率。主要发现是,与从零训练相比,大规模预训练显著提升了模型性能。作者预计,在更复杂、与预训练数据分布更接近的环境中,这一性能提升将更加明显。

表 4:规划评估。规划器在动作条件世界模型的潜在空间中展开候选轨迹并进行优化,其成功率如表所示。

更多实验细节、消融实验,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

顾史
2026-02-23 23:29:51
“七十不添衣,八十不祝寿”,这句话指的是啥?看完后涨知识了

“七十不添衣,八十不祝寿”,这句话指的是啥?看完后涨知识了

阿龙美食记
2026-02-26 14:30:14
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
日本女子撞飞中国幼童后续:拒不道歉,身份曝光,专挑游客小孩

日本女子撞飞中国幼童后续:拒不道歉,身份曝光,专挑游客小孩

离离言几许
2026-02-28 12:02:18
巴拿马行动后,李嘉诚72小时狂抛1100亿,西方成强盗窝

巴拿马行动后,李嘉诚72小时狂抛1100亿,西方成强盗窝

谁将笑到最后
2026-02-28 23:34:03
A股:不必等明天开盘了,股市已经有变化,周一很可能这样走了

A股:不必等明天开盘了,股市已经有变化,周一很可能这样走了

财经大拿
2026-03-01 12:02:26
首都医科大学党委书记调整

首都医科大学党委书记调整

医学界
2026-03-01 18:42:21
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
杨靖宇后人现状:妻子被丢进粪坑淹死,儿子37岁殉职,留5个子女

杨靖宇后人现状:妻子被丢进粪坑淹死,儿子37岁殉职,留5个子女

近史谈
2026-03-01 13:11:38
人品好!张本美和:我解释后王曼昱同意医疗暂停 赛后问我没问题吧

人品好!张本美和:我解释后王曼昱同意医疗暂停 赛后问我没问题吧

818体育
2026-03-01 13:27:01
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

悦心知足
2026-02-21 23:03:46
第5波伊朗导弹雨杀到,美军航母基地剧烈大爆炸:彻底拦不住了!

第5波伊朗导弹雨杀到,美军航母基地剧烈大爆炸:彻底拦不住了!

青烟小先生
2026-03-01 14:27:37
你被老外问过哪些离谱问题?网友:我朋友让我给他带一只熊猫

你被老外问过哪些离谱问题?网友:我朋友让我给他带一只熊猫

带你感受人间冷暖
2026-02-02 00:30:03
中东航班深夜返航 有旅客中途暴哭:安全最重要

中东航班深夜返航 有旅客中途暴哭:安全最重要

看看新闻Knews
2026-03-01 10:35:03
伊朗强势反击美军基地损失惨重,俄法纷纷介入,中方态度非比寻常

伊朗强势反击美军基地损失惨重,俄法纷纷介入,中方态度非比寻常

一盅情怀
2026-03-01 17:47:10
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
单局轰9-1提前终结悬念,孙颖莎4-1轻取师妹,打进决赛再战王曼昱

单局轰9-1提前终结悬念,孙颖莎4-1轻取师妹,打进决赛再战王曼昱

乒谈
2026-03-01 13:57:43
1946年安徽老太给八路军带路,副班长觉察不对,大喊道:这条路不对

1946年安徽老太给八路军带路,副班长觉察不对,大喊道:这条路不对

程哥讲堂
2025-06-25 17:02:07
美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

洪超飞军事
2026-03-01 11:47:26
2026-03-01 21:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

数码
亲子
本地
公开课
军事航空

数码要闻

小米Vision Gran Turismo超跑设计细节首曝

亲子要闻

春日敏感肌自救指南,你get了吗?

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗最高领袖哈梅内伊遇害 中方回应

无障碍浏览 进入关怀版