网易首页 > 网易号 > 正文 申请入驻

Meta推出开源最新世界模型,运行速度是英伟达Cosmos的30倍

0
分享至

想象一下,当你的宠物狗看到你举起网球准备投掷时,它会本能地预判球的落点并提前跑向那里,而不是傻傻地盯着你手中的球。

这种对物理世界的直觉理解,正是 AI 领域长期以来始终难以攻克的难题。

如今,Meta 推出了新的开源世界模型 V-JEPA 2 和三个新基准测试,希望借助它们的力量来改变这一点。模型和测试已开源在 GitHub 和 HuggingFace 上。

所谓世界模型,就是专门来帮助 AI 智能体理解周围世界,预测周遭状况如何发展,并最终通过规划自身行动来完成目标的模型。

这种能力在人类身上体现为直觉与预判:预测世界将如何回应我们的行为(或他人的行为),尤其是在规划行动以及判断如何应对新情况时。

世界模型已然成为 AI 领域聚焦的目标。李飞飞的 World Labs 、谷歌的 DeepMind 都在开发类似的世界模型。

英伟达也开发了世界模型 Comos,而 Meta 表示,V-JEPA 2 的运行速度是英伟达 Cosmos 模型的 30 倍。

Meta 首席 AI 科学家杨立昆(Yann LeCun)表示:“我们相信世界模型将开启机器人技术的新时代,使现实世界的 AI 代理能够帮助处理家务和物理任务,而无需天文数字般庞大的机器人训练数据。”

V-JEPA 2 是去年发布的 V-JEPA 模型的升级版。它主要基于视频进行训练,拥有 12 亿参数,采用自监督学习方法。它的英文全名是联合嵌入预测架构(joint-embedding predictive architecture,缩写即为 JEPA)。

V-JEPA 2 包含两个主要组件:

一个是编码器(encoder),它接收原始视频并输出嵌入(embeddings),以捕获有关观察世界状态的有用语义信息。

另一个是预测器(predictor),它接收视频嵌入和关于预测内容的额外上下文,并输出预测的嵌入。

V-JEPA 2 的训练过程则分为两个阶段:

在第一个预训练阶段,研究团队使用了超过 100 万小时的视频和 100 万张图像。这些丰富的视觉数据帮助模型学习了世界运行的大量知识,包括人们如何与物体互动、物体如何在世界中运动,以及物体如何与其他物体互动。

Meta 发现,仅在预训练阶段后,模型就已经展现出了与理解和预测相关的关键能力。

在训练的第二阶段,Meta 专注于利用机器人数据来提升模型的规划能力。他们向预测器提供动作信息,从而将这些数据整合到 JEPA 训练流程中。在使用额外数据训练后,预测器学会了在预测时考虑具体动作,然后可用于控制。

令人惊讶的是,这个阶段并不需要大量的机器人数据。Meta 的技术报告显示,仅使用 62 小时的机器人数据进行训练,就足以产生一个可用于规划和控制的模型。

在性能表现方面,V-JEPA 2 展现出了令人瞩目的能力。在运动理解方面,该模型在 Something-Something v2 数据集上实现了 77.3% 的 top-1 准确率。

在人类动作预期任务中,它在 Epic-Kitchens-100 数据集上达到了 39.7% 的 recall-at-5 分数,超越了现有所有任务特定模型。

当 V-JEPA 2 与大语言模型对齐后,在多个视频问答任务上展现了 80 亿参数规模下的最先进性能。例如,在 PerceptionTest 上达到 84.0 分,在 TempCompass 上达到 76.9 分。

为了更好地评估模型从视频理解和推理物理世界的能力,Meta 还发布了三个新的基准测试:IntPhys 2、MVPBench 和 CausalVQA。

IntPhys 2 用于衡量模型区分场景是否符合物理学的能力,它是在 IntPhys 基准的基础上扩展的。

MVPBench 是通过选择题来衡量视频语言模型对物理(世界)的理解能力,防止模型依赖肤浅的线索“走错误的捷径”。

CausalVQA 则是衡量模型回答与物理因果关系有关问题的能力,包括反事实问题(如果……会发生什么)、预期问题(接下来可能会发生什么)以及规划问题(为了实现目标,下一步应该采取什么行动)。

三个测试对人类来说小菜一碟,在 84%-93% 之间,但 V-JEPA 2 等模型与人类表现之间仍存在显著差距。

整体来看,V-JEPA 2 在 IntPhys 2 和 MVPBench 表现最好,Gemini 2.5 Flash 则在 CausalVQA 推理预测任务中表现最好。

值得注意的是,在三个测试中,阿里通义千问视觉语言模型 Qwen2.5-VL 的表现也比较亮眼。

Meta 还展示了在全新环境中使用 V-JEPA 2 进行零样本机器人规划。他们在不同实验室的 Franka 机械臂上零样本部署 V-JEPA 2-AC(动作条件版本),实现了使用图像目标进行规划的物体拾取和放置。

这是在没有从环境中的机器人收集任何数据,也没有任何任务特定训练或奖励的情况下实现的,展示了从网络数据和少量机器人交互数据中,自监督学习如何产生一个能够在物理世界中规划的世界模型。

最后,需要看到的是,V-JEPA 2 模型也存在局限性,比如预测动作时没有使用摄像头参数,依赖手动找到效果最好的摄像头角度;误差累积和搜索空间爆炸导致无法完成长时规划任务。

接下来,Meta 团队计划探索多模态 JEPA 模型,通过多种感官进行预测,包括视觉、听觉和触觉等等。

参考资料:

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

https://github.com/facebookresearch/vjepa2

https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16487文章数 514796关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
旅游
健康
公开课

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版