网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

英伟达Jim Fan：「世界建模」是新一代预训练范式

2026-02-05 23:23:52　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

继“下一个词预测”之后，世界建模将成为新的预训练范式。

这是英伟达机器人主管Jim Fan给出的最新判断。

他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域以及更广义的多模态AI奠定基础的第一年。

谢赛宁随即转发表示赞同：“事后看来显而易见”。

在这篇长文中，Jim Fan讨论了世界模型的定义与应用，尤其聚焦于物理AI领域的发展，同时展望了新的推理形式：

世界建模（world modeling）是在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。
当前世界模型的主要炒作集中在AI视频领域，而2026年将迎来物理AI的爆发。
世界模型需要更广义的预训练目标：下一个世界状态不应只包含RGB，还必须覆盖3D运动、本体感觉与触觉。
将出现一种新的推理形式：在视觉空间中的思维链，而非语言空间中的思维链。

以下为分享全文：

第二个预训练范式

下一个词预测(Next word prediction )曾是第一个预训练范式，而现在我们正在经历第二次范式转变：

世界建模（world modeling），或者说“下一个物理状态预测”

很少有人真正理解这一转变的深远意义。不幸的是，目前世界模型最被炒作的应用仍然是AI视频（接下来可能是游戏）。

我非常有信心地说：2026年将成为大世界模型（Large World Models）首次为机器人领域，以及更广义的多模态 AI 奠定真实基础的一年。

在这个背景下，我将世界建模定义为：在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。

视频生成模型是其中的一种实现形式，其中“下一个状态”是一系列RGB帧（通常为 8–10 秒，最长可达数分钟），而“动作”是一段描述要执行什么的文本。

训练过程就是对数十亿小时视频像素的未来变化进行建模。

本质上，视频世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景（counterfactuals），即预测如果采取不同动作，未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。

相比之下，VLM本质上是以语言为中心的。从最早的原型（e.g. LLaVA, Liu et al. 2023）开始，整体路径基本一致：视觉在编码器处进入，然后被送入语言主干网络。

随着时间推移，编码器不断改进，架构变得更简洁，视觉试图变得更加“原生”（如全模态模型）。

然而，视觉仍然是二等公民，无法与领域多年构建的LLM能力相比。（LLM)这条路线方便，因为我们熟LLM的扩展性，架构设计、数据配方、评测指标（如 VQA）都高度优化为语言服务。

对于物理AI来说，2025年以VLA为主：在预训练VLM上接入机器人动作解码器。

严格来说，它更像是 “LVA”：语言 > 视觉 > 动作，等级递减。

方便是方便，但VLM中大多数参数用于知识（例如“这一团像素是可口可乐品牌”），而不是物理（“如果你倾倒可乐瓶，它会洒成棕色水洼，弄脏白色桌布，还可能损坏电机”）。

VLA的设计在知识检索上很强，但物理能力分配不足。多阶段嫁接的设计，也违背我对简洁优雅的偏好。

从生物学角度看，视觉主导了我们的皮层计算。大约三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。

相比之下，语言依赖于一个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的最高带宽通道。它闭合了“感知—运动回路（sensorimotor loop）”——这是机器人最需要解决的回路，而且在中间不需要语言。

自然界给了我们一个最具说服力的例证：高灵巧物理智能几乎不依赖语言——猿类。

我见过猿类驾驶高尔夫球车，用螺丝刀更换刹车片，动作就像人类机械师一样。

它们的语言理解能力不超过BERT或GPT-1，但它们的物理技能远远超过我们当前最先进的机器人。

猿类可能没有优秀的语言模型，但它们显然拥有对“如果……会怎样”的稳健心理表征：即对物理世界如何运作、以及在其干预下会如何反应的理解。

世界建模的时代已经到来。

这是带着苦涩教训的时代。正如Jitendra常提醒我们这些“扩展成瘾者”：

监督是AI研究者的鸦片。

YouTube的海量视频和智能眼镜的兴起，将以远超文本训练规模的原始视觉流捕捉世界。

我们将看到一种新的预训练形式：下一个世界状态将不只包含RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到一种新的推理形式：在视觉空间中的思维链，而不是语言空间中的思维链。

你可以通过模拟几何关系和接触来解决物理谜题，想象物体如何移动和碰撞，而无需将其翻译成字符串。语言是一种瓶颈，是一种脚手架，而不是基础。

我们将面临一系列新的潘多拉盒问题：即便未来模拟完美，动作该如何解码？

像素重建真的是最优目标，还是应该进入其他潜在空间？需要多少机器人数据？远程操作的扩展是否仍然可行？

完成这些之后，我们是否终于迎来机器人领域的GPT-3时刻？

Ilya 说得没错：AGI尚未收敛。我们又回到了研究时代，而没有什么比挑战第一性原理更让人兴奋的了。

世界模型作为新的范式

总体来看，这篇新文章可以被看作是Jim Fan在2025年机器人年终总结中第三点的延伸与展开。

当时，他提出：基于VLM的路线，本质上主要服务于语言和知识，而不是物理世界本身

那时，他已经把问题说得很直白：

VLM的参数主要面向语言和知识，而非物理世界。

视觉编码器在训练中会主动丢弃细节，但机器人操作恰恰依赖这些细节。

因此，VLA并不会随着VLM的scale自然增强。

而最近这篇关于world modeling（世界建模）的长文，则可以看作是Jim Fan对这一判断的系统性展开与进一步思考。

对于他的观点，业内大佬和网友也纷纷表达了看法。

来自Google DeepMind的Genie 3联合负责人、世界模型团队负责人Jack Parker-Holder也在转发分享了他对世界模型应用场景的理解：

世界模型本身就是一类全新的基础模型。它们既服务于交互式媒体（视频模型），也服务于具身AGI。世界模型是连接虚拟与物理两个领域的桥梁，其真正价值在于跨任务、跨领域的泛化能力。

换句话说，就像LLM作为基座模型既能编程又能解数学题一样，放到世界模型上，视频生成与具身操控也可以兼容

而谷歌、英伟达等玩家，也都在虚拟游戏、视频以及物理机器人领域同步布局。

不过，前英伟达机器人研究主管Arsalan Mousavian也提醒：

对于大型世界模型（LWM）来说，这是一个非常棒的愿景，但从像素到物理的跃迁仍然很陡峭。

要让世界模型成为可靠的动作生成骨干，还必须解决以下问题：

几何一致性：确保运动学和物体恒常性在物理上成立。
同一性保持：避免跨实体的幻觉预测，例如机器人A在预测过程中突然变成机器人B。
推理速度：降低实时循环延迟。大型世界模型计算量大、延迟高，而机器人需要高频率响应。
动作采样：世界模型可以预测结果，但我们仍然需要对动作进行采样。

在数据量和计算需求上，这一目标将使当前的动作策略扩展（action-policy scaling）显得相对温和。

此外，jim fan提到的视觉推理也引发广泛讨论：

推理不一定非得依赖语言——视觉模拟（几何、接触、运动）本身就能构成推理过程。

机器人正是视觉为中心的基础模型大显身手的完美舞台。2026将是多模态、多轮交互代理（机器人/CUA）之年，而这一场比赛的胜者，必然会在游戏中更加重视视觉模态。

猿猴的比喻非常贴切。我们太过痴迷语言，以至于忘记了灵巧的行动能力并不一定需要词汇量。2026年或许是机器人技术最终停止依赖语言模型，转而构建原生系统的一年。

而除开英伟达、谷歌等巨头在世界模型技术路线的押注外，商业层面也在快速推进——

一周前，李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资，规模最高可达5亿美元。

LeCun前段时间创办AMI Labs（Advanced Machine Intelligence，AMI）也吸引了包括Cathay Innovation在内的潜在投资者，传闻其融资估值可能达到35亿美元。

参考链接：https://x.com/DrJimFan/status/2018754323141054786

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

广东21地市2025年度经济数据出炉：梅州GDP增速第一

南方都市报 2026-02-05 19:40:11
85 跟贴 85
这些冷门城市，竟是最具幸福感的地方？

大象新闻 2026-02-05 19:21:08
261 跟贴 261

河南一景区发巨额年终奖，有员工领到45万

大风新闻 2026-02-05 18:42:03
277 跟贴 277

哈尔滨冰雪大世界部分冰雕热到滴水，一周后当地还将升温超10℃，工作人员：不会再补冰，闭园时间待定

极目新闻 2026-02-05 17:56:17
8 跟贴 8
深圳湾公园两停车场试点取消预约停车应对“黄牛”占位乱象

南方都市报 2026-02-04 23:26:28
250 跟贴 250

联合国官方回顾2003年美国的白色粉末

北京日报 2026-02-05 22:33:39
3775 跟贴 3775

8岁父母双亡因"一道光"男子成7家饭店老板年销400万

极目新闻 2026-02-05 10:42:35
603 跟贴 603
欧尔班：匈牙利不应再追随西方

环球网资讯 2026-02-05 14:03:05
528 跟贴 528

农心杯三国擂台赛申真谞达成最长连胜纪录，中国队名列第三

上观新闻 2026-02-05 23:49:04
18 跟贴 18
这就是传承！3岁男孩遇上英歌队路训，自信大方互动

环球网资讯 2026-02-05 15:16:15
111 跟贴 111
追觅CEO俞浩又火上热搜，称三年后团队20万人，实现1万亿小目标

红星新闻 2026-02-05 18:37:26
58 跟贴 58
上海浦东机场惊人一幕：7名中东游客托运40多个行李箱，重超500斤！外国人在上海买疯了

极目新闻 2026-02-05 12:06:47
0 跟贴 0
男子乘飞机挨紧急出口发现前排缺个座位，感叹空间堪比商务舱，航司回应

极目新闻 2026-02-05 12:27:59
66 跟贴 66
马斯克个人财富突破8000亿美元 4个月内4次刷新个人财富纪录

财联社 2026-02-05 15:52:02
961 跟贴 961
“阿嬷手作”55元一碗螺蛳粉被吐槽贵店员：最近风评不佳，但售价高是有原因的

封面新闻 2026-02-03 22:36:18
522 跟贴 522
中考对孩子压力巨大，分流意义已越来越小，可以为取消中考做好政策储备

纵相新闻 2026-02-05 17:25:02
371 跟贴 371
今年起苏浙皖均将实施中小学春秋假，“互推”亲子游客源

澎湃新闻 2026-02-05 12:53:04
246 跟贴 246
2岁半宝宝跟妈妈到山东探亲一个月，身高猛涨4cm！妈妈：爱吃面食，户外运动也充足

大象新闻 2026-02-05 11:45:02
168 跟贴 168
比亚迪1月德国销量同比激增10倍，超特斯拉两倍

环球网资讯 2026-02-05 10:31:08
177 跟贴 177
网传“江西丰城高速特大事故73人死亡”系谣言（2026·02·05）

今日辟谣 2026-02-05 17:34:24
73 跟贴 73
民宗局：吃清真≈赴白事

疫苗与科学 2026-02-06 07:14:32
0 跟贴 0
现货白银跌幅再度扩大至16%

财联社 2026-02-05 22:38:07
0 跟贴 0

俄外长：俄罗斯的耐心并非没有限度

俄外长：俄罗斯的耐心并非没有限度

界面新闻

2026-02-06 07:10:20

蒙古国首都骚乱再起，社会矛盾愈发尖锐，反华到底图啥

蒙古国首都骚乱再起，社会矛盾愈发尖锐，反华到底图啥

素衣读史

2026-01-24 17:12:53

当不成首相了？高市被送进医院，日本27人身亡，俄向日本发去通牒

当不成首相了？高市被送进医院，日本27人身亡，俄向日本发去通牒

奇思妙想生活家

2026-02-06 06:25:58

捡漏二手物品简直太香了！网友分享一个比一个羡慕，冒青烟了

捡漏二手物品简直太香了！网友分享一个比一个羡慕，冒青烟了

夜深爱杂谈

2026-01-30 18:07:30

失地不收是高明之策？被强占60年的藏南，为何成了印度的噩梦？

失地不收是高明之策？被强占60年的藏南，为何成了印度的噩梦？

通文知史

2026-01-17 19:50:03

让“油电混动技术”悲哀的是：打败了所有对手，却输给了时代！

让“油电混动技术”悲哀的是：打败了所有对手，却输给了时代！

张鴘喜欢软软糯糯

2026-01-15 19:22:59

1939年傅雷跟情人书房约会，妻子放下茶水，对儿子说：别打扰爸爸

1939年傅雷跟情人书房约会，妻子放下茶水，对儿子说：别打扰爸爸

浩渺青史

2026-01-03 02:22:50

李亚鹏哭了！那英、董宇辉连夜捐款，网友用订单撑腰

李亚鹏哭了！那英、董宇辉连夜捐款，网友用订单撑腰

雷科技

2026-02-05 21:55:49

爱泼斯坦档案里提到的魔鬼如果不被惩罚，这个旧世界就应大重置

爱泼斯坦档案里提到的魔鬼如果不被惩罚，这个旧世界就应大重置

码头青年

2026-02-05 14:18:44

诺奖得主质问川普：和谈之年为何成为乌克兰平民灾难之年？

诺奖得主质问川普：和谈之年为何成为乌克兰平民灾难之年？

史政先锋

2026-02-05 20:45:50

人类历史上最大的末日工程——三线建设

人类历史上最大的末日工程——三线建设

历来纵横

2026-02-04 18:18:11

她让我戴套，还让我扶她上厕所—这些体贴，掩盖不了强奸的本质

她让我戴套，还让我扶她上厕所—这些体贴，掩盖不了强奸的本质

没有偏旁的常庆

2026-02-04 07:25:06

高价器材植入体内后“消失”，郑大一附院医生诈骗94名患者获刑

高价器材植入体内后“消失”，郑大一附院医生诈骗94名患者获刑

重案组37号

2026-02-04 09:07:07

便秘克星！早上空腹一碗，半小时清空肠道，噗噗超轻松，太畅快了

便秘克星！早上空腹一碗，半小时清空肠道，噗噗超轻松，太畅快了

江江食研社

2026-01-21 14:30:08

《血战台儿庄》拍完后，中央不许公映，程思远力争：该片符合史实

《血战台儿庄》拍完后，中央不许公映，程思远力争：该片符合史实

文史季季红

2026-02-05 10:40:03

巴萨进四强，他的神鬼二象性还在继续

巴萨进四强，他的神鬼二象性还在继续

西哇体育

2026-02-05 15:00:33

首次见张萌穿得如此端庄，真是太漂亮了，颜值媲美黄圣依

首次见张萌穿得如此端庄，真是太漂亮了，颜值媲美黄圣依

章眽八卦

2026-02-05 17:38:43

主体民族占90%以上，为何东亚国家如此特殊？

主体民族占90%以上，为何东亚国家如此特殊？

宋鶛搞笑配音

2026-02-04 14:52:14

1937年出狱的陈独秀想来延安，毛主席表态：可以但有3个条件

1937年出狱的陈独秀想来延安，毛主席表态：可以但有3个条件

舆图看世界

2026-02-06 06:35:03

央视直播！山东VS浙江全力出击，超级外援挑大梁，邱彪底气十足

央视直播！山东VS浙江全力出击，超级外援挑大梁，邱彪底气十足

老叶评球

2026-02-05 22:32:17

追踪人工智能动态

12120文章数 176374关注度

往期回顾全部

科技要闻

美团买下叮咚买菜，防御还是进击？

头条要闻

肖杰被查曾任"中国最大地级市"市长

头条要闻

肖杰被查曾任"中国最大地级市"市长

体育要闻

奇才：我学生……独行侠：成交！

娱乐要闻

微博之夜卷入座位风波！杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

游戏

时尚

手机

数码

亲子要闻

长大之后肠子都得悔青了

Xbox不点头没戏?玩家催更失眠组《日落过载》PS5版

她随手打赏就是6两黄金：人美，心善，钱多！

手机要闻

正式版下周见！苹果发布iOS 26.3 RC系统更新，意外曝光新品信息

数码要闻

3388元起华为联名周大福！FreeClip 2黄金耳饰开售：寓意吉祥、财运亨通

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版