网易首页 > 网易号 > 正文 申请入驻

第二代AI预训练范式:预测下个物理状态

0
分享至



编辑 | 杜伟、泽南

又一位大佬准备对现有 AI 技术范式开刀了。

今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。



Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。

对于这个观点,纽约大学助理教授、谷歌 DeepMind 研究科学家谢赛宁也表示同意。



那么预训练的第二代范式应该是什么样子?我们先来看 Jim Fan 的全文内容:

「预测下一个词」曾是第一个预训练范式。而现在,我们正处于第二个范式转移之中:世界建模(World Modeling)或者「预测下一个物理状态」

很少有人意识到这场变革的影响有多么深远,遗憾的是,目前世界模型最被大众熟知的用例只是些 AI 视频废料(以及即将到来的游戏废料)。但我敢全心笃定,2026 年将成为「大世界模型」(Large World Models, LWMs)为机器人学以及更广泛的多模态 AI 奠定真实基础的元年

在此背景下,我将「世界建模」定义为:在特定动作的约束下,预测下一个(或一段持续时间内)合理的物理世界状态。 视频生成模型是其中的一种实例化体现,这里的「下一状态」是一系列 RGB 帧(通常为 8-10 秒,最长可几分钟),而「动作」则是对该做什么的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。

从核心上看,视频世界模型是可学习的物理模拟器和渲染引擎,它们捕捉到了「反事实」。这是一个更高级的词汇,意指在给定不同动作时,推理未来的演化如何不同。世界模型从根本上将视觉置于首位。

相比之下,视觉语言模型(VLMs)在本质上是「语言优先」的。从最早的原型(如 LLaVA)开始,其叙事逻辑几乎未变:视觉信息从编码器进入,然后被路由到语言主干网络中。随着时间的推移,编码器在改进,架构更趋简洁,视觉也试图变得更加「原生」(如 omni 模型)。但它始终像是一个「二等公民」,在物理规模上远逊于业界多年来为大语言模型(LLMs)练就的肌肉。

这条路径很便捷,因为我们知道 LLM 是可扩展的。我们的架构直觉、数据配方设计以及基准测试(如 VQA)都高度针对语言进行了优化。

对于物理 AI,2025 年曾被 VLA(视觉 - 语言 - 动作)模型主导:在预训练的 VLM 检查点之上,硬生生嫁接一个机器人电机动作解码器。这其实是 「LVA」:其重要性排序依次为语言 > 视觉 > 动作。同样,这条路径很方便,因为我们精通 VLM 的训练套路。

然而,VLM 中的大部分参数都分配给了知识(例如「这团像素是可口可乐品牌」),而非物理(例如「如果你打翻可乐瓶,液体会蔓延成一片褐色污渍,弄脏白桌布,并毁掉电机」)。VLA 在设计上非常擅长知识检索,但在错误的地方显得「头重脚轻」。这种多阶段的嫁接设计也违背了我对简洁与优雅的追求。

从生物学角度看,视觉主导了我们的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的像素信息。相比之下,语言仅依赖于一个相对紧凑的区域。视觉是连接大脑、运动系统和物理世界的高带宽通道,它闭合了「感觉运动回路」。这是解决机器人问题的最核心环路,而且这个过程的中转完全不需要语言。

大自然给了我们一个存在性证明:一种具有极高肢体智能但语言能力微乎其微的生物 —— 类人猿。

我曾见过类人猿驾驶高尔夫球车,像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力比不过 BERT 或 GPT-1,但它们的物理技能远超目前最先进的机器人。类人猿或许没有强大的语言模型,但它们肯定拥有极其稳健的「如果... 会怎样」的心理图景:即物理世界如何运作,以及如何应对它们的干预。

世界建模的时代已经到来,它充满了「苦涩的教训」的味道。正如加州大学伯克利分校教授 Jitendra Malik 经常提醒我们这些「规模崇拜者」所说:「监督学习是 AI 研究者的鸦片。」YouTube 的全部存量以及智能眼镜的兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。

我们将见证一种新型预训练:下一个世界状态可能不限于 RGB 图像,3D 空间运动、本体感觉和触觉感知才刚刚起步。

我们将见证一种新型推理:发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点,想象物体如何移动和碰撞来解决物理难题,而无需将其转化为字符串。语言只是一个瓶颈,一个脚手架,而非根基。

我们将面临一盒全新的潘多拉之问:即使有了完美的未来模拟,动作指令该如何解码?像素重建真的是最佳目标吗,还是我们应该进入另一种潜空间?我们需要多少机器人数据,扩展遥操作规模仍是标准答案吗?在经历过这些探索后,我们是否终于在向机器人领域的「GPT-3 时刻」迈进?

Ilya 终究是对的,AGI 尚未收敛。我们回到了「研究的时代」,没有什么比挑战第一性原理更令人心潮澎湃了。

Jim Fan 对现状的思考以及对未来的判断,同样收获了评论区大量网友的认可。





有人认为这是「神经符号 AI 社区的胜利」。



你认同 Jim Fan 的观点吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不是黄晓明!也不是马云!如今替赵薇收拾烂摊子的,是这个男人

不是黄晓明!也不是马云!如今替赵薇收拾烂摊子的,是这个男人

古事寻踪记
2026-02-05 07:11:42
4字拒赛!樊振东婉拒乒联破例邀约,巅峰退隐藏何深意?

4字拒赛!樊振东婉拒乒联破例邀约,巅峰退隐藏何深意?

苏甩甩
2026-02-05 09:45:04
落入“斩杀线”的曲婉婷

落入“斩杀线”的曲婉婷

难得君
2026-02-04 00:16:44
苹果多款新品来了,新升级很猛

苹果多款新品来了,新升级很猛

科技堡垒
2026-02-03 11:41:36
1975 年,蒋介石邀毛主席赴台商谈,毛主席考虑自身状况后表示:“小平同志代替我去台湾”

1975 年,蒋介石邀毛主席赴台商谈,毛主席考虑自身状况后表示:“小平同志代替我去台湾”

史海孤雁
2025-12-21 15:43:13
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
天下要大乱了,爱沙尼亚拦俄货轮,马来西亚抓船,印尼卖伊朗油轮

天下要大乱了,爱沙尼亚拦俄货轮,马来西亚抓船,印尼卖伊朗油轮

爱吃醋的猫咪
2026-02-05 21:05:57
大量浙江人涌入天津东丽,专找路边60多岁的老头唠嗑,这波操作

大量浙江人涌入天津东丽,专找路边60多岁的老头唠嗑,这波操作

石辰搞笑日常
2026-02-05 17:47:50
“九年无爱生活”凉菜波美 ,换一次自我成全!

“九年无爱生活”凉菜波美 ,换一次自我成全!

碧波万览
2026-02-04 02:45:03
委内瑞拉民众游行要求释放马杜罗 委执政党:已收到30万封声援信

委内瑞拉民众游行要求释放马杜罗 委执政党:已收到30万封声援信

新华社
2026-02-04 16:39:28
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
昨夜,Claude智能体压垮华尔街,近万亿刀市值蒸发

昨夜,Claude智能体压垮华尔街,近万亿刀市值蒸发

机器之心Pro
2026-02-05 11:25:57
局地降温20℃以上!新一轮寒潮来袭

局地降温20℃以上!新一轮寒潮来袭

新疆分享
2026-02-05 21:17:16
2007年,马云把刚为阿里巴巴赚了2000亿的孙彤宇踢出了淘宝。

2007年,马云把刚为阿里巴巴赚了2000亿的孙彤宇踢出了淘宝。

百态人间
2026-02-04 15:51:25
林开钦:中共福建省委原副书记、省政协原副主席

林开钦:中共福建省委原副书记、省政协原副主席

爱意随风起呀
2026-02-05 18:31:24
太突然!央媒发文,离世21天贺娇龙再传喜讯,海霞终于能安心了

太突然!央媒发文,离世21天贺娇龙再传喜讯,海霞终于能安心了

娱乐八卦木木子
2026-02-05 15:36:51
乌克兰无人系统司令:我们每天都能摧毁三个俄军营,但这还不够!

乌克兰无人系统司令:我们每天都能摧毁三个俄军营,但这还不够!

老马拉车莫少装
2026-01-30 12:27:50
留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

带你感受人间冷暖
2026-02-04 00:30:03
印尼感谢中方支持膳食补充和校园餐项目

印尼感谢中方支持膳食补充和校园餐项目

环球网资讯
2026-02-04 23:01:47
微博之夜肖战座位牌被“撕”,单C竟变双C,结果二三排无人坐

微博之夜肖战座位牌被“撕”,单C竟变双C,结果二三排无人坐

楚楚号
2026-02-05 21:28:13
2026-02-05 22:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12259文章数 142563关注度
往期回顾 全部

科技要闻

美团7.17亿元收购叮咚买菜

头条要闻

多家医美机构可"造腹肌" 有人花7万元打了83支玻尿酸

头条要闻

多家医美机构可"造腹肌" 有人花7万元打了83支玻尿酸

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

教育
时尚
房产
数码
军事航空

教育要闻

高考地理中的过渡性思维+尺度思想,太重要了

春天最火的第一双鞋竟然是它?赵今麦、周也都爱穿!

房产要闻

新春三亚置业,看过这个热盘再说!

数码要闻

米家智能健腹轮入选红点设计博物馆展示 全球5项奖加身

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版