网易首页 > 网易号 > 正文 申请入驻

牛顿力学在AI中失效?哈佛团队揭示模型缺失物理常识

0
分享至

一个在 1,000 万个太阳系相关数据上训练的 Transformer 模型能够精准地预测行星轨道,却对引力定律一窍不通。那么,预测模型和世界模型有什么区别?是否存在简单直接的指标可以检验这种差异?来自美国哈佛大学和美国麻省理工学院的研究人员认为,或许最具影响力的世界模型,最初正是从一个预测模型起步的。


(来源:https://x.com/keyonV/status/1943730502948511937)



当开普勒和牛顿“遇见”AI

为了研究上述 AI 问题,他们追溯到了 400 年前的科学成果。在英国科学家艾萨克・牛顿(Isaac Newton)于 17 世纪提出万有引力定律之前,德国天文学家约翰内斯・开普勒(Johannes Kepler)的行星轨道预测模型早已存在,开普勒的预测促成了牛顿万有引力定律的发现。

而本次研究团队认为,基础模型的前景依赖于这样一个核心假设:学习预测序列能够揭示更深层次的规律,甚至乐观地说其能构建出一个世界模型。虽然从某种意义上说这个想法是新颖的,但从另一种意义上说它又是古老的。

如前所述,数百年前开普勒发现了一些几何规律,借助这些规律能够精准预测夜空中行星未来的位置。牛顿后来在这一进展的基础上发展并创立了牛顿力学,这些基本定律不仅能够预测行星的运动,还能解释宇宙中的各种物理特性。这条“从预测序列到理解其背后深层机制”的路径,并非物理学所独有。在生物学领域,动物育种者们早已观察到后代性状的规律,而他们这些具有预测性的见解,启发着奥地利帝国生物学家格雷戈尔・约翰・孟德尔(Gregor Johann Mendel)提出了遗传学理论。

如何才能知道基础模型是否也已实现“从做出准确预测到构建可靠世界模型”的跨越?本次研究通过构建一个框架来回答这个问题。

具体而言,研究团队开发了一种检测框架:当给定基础模型和世界模型时,该框架能够验证基础模型是否已经习得目标世界模型。研究团队将这种技术称为归纳偏置探针,它基于这样一个简单的见解:基础模型的隐性世界模型会通过“其如何从少量信息中进行推断”而显现出来,即从少量数据中做出推断。同样,基础模型的归纳偏置也能揭示其世界模型。


(来源:https://arxiv.org/pdf/2507.06952)



灵魂一问:模型是否掌握了牛顿力学?

研究中,研究团队通过以下实验来验证相关观点:他们测试一个经过行星运动位置预测训练的 Transformer 模型是否真正掌握了牛顿力学体系。具体来说,他们首先训练一个模型来预测太阳系中行星的位置。尽管该模型能够准确预测行星的未来轨迹,但是归纳偏置探针表明它对牛顿力学的归纳偏置较低。

比如,当对该模型进行微调以便预测行星的力向量(牛顿力学的核心要素)时,其预测结果所隐含的引力定律是毫无意义的。研究团队发现,该模型所习得的是零散的启发式方法,而非一个简洁的世界模型,它会根据所应用的数据片段采用不同的引力定律。

几个世纪以来,天文学家和物理学家一直致力于预测行星围绕太阳运行的轨道。开普勒提出了一个具有开创性的模型,他的模型基于几何图案而提出:例如,每个行星的轨道都遵循一个椭圆,而太阳位于该椭圆的一个焦点上。尽管该模型能够以近乎完美的精确度预测轨道,但它无法解释行星为何遵循这些几何轨道,也无法应用于预测轨道之外的新问题。

后来,牛顿利用新的运动定律对上述模型进行了拓展,这些定律现在被称为牛顿力学。这些定律涉及到计算运动中行星群的各种属性,例如它们的相对速度和质量。利用这些特性,不仅能够推导出开普勒早先提出的轨道运动定律,也能进一步理解力与引力等核心物理概念。

可以说,从开普勒到牛顿,科学家们实现了从序列预测模型到深层理论认知的跨越。本次研究之中,研究团队测试了一个能够预测轨道轨迹序列的 Transformer 模型,以便探究它究竟仅仅是一个优秀的序列模型?还是已经实现了向世界模型的转变?

为此,研究团队模拟了一个序列数据集,其中每个序列都描述了行星绕太阳运行的情况。他们随机采样初始条件(例如行星的质量、位置及其初始相对速度),以便匹配在已知系外行星中观察到的轨道形状。同时,他们根据牛顿运动定律模拟每颗行星围绕太阳的轨迹。

由于行星的质量远远小于太阳,因此行星之间的相互作用微乎其微,所以忽略不计这些相互作用。为了将轨道转换为序列,研究团队每隔一定时间记录一次每个行星和太阳的(x,y)坐标,并将所有位置交错排列成一个包含 1,000 个观测值的序列,这意味着每个序列代表一个不同的太阳系。


(来源:https://arxiv.org/pdf/2507.06952)

此外,研究团队考虑了两种不同类型的时间间隔:固定间隔和变化间隔。在固定间隔中,每个序列使用相同的 6 个月间隔;在变化间隔中,随机一半的序列使用 6 个月间隔,另一半使用1周间隔,并在开始处添加一个特殊 token 以用于指示间隔长度。

例如,在一个拥有 K 个行星且时间间隔各异的太阳系中,第一个时间步长编码了时间间隔的长度,接下来的 K 个观测值是每个行星在第一个时间点的(x,y)坐标,再接下来的 K 个观测值是每个行星在相应时间步长后的坐标,以此类推。

同时,研究团队设置了两种训练集规模:第一种是固定间隔数据集,拥有 10 亿 token、涵盖 100 万条序列;第二种是可变间隔数据集,拥有 200 亿 token、涵盖 1,000 万条序列。针对这两种情况训练的模型,得出了相似的结果。

接下来,研究团队训练了一个包含 1.09 亿个参数的 Transformer 模型,以用于预测训练集中每个序列的下一个 token。他们在以下两种方案中进行了实验:第一种方案是采取连续坐标并使用均方误差损失;第二种方案是采取离散化坐标并使用交叉熵损失。结果发现后者的效果更好。

期间,研究团队通过为每个坐标(x、y)创建 7,000 个区间,来离散化太阳系中每个天体的位置向量,其中坐标范围为-50 至 50 天文单位。需要说明的是,训练期间他们使用 8 个英伟达 H100 GPU 进行了 25 个周期的训练。

随后,研究团队在预留数据上针对模型预测结果进行评估,并发现预测效果较为良好,其决定系数(R²)超过 0.9999,而且显著优于基准模型,即优于那些总是预测最近位置或轨道均值的模型。与此同时,它还能以较高的精度生成长轨道。


(来源:https://arxiv.org/pdf/2507.06952)

Transformer 预测结果证明它是一个非常出色的序列模型。但是,它是否掌握了牛顿力学?为了验证这一点,研究团队注意到,牛顿力学指出一系列轨道中的每次观测都由一个状态向量控制,该向量由每个行星的质量、相对速度和相对位置组成。鉴于轨道的下一个位置是确定的,所以如果基础模型的归纳偏置依赖于牛顿力学,那么它必须基于这个状态向量进行外推。

研究中,研究团队使用归纳偏差探针来评估模型的归纳偏差。他们创建了 100 个合成数据集,然后通过训练模型来预测这些函数,从而对 Transformer 进行微调。其通过将 H 视为恒等映射,并将损失函数 ℓ 设为均方误差,以便衡量模型在输入上的外推预测能力,并通过将模型与一个基于状态直接进行外推的“预言机”(oracle)进行对比来评估其中一个公式。

与此同时,他们将线性模型和双层神经网络作为预言机,发现结果是相似的。其中,对牛顿状态简单函数的归纳偏倚较差。换言之,该模型的归纳偏置并不倾向于牛顿状态。当它必须进行外推时,它会对状态截然不同的轨道做出相似的预测,而对状态非常相似的轨道则会做出不同的预测。

为此,研究团队通过创建一个序列到序列的数据集来对此进行测试,其中每个输入是一条轨迹,每个输出是“由轨道状态所隐含的作用在行星上的”力向量。

基于此,他们先是针对预训练的 Transformer 进行微调,使其能够预测太阳系轨道上的力向量,并使用 1% 的真实力数据作为训练数据,结果显示这些力预测结果不佳。

为了评估该模型在掌握牛顿万有引力定律方面的接近程度,研究团队进一步对其进行微调,以便在包含 10,000 个太阳系的更大数据集上预测力的大小。

需要说明的是,符号回归是一种通过搜索优化回归类目标的符号表达式的方法。而当研究团队将符号回归用于 Transformer 的预测结果时,得到的物理定律是毫无意义的。基准对比结果显示:基于真实状态训练的 oracle 模型能够精确预测力向量,符号回归则能完整复现真实的物理定律。


(来源:https://arxiv.org/pdf/2507.06952)



基础模型并未习得某一通用物理定律

研究团队表示,基础模型的核心价值在于:序列预测能够揭示对于潜在机制的深层理解。对于本次提出的评估框架来说,它通过分析模型在新任务迁移中的归纳偏差,来验证模型是否习得预设世界模型。

实证结果表明,尽管许多序列模型在 next-token 预测任务中表现出色,但是它们对于真实世界模型的归纳偏置往往有限。本次研究还发现,这些模型并非是在学习连贯的世界模型,而是可能依赖了粗略的状态表征或非简约的表征。

总的来说,本次成果为理解基础模型的缺陷提供了一个方向:如果一个模型的归纳偏置并非倾向于某种已知的现实模型,那么它倾向于什么?

本次分析表明,这些模型实际上所表现出来的行为,更像是开发了无法泛化的任务特定启发式规则。在物理学领域,基础模型并未习得某一通用物理定律,而是会根据所应用的任务采用不同的、看似毫无意义的定律。 目前,相关论文已被 2025 国际机器学习会议(ICML,International Conference on Machine Learning)收录。

需要指出的是,本次研究需要指定一个世界模型,以此来测试基础模型。世界模型需要明确定义的要求,虽与学界共识一致,但却导致模型真实表征机制的溯因分析存在固有局限。尽管研究团队提出了测试候选世界模型的策略(例如基于 next-token 分区的验证方法),但未来研究应该优先开发“能够自动构建基础模型行为中隐式世界模型”的技术。

参考资料:

https://arxiv.org/pdf/2507.06952

https://x.com/keyonV/status/1943730495264584079

https://x.com/keyonV/status/1943730486280331460

https://x.com/keyonV/status/1943730502948511937

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

阿斚田侃故事
2025-11-03 22:56:11
为啥混混不去大公司收保护费?网友:大公司背后势力他们惹不起

为啥混混不去大公司收保护费?网友:大公司背后势力他们惹不起

带你感受人间冷暖
2025-11-16 00:15:05
辛芷蕾回鹤岗参加同学聚会!没架子很接地气,站C位和同学差距大

辛芷蕾回鹤岗参加同学聚会!没架子很接地气,站C位和同学差距大

娱乐圈圈圆
2025-11-17 20:41:24
偷梁换柱!女大学生买羽绒服退手机壳,还嫁祸快递员,丢人又道歉

偷梁换柱!女大学生买羽绒服退手机壳,还嫁祸快递员,丢人又道歉

深析古今
2025-11-17 17:55:15
第二个“恒大”出现!年营收7000亿,曾经是广东第一大民企

第二个“恒大”出现!年营收7000亿,曾经是广东第一大民企

墨印斋
2025-11-08 15:28:54
苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

林小湜体育频道
2025-11-18 00:33:31
全运游泳金牌成绩与世界差距如何?6项冲牌 19项进决赛 6项差距大

全运游泳金牌成绩与世界差距如何?6项冲牌 19项进决赛 6项差距大

篮球圈里的那些事
2025-11-17 20:52:11
曝喻恩泰离婚细节:搬走300箱茅台,若属婚前个人财产则合法

曝喻恩泰离婚细节:搬走300箱茅台,若属婚前个人财产则合法

新金牌娱乐观察家
2025-11-18 09:22:30
美国女排普拉默,身高198大骨架,和小个子男友一起跳舞,举高高

美国女排普拉默,身高198大骨架,和小个子男友一起跳舞,举高高

可乐谈情感
2025-11-17 13:20:12
脸肿油腻就别演都市剧!41岁朱珠一出手,让观众看清刘亦菲有多强

脸肿油腻就别演都市剧!41岁朱珠一出手,让观众看清刘亦菲有多强

胡一舸南游y
2025-11-17 17:30:51
就在刚刚!泰方高层突然宣布,中方将采购50万吨泰国大米的消息

就在刚刚!泰方高层突然宣布,中方将采购50万吨泰国大米的消息

百态人间
2025-11-17 16:39:01
震惊!一女子上厕所时玩手机致盆腔脱垂,网友:此生嫁给卫生间了

震惊!一女子上厕所时玩手机致盆腔脱垂,网友:此生嫁给卫生间了

火山诗话
2025-11-16 09:28:16
就在今天!11月18日凌晨,NBA传来东契奇 、詹姆斯、里夫斯新消息

就在今天!11月18日凌晨,NBA传来东契奇 、詹姆斯、里夫斯新消息

皮皮观天下
2025-11-18 07:21:07
夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

小娱乐悠悠
2025-11-13 16:06:27
谁在纵容《好东西》这种烂片到处拿奖?

谁在纵容《好东西》这种烂片到处拿奖?

木风的影视剧综Vista
2025-11-17 20:51:38
我是局里骨干晋升失利,提交调岗申请的当天,局长紧急约我面谈

我是局里骨干晋升失利,提交调岗申请的当天,局长紧急约我面谈

秋风专栏
2025-11-11 11:51:21
副关长陈孟裕被查,宁波海关本月已“落马”3人

副关长陈孟裕被查,宁波海关本月已“落马”3人

澎湃新闻
2025-11-17 19:48:32
农业部开会研究农民规模性返乡滞乡问题,两个难题成为问题关键。

农业部开会研究农民规模性返乡滞乡问题,两个难题成为问题关键。

爱下厨的阿椅
2025-11-18 01:54:14
日本回国机票价格出现上涨,去日本机票价格出现大跌

日本回国机票价格出现上涨,去日本机票价格出现大跌

映射生活的身影
2025-11-17 18:16:13
沈阳地铁一车站永久取消建设

沈阳地铁一车站永久取消建设

沈阳公交网小林
2025-11-18 00:11:20
2025-11-18 10:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15867文章数 514306关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

牛弹琴:中国的愤怒还在继续 对日反制有三个新特点

头条要闻

牛弹琴:中国的愤怒还在继续 对日反制有三个新特点

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

游戏
教育
时尚
数码
艺术

国产游戏《北洋风云》上架Steam 打赢甲午海战?

教育要闻

报告显示美高校国际学生今年秋季入学人数减少17%

听说冷帽是“美女检验神器”?

数码要闻

中国平板最新排名:华为独占三成份额!小米快被挤出前三

艺术要闻

墙上这十四个字太难读,你敢挑战吗?

无障碍浏览 进入关怀版