网易首页 > 网易号 > 正文 申请入驻

牛顿力学在AI中失效?哈佛团队揭示模型缺失物理常识

0
分享至

一个在 1,000 万个太阳系相关数据上训练的 Transformer 模型能够精准地预测行星轨道,却对引力定律一窍不通。那么,预测模型和世界模型有什么区别?是否存在简单直接的指标可以检验这种差异?来自美国哈佛大学和美国麻省理工学院的研究人员认为,或许最具影响力的世界模型,最初正是从一个预测模型起步的。


(来源:https://x.com/keyonV/status/1943730502948511937)



当开普勒和牛顿“遇见”AI

为了研究上述 AI 问题,他们追溯到了 400 年前的科学成果。在英国科学家艾萨克・牛顿(Isaac Newton)于 17 世纪提出万有引力定律之前,德国天文学家约翰内斯・开普勒(Johannes Kepler)的行星轨道预测模型早已存在,开普勒的预测促成了牛顿万有引力定律的发现。

而本次研究团队认为,基础模型的前景依赖于这样一个核心假设:学习预测序列能够揭示更深层次的规律,甚至乐观地说其能构建出一个世界模型。虽然从某种意义上说这个想法是新颖的,但从另一种意义上说它又是古老的。

如前所述,数百年前开普勒发现了一些几何规律,借助这些规律能够精准预测夜空中行星未来的位置。牛顿后来在这一进展的基础上发展并创立了牛顿力学,这些基本定律不仅能够预测行星的运动,还能解释宇宙中的各种物理特性。这条“从预测序列到理解其背后深层机制”的路径,并非物理学所独有。在生物学领域,动物育种者们早已观察到后代性状的规律,而他们这些具有预测性的见解,启发着奥地利帝国生物学家格雷戈尔・约翰・孟德尔(Gregor Johann Mendel)提出了遗传学理论。

如何才能知道基础模型是否也已实现“从做出准确预测到构建可靠世界模型”的跨越?本次研究通过构建一个框架来回答这个问题。

具体而言,研究团队开发了一种检测框架:当给定基础模型和世界模型时,该框架能够验证基础模型是否已经习得目标世界模型。研究团队将这种技术称为归纳偏置探针,它基于这样一个简单的见解:基础模型的隐性世界模型会通过“其如何从少量信息中进行推断”而显现出来,即从少量数据中做出推断。同样,基础模型的归纳偏置也能揭示其世界模型。


(来源:https://arxiv.org/pdf/2507.06952)



灵魂一问:模型是否掌握了牛顿力学?

研究中,研究团队通过以下实验来验证相关观点:他们测试一个经过行星运动位置预测训练的 Transformer 模型是否真正掌握了牛顿力学体系。具体来说,他们首先训练一个模型来预测太阳系中行星的位置。尽管该模型能够准确预测行星的未来轨迹,但是归纳偏置探针表明它对牛顿力学的归纳偏置较低。

比如,当对该模型进行微调以便预测行星的力向量(牛顿力学的核心要素)时,其预测结果所隐含的引力定律是毫无意义的。研究团队发现,该模型所习得的是零散的启发式方法,而非一个简洁的世界模型,它会根据所应用的数据片段采用不同的引力定律。

几个世纪以来,天文学家和物理学家一直致力于预测行星围绕太阳运行的轨道。开普勒提出了一个具有开创性的模型,他的模型基于几何图案而提出:例如,每个行星的轨道都遵循一个椭圆,而太阳位于该椭圆的一个焦点上。尽管该模型能够以近乎完美的精确度预测轨道,但它无法解释行星为何遵循这些几何轨道,也无法应用于预测轨道之外的新问题。

后来,牛顿利用新的运动定律对上述模型进行了拓展,这些定律现在被称为牛顿力学。这些定律涉及到计算运动中行星群的各种属性,例如它们的相对速度和质量。利用这些特性,不仅能够推导出开普勒早先提出的轨道运动定律,也能进一步理解力与引力等核心物理概念。

可以说,从开普勒到牛顿,科学家们实现了从序列预测模型到深层理论认知的跨越。本次研究之中,研究团队测试了一个能够预测轨道轨迹序列的 Transformer 模型,以便探究它究竟仅仅是一个优秀的序列模型?还是已经实现了向世界模型的转变?

为此,研究团队模拟了一个序列数据集,其中每个序列都描述了行星绕太阳运行的情况。他们随机采样初始条件(例如行星的质量、位置及其初始相对速度),以便匹配在已知系外行星中观察到的轨道形状。同时,他们根据牛顿运动定律模拟每颗行星围绕太阳的轨迹。

由于行星的质量远远小于太阳,因此行星之间的相互作用微乎其微,所以忽略不计这些相互作用。为了将轨道转换为序列,研究团队每隔一定时间记录一次每个行星和太阳的(x,y)坐标,并将所有位置交错排列成一个包含 1,000 个观测值的序列,这意味着每个序列代表一个不同的太阳系。


(来源:https://arxiv.org/pdf/2507.06952)

此外,研究团队考虑了两种不同类型的时间间隔:固定间隔和变化间隔。在固定间隔中,每个序列使用相同的 6 个月间隔;在变化间隔中,随机一半的序列使用 6 个月间隔,另一半使用1周间隔,并在开始处添加一个特殊 token 以用于指示间隔长度。

例如,在一个拥有 K 个行星且时间间隔各异的太阳系中,第一个时间步长编码了时间间隔的长度,接下来的 K 个观测值是每个行星在第一个时间点的(x,y)坐标,再接下来的 K 个观测值是每个行星在相应时间步长后的坐标,以此类推。

同时,研究团队设置了两种训练集规模:第一种是固定间隔数据集,拥有 10 亿 token、涵盖 100 万条序列;第二种是可变间隔数据集,拥有 200 亿 token、涵盖 1,000 万条序列。针对这两种情况训练的模型,得出了相似的结果。

接下来,研究团队训练了一个包含 1.09 亿个参数的 Transformer 模型,以用于预测训练集中每个序列的下一个 token。他们在以下两种方案中进行了实验:第一种方案是采取连续坐标并使用均方误差损失;第二种方案是采取离散化坐标并使用交叉熵损失。结果发现后者的效果更好。

期间,研究团队通过为每个坐标(x、y)创建 7,000 个区间,来离散化太阳系中每个天体的位置向量,其中坐标范围为-50 至 50 天文单位。需要说明的是,训练期间他们使用 8 个英伟达 H100 GPU 进行了 25 个周期的训练。

随后,研究团队在预留数据上针对模型预测结果进行评估,并发现预测效果较为良好,其决定系数(R²)超过 0.9999,而且显著优于基准模型,即优于那些总是预测最近位置或轨道均值的模型。与此同时,它还能以较高的精度生成长轨道。


(来源:https://arxiv.org/pdf/2507.06952)

Transformer 预测结果证明它是一个非常出色的序列模型。但是,它是否掌握了牛顿力学?为了验证这一点,研究团队注意到,牛顿力学指出一系列轨道中的每次观测都由一个状态向量控制,该向量由每个行星的质量、相对速度和相对位置组成。鉴于轨道的下一个位置是确定的,所以如果基础模型的归纳偏置依赖于牛顿力学,那么它必须基于这个状态向量进行外推。

研究中,研究团队使用归纳偏差探针来评估模型的归纳偏差。他们创建了 100 个合成数据集,然后通过训练模型来预测这些函数,从而对 Transformer 进行微调。其通过将 H 视为恒等映射,并将损失函数 ℓ 设为均方误差,以便衡量模型在输入上的外推预测能力,并通过将模型与一个基于状态直接进行外推的“预言机”(oracle)进行对比来评估其中一个公式。

与此同时,他们将线性模型和双层神经网络作为预言机,发现结果是相似的。其中,对牛顿状态简单函数的归纳偏倚较差。换言之,该模型的归纳偏置并不倾向于牛顿状态。当它必须进行外推时,它会对状态截然不同的轨道做出相似的预测,而对状态非常相似的轨道则会做出不同的预测。

为此,研究团队通过创建一个序列到序列的数据集来对此进行测试,其中每个输入是一条轨迹,每个输出是“由轨道状态所隐含的作用在行星上的”力向量。

基于此,他们先是针对预训练的 Transformer 进行微调,使其能够预测太阳系轨道上的力向量,并使用 1% 的真实力数据作为训练数据,结果显示这些力预测结果不佳。

为了评估该模型在掌握牛顿万有引力定律方面的接近程度,研究团队进一步对其进行微调,以便在包含 10,000 个太阳系的更大数据集上预测力的大小。

需要说明的是,符号回归是一种通过搜索优化回归类目标的符号表达式的方法。而当研究团队将符号回归用于 Transformer 的预测结果时,得到的物理定律是毫无意义的。基准对比结果显示:基于真实状态训练的 oracle 模型能够精确预测力向量,符号回归则能完整复现真实的物理定律。


(来源:https://arxiv.org/pdf/2507.06952)



基础模型并未习得某一通用物理定律

研究团队表示,基础模型的核心价值在于:序列预测能够揭示对于潜在机制的深层理解。对于本次提出的评估框架来说,它通过分析模型在新任务迁移中的归纳偏差,来验证模型是否习得预设世界模型。

实证结果表明,尽管许多序列模型在 next-token 预测任务中表现出色,但是它们对于真实世界模型的归纳偏置往往有限。本次研究还发现,这些模型并非是在学习连贯的世界模型,而是可能依赖了粗略的状态表征或非简约的表征。

总的来说,本次成果为理解基础模型的缺陷提供了一个方向:如果一个模型的归纳偏置并非倾向于某种已知的现实模型,那么它倾向于什么?

本次分析表明,这些模型实际上所表现出来的行为,更像是开发了无法泛化的任务特定启发式规则。在物理学领域,基础模型并未习得某一通用物理定律,而是会根据所应用的任务采用不同的、看似毫无意义的定律。 目前,相关论文已被 2025 国际机器学习会议(ICML,International Conference on Machine Learning)收录。

需要指出的是,本次研究需要指定一个世界模型,以此来测试基础模型。世界模型需要明确定义的要求,虽与学界共识一致,但却导致模型真实表征机制的溯因分析存在固有局限。尽管研究团队提出了测试候选世界模型的策略(例如基于 next-token 分区的验证方法),但未来研究应该优先开发“能够自动构建基础模型行为中隐式世界模型”的技术。

参考资料:

https://arxiv.org/pdf/2507.06952

https://x.com/keyonV/status/1943730495264584079

https://x.com/keyonV/status/1943730486280331460

https://x.com/keyonV/status/1943730502948511937

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
日本为何不怕中国?日专家:1945年我们对中国投降,是迫于无奈

日本为何不怕中国?日专家:1945年我们对中国投降,是迫于无奈

芳芳历史烩
2025-11-19 13:22:59
42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

姩姩有娱
2025-11-10 17:49:18
日本电视台:中方罕见举动,清楚表明“14亿中国人很愤怒”

日本电视台:中方罕见举动,清楚表明“14亿中国人很愤怒”

互联网大观
2025-11-19 14:46:51
噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

熠熠生辉的生活
2025-11-18 09:14:21
12月1日起执行!人社部重磅新规落地,关乎退休人员养老金和医保

12月1日起执行!人社部重磅新规落地,关乎退休人员养老金和医保

李博世财经
2025-11-19 10:19:04
深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

极目新闻
2025-11-19 10:38:42
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

智东西
2025-11-19 03:25:59
辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

火山诗话
2025-11-19 20:30:15
10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

极目新闻
2025-11-19 15:35:21
喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

叶公子
2025-11-19 19:04:02
《哈佛深红》丨前哈佛大学校长萨默斯追求中国女性时,爱泼斯坦是他的“僚机”

《哈佛深红》丨前哈佛大学校长萨默斯追求中国女性时,爱泼斯坦是他的“僚机”

邸报
2025-11-18 10:03:34
刚刚!日本突发,直线涨停!

刚刚!日本突发,直线涨停!

中国基金报
2025-11-19 15:57:23
网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

红星新闻
2025-11-19 16:18:09
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
美国制裁即将生效 俄罗斯原油价格暴跌至每桶40美元以下!

美国制裁即将生效 俄罗斯原油价格暴跌至每桶40美元以下!

财联社
2025-11-19 16:11:19
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
广东模特冠军的事,后续更加劲爆!

广东模特冠军的事,后续更加劲爆!

麦杰逊
2025-11-19 15:31:05
向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

环球网资讯
2025-11-19 16:29:32
关于预防大规模返乡这事,这些细节都被发现了

关于预防大规模返乡这事,这些细节都被发现了

清晖有墨
2025-11-19 12:39:50
2025-11-19 21:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15877文章数 514310关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

荷兰政府暂停接管安世半导体

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
本地
旅游
亲子
公开课

梦幻西游旭旭宝宝喜提齐天第一笑里鞋,风少偷塔100愤怒水清腰带

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

旅游要闻

最佳观赏期即将结束!河南这些美景错过要再等一年

亲子要闻

不用觉得无法带孩子见世面而亏欠,真正的见世面是去见世界的每一面,可能就在身边

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版