网易首页 > 网易号 > 正文 申请入驻

港科大&英伟达提出NewtonBench:在「平行宇宙」中评估大模型科学发现能力

0
分享至


来源:ScienceAI

作者论文团队

编辑ScienceAI

随着大语言模型(Large Language Models, LLMs)推理能力的提升,其在自动化科学发现(Automatic Scientific Discovery)领域的潜力也引发了学术界与公众的广泛关注。AI 领域知名学者何恺明曾在一次访谈中提出一个引人深思的问题:「以当前大模型的智能水平,若将其置于牛顿时代,它能否独立发现牛顿物理定律?」

然而,评估这种能力面临诸多挑战。首先,现实世界中的科学定律已广泛存在于大模型的训练语料中,直接评估难以避免数据泄漏问题。其次,当前的评估方法通常依赖于在静态数据表格中归纳等式,无法真实反映实际科研中通过设计实验获取数据以进行探索性研究的本质。

为此,来自香港科技大学和英伟达的研究者提出了 NewtonBench—— 一个具备强泛化能力、旨在模拟真实实验探索环境的科学定律发现基准(Scientific Law Discovery Benchmark)。


论文地址:https://arxiv.org/pdf/2510.07172

代码地址:https://github.com/HKUST-KnowComp/NewtonBench

NewtonBench 覆盖了 12 个物理领域,其核心创新在于通过「形而上学变换(metaphysical shift)」将已知物理定律转换为全新的定律,从而有效规避了数据泄漏问题,能够更真实地评估大模型的原始推理能力。

此外,NewtonBench 为每个物理定律的发现过程提供了沙盒化的实验环境。大模型可以在其中自主设定实验参数,执行不同复杂度的实验任务,并从环境中获取反馈数据。这种高度模拟真实科学研究流程的设计,显著提升了评估结果的实际意义。

该研究对 11 个领先的大语言模型进行了基准测试,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

评测结果显示,非推理模型(如 GPT-4.1、DeepSeek-V3)表现普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)则展现出显著差异。在复杂实验环境下,表现最优的 GPT-5 和 Gemini-2.5-Pro 的定律发现准确率分别为 29.9% 和 13.9%,而其他模型的准确率均低于 5%。这充分凸显了强大的推理能力对于科学定律发现的关键作用。

研究还深入分析发现,为模型额外提供代码解释器工具(Code Interpreter Tool) 可以帮助能力较弱的模型突破计算瓶颈,但可能导致能力较强的模型产生过度依赖,反而抑制其自主探索的效率。

目前,NewtonBench 的评测数据集与评测代码已全部开源。

NewtonBench 基准构建

物理法则构建

NewtonBench 包含 324 个物理定律发现任务,覆盖力学、电磁学、热力学等 12 个物理领域。其核心构建方法是:以真实物理定律为基础,在「形而上学变换(metaphysical shift)」框架下,通过等式变换操作(mutation operation)生成衍生定律。根据变换步骤的复杂度及其引入的泛化需求,任务被划分为简单、中等、困难三个难度等级。


实验环境构建

对于每个物理定律,NewtonBench 提供三种不同复杂度的实验环境。在简单实验环境中,实验的输入与输出参数完全对齐目标物理定律的表达形式,接近于理想的符号回归(symbolic regression) 场景。而在中等及复杂难度环境中,目标物理定律仅隐含于部分实验数据中。例如:要求模型通过两个小球沿直线相向运动的观测数据,推导出引力与距离、质量的函数关系。

大模型可通过函数调用(function calling)机制执行实验操作,并从环境动态获取实验结果。模型最多可进行 10 轮实验交互,最终需提交其推导出的物理定律表达式。


实验结果

研究人员对 11 个前沿大语言模型 进行了系统评测,采用符号准确率(Symbolic Accuracy) 和 均方根对数误差(Root Mean Squared Logarithmic Error, RMSLE) 作为核心评估指标。实验结果表明:

1. 非推理模型整体表现欠佳,即使在最简单的实验设定下,其符号准确率也仅处于 20%-50% 的区间;

2. 推理模型(如 GPT-5、DeepSeek-R1)凭借其强大的复杂推理与数学运算能力,在简单场景下的符号准确率普遍突破 80%;

3. 随着实验复杂度提升,推理模型间的性能差距显著扩大。在最具挑战性的「困难定律 + 复杂实验」场景下:

  • 性能领先的 GPT-5 和 Gemini-2.5-Pro 符号准确率分别仅为 29.9% 和 13.9%;

  • 其余模型的准确率均低于 5%,显示出任务难度的陡增特性。


值得注意的是,代码执行工具的辅助效果呈现出显著的分化现象:

  • 对于较弱模型(符号准确率 < 40%),代码工具可带来显著性能提升;

  • 然而对于较强模型,代码辅助均产生负面效应。

这一矛盾现象促使研究人员开展了深度归因分析。

代码辅助效果分析

研究人员选取了四个代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通过控制代码调用权限数量展开对比实验。结果显示,当两个高性能模型初步获得代码权限时,准确率均出现显著下滑。进一步分析模型决策文本中的探索(exploration)与利用(exploitation)关键词频发现:性能骤降的 Gemini-2.5-Flash 在使用代码后,探索类词汇出现频率急剧下降;而受益于代码辅助的 Qwen-3-235B 则保持稳定的探索倾向。这表明代码工具的引入导致部分模型发生推理范式偏移 —— 从开放探索转向对代码工具的过度依赖,最终削弱其定律发现能力。

此外,研究人员深度解析了 GPT-4.1 与 GPT-5-Mini 的代码使用模式。在 GPT-4.1 中,45.4% 的代码调用集中于数值计算环节,而该比例在 GPT-5-Mini 中降至 16.5%。与之形成鲜明对比的是,GPT-5-Mini 将 69.4% 的代码资源投入函数拟合(function fitting)过程。这一发现印证了核心观点:对于基础模型,代码工具有效突破其计算瓶颈;但高性能模型将其大量用于快速获取局部最优解,反而抑制了对全局最优定律的探索空间。


总结

NewtonBench 的评测结果系统揭示了当前大模型科学发现能力的核心瓶颈:前沿推理模型虽能推演预设场景中的已知定律变体,但其泛化能力在面对复杂物理定律及实验环境时呈现系统性衰减。

尤为关键的是,代码工具在辅助基础模型突破计算瓶颈的同时,却显著抑制了高性能模型(如 GPT-5 等)的自主探索倾向,致使其陷入局部最优陷阱。这充分表明,现有 AI 的科学发现能力存在内在脆弱性且易受工具范式干扰。

未来研究亟需构建可动态平衡探索与利用的认知架构,并将评估体系拓展至真实科研流程模拟 —— 涵盖未知定律发现、动态实验设计及可证伪性验证,方有望锻造出具备本征科学智能的新一代人工智能系统。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
媒体人:篮协逐渐恢复全面管理CBA 已无人提管办分离

媒体人:篮协逐渐恢复全面管理CBA 已无人提管办分离

林子说事
2025-11-02 14:11:41
中美刚宣布休战一年,白宫又掀桌,美财长通知31国,出手对付中国

中美刚宣布休战一年,白宫又掀桌,美财长通知31国,出手对付中国

吴欣纯Deborah
2025-11-01 17:49:04
红军城乌军开始投降了

红军城乌军开始投降了

那山星火
2025-11-02 08:37:08
网络毒鸡汤的代价终于来了!大龄剩女泛滥,捞女现象屡见不鲜

网络毒鸡汤的代价终于来了!大龄剩女泛滥,捞女现象屡见不鲜

诗词中国
2025-09-18 14:05:15
马斯克:明年二季度量产的特斯拉 Cybercab 无方向盘和踏板

马斯克:明年二季度量产的特斯拉 Cybercab 无方向盘和踏板

IT之家
2025-11-02 16:40:35
上海警方:全市严查!一周内多人被罚!

上海警方:全市严查!一周内多人被罚!

极目新闻
2025-11-02 10:54:57
坎宁安21+17胜独行侠!水拉轰31+7尽力,弗拉格14投11铁被用废了

坎宁安21+17胜独行侠!水拉轰31+7尽力,弗拉格14投11铁被用废了

你的篮球频道
2025-11-02 12:57:38
李云迪X侵司晓迪的后续瓜!

李云迪X侵司晓迪的后续瓜!

八卦疯叔
2025-11-01 10:50:45
事关黄金税收,两部门重磅发布!对个人购买黄金有何影响?是否会影响金价?专家解读

事关黄金税收,两部门重磅发布!对个人购买黄金有何影响?是否会影响金价?专家解读

每日经济新闻
2025-11-02 00:18:10
陈志究竟是谁的棋子?

陈志究竟是谁的棋子?

犀利辣椒
2025-11-02 06:21:35
马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

懂球帝
2025-11-02 09:26:05
台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

扶苏聊历史
2025-10-30 13:39:37
俄媒:红军城被围乌军已开始投降

俄媒:红军城被围乌军已开始投降

参考消息
2025-11-02 09:58:05
马斯克逆袭哲学:你每天躺着不运动不学习不挣钱,你离完蛋不远

马斯克逆袭哲学:你每天躺着不运动不学习不挣钱,你离完蛋不远

杏花烟雨江南的碧园
2025-10-31 16:30:03
蛇为什么要冬眠?80%的人不知道,蛇冬眠有可能成为老鼠的盘中餐

蛇为什么要冬眠?80%的人不知道,蛇冬眠有可能成为老鼠的盘中餐

瑶卿文史
2025-10-29 22:39:56
男子在百人群分享125部淫秽视频链接!判了!

男子在百人群分享125部淫秽视频链接!判了!

闪电新闻
2025-11-02 09:32:23
刘强东章泽天出席会议照片被抓拍,刘强东发朋友圈:这是哪个企业家给我拍的照片?

刘强东章泽天出席会议照片被抓拍,刘强东发朋友圈:这是哪个企业家给我拍的照片?

潇湘晨报
2025-11-02 08:41:28
全球最安全城市排名出炉:旧金山第15,中国未上榜!

全球最安全城市排名出炉:旧金山第15,中国未上榜!

凑近看世界
2025-10-31 14:53:52
中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

解读热点事件
2025-10-24 00:20:03
2025-11-02 18:08:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4296文章数 37332关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"吉林一号":对台湾省进行全方位拍摄 是非常轻松的事

头条要闻

"吉林一号":对台湾省进行全方位拍摄 是非常轻松的事

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
健康
房产
手机
教育

推广|| 每天都在穿!这件外套,轻松搞定秋冬所有搭配

核磁VS肌骨超声,谁更胜一筹?

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

手机要闻

同样开售三天,小米、vivo、荣耀、OPPO新旗舰销量对比

教育要闻

数字太大,课代表无能为力?思维难题

无障碍浏览 进入关怀版