网易首页 > 网易号 > 正文 申请入驻

北大物院200人合作,金牌得主超50人!大模型究竟能不能懂物理?

0
分享至


本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京大学计算中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。

PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。

在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 “超越人类专家”。

但是,随着模型能力和评测基准的军备竞赛白热化,越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。这些题目虽然能 “区分” 模型,但是逐渐脱离实际场景,可能难以真正反映模型的实际表现。

近日,北京大学物理学院联合人工智能研究院等多个院系,推出了全新评测基准 PHYBench。PHYBench 包含 500 道经过精心设计的高质量物理题(如图 1),难度横跨高中物理、大学物理以及物理奥林匹克竞赛。这些题目以真实的物理场景为基础,对人类来说并不抽象,却把一众大模型考得七零八落。大模型在解决物理题时的思维链也暴露了它们在感知(Perception)和推理(Reasoning)能力上的缺陷。

  • 论文链接:https://arxiv.org/abs/2504.16074
  • 项目网址:https://phybench-official.github.io/phybench-demo/
  • 数据集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也许,物理才是最适合考察 AI 推理能力的学科?PHYBench 的尝试为评估大模型真正有效的推理能力提供了全新的工具和视角。

图 1:题目样例与两种评估方法:表达式树编辑距离、正确率。

表 1:与现有 benchmark 对比,PHYBench 在高难度数据集中,有着相对大的规模,同时引入了创新的分数度量:表达式树编辑距离。

评测方法创新

表达式树编辑距离(EED Score)

传统基准通常依赖 Accuracy 这一单一指标:设置唯一正确答案,模型只有在完全匹配时才能得分。为了方便评分,问答题通常被改写成选择题或要求代入数值。这样会导致答案的信息量被严重压缩,而且给出过多条件可能导致模型 “根据选项猜过程”,或者缺乏使用解析表达式表达普适关系的能力。同时在高难度的样本上,0/1 打分会使得所有模型在分数层面都被归零,强弱差异无从体现。

EED Score(Expression‑tree Edit Distance)带来了更贴近人类阅卷的方案。它将数学表达式解析成表达式树,再计算模型答案与参考答案之间的编辑距离:树的结构越接近,得分越高。这一机制输出的是连续、细粒度的分数,能在更多题目上显示区分度,显著提高了统计效力。

实验表明,采用 EED Score 的 500 题,其区分能力相当于 1500 道使用 0/1 Accuracy 的题目。上图(图 1)展示了同一道题三种不同答案在 Accuracy 与 EED Score 下的对比:前者只能给出 “全错 / 全对” 的粗糙评价,而后者则定量刻画了模型解答与正确答案之间的 “距离”。

实验结果

前沿模型与人类专家的差距

PHYBench 团队招募了 81 名北大学子,在 3 小时时限内做 8 道题目,与最先进的 AI 模型展开了一场 "人机大战"。

结果显示,即使是最强的 Gemini 2.5 pro,也只能答对 36.9% 的题目,EED 评分 49.5%。而 “人类专家” 们则轻松碾压,平均正确率高达 61.9%,EED 评分高达 70.5%。排名前 25% 的受试者更是达到了 71.4% 的正确率 —— 几乎是最强 AI 的两倍。其他模型与人类的差距则更为显著。这一显著差距揭示了现阶段 LLM 在在物理推理场景中的瓶颈。

PHYBench 对模型的能力也进行了细粒度的对比。可以看到,Gemini 2.5 pro、o3 等强推理模型虽然和人类还有较大差距,但是相比前代推理模型已经有了明显的进步。DeepSeek-V3 等基座模型虽未能超越主流推理模型,但也展现出了亮眼的成绩。QwQ-32B 和 DeepSeek32B 蒸馏模型等小型推理模型在 PHYBench 上的表现很令人失望,这可能归因于其物理感知能力的不足。

基于思维链的错因分析:PP × RR

PHYBench 团队对模型的错误进行了系统性总结分析,将模型的推理过程和推理能力划分为了两个关键模块:物理感知(Physical Perception,PP)和鲁棒推理(Robust Reasoning,RR):

  • 物理感知(PP):在此阶段,模型进行密集的文字推理,模型需要识别问题相关的物理对象、变量和动力学关系,定性判断哪些物理效应是重要的,哪些可以忽略不计。若 PP 出错,后续整个推理都会偏离轨道。(示例 1 展示典型 PP 失误)
  • 鲁棒推理(RR):在此阶段,模型写下大量的 “草稿”,一步步化简表达式,解方程。现阶段的推理模型在此阶段的推理效率尚不高,“草稿” 长度远长于人类,而且经常犯 “低级错误”。(示例 2 展示典型 RR 失误)

PP 和 RR 交替进行,组成了典型的物理解题思维链。

未来展望

推动 AI 的物理理解与推理能力发展

PHYBench 的愿景远不止于 “评测”,更在于 “引领” AI 探索物理世界的无限可能。

PHYBench 的发布,不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准,更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景,旨在深度激发并验证 AI 理解世界并进行可靠推理的能力,推动 AI 系统真正实现对世界的认知、融入与变革。

面向未来,PHYBench 团队将持续致力于数据集的拓展与创新,计划纳入更多前沿物理课题、跨学科交叉内容,甚至挑战人类尚未解开的科学谜题。我们相信,通过提供更具深度和广度的物理挑战,PHYBench 将有力催化 AI 向着突破认知边界、探索未知领域的 “智能伙伴” 或 “超级助手” 发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不打垮中国不罢休?内鬼身份曝光让人意想不到!好在结局大快人心

不打垮中国不罢休?内鬼身份曝光让人意想不到!好在结局大快人心

飘逸语人
2026-07-01 02:11:14
国务院出手!义务教育要延长,中考改革大动作来了

国务院出手!义务教育要延长,中考改革大动作来了

手工制作阿爱
2026-06-30 20:26:19
记者:勇士希望先得到詹姆斯的加盟承诺,然后再着手浓眉交易

记者:勇士希望先得到詹姆斯的加盟承诺,然后再着手浓眉交易

懂球帝
2026-07-01 11:25:11
7月1日凌晨美国大满贯:女单16强出炉!张本美和剃头,韩莹轰11-2

7月1日凌晨美国大满贯:女单16强出炉!张本美和剃头,韩莹轰11-2

观察鉴娱
2026-07-01 11:03:16
奇迹!80岁重度阿尔茨海默老妇,吃了一口蘑菇后竟然好了几周?

奇迹!80岁重度阿尔茨海默老妇,吃了一口蘑菇后竟然好了几周?

徐德文科学频道
2026-06-30 08:21:43
小沈阳女儿沈佳润化次妆3.8万你以为天价?杨紫妆造10万都是少说

小沈阳女儿沈佳润化次妆3.8万你以为天价?杨紫妆造10万都是少说

白宸侃片
2026-06-30 08:16:49
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
豆包,开始学智谱

豆包,开始学智谱

定焦One
2026-07-01 11:58:26
罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

MUREDS
2026-07-01 02:20:44
致命一击!俄罗斯终下狠手,俄乌迎来重大转折!

致命一击!俄罗斯终下狠手,俄乌迎来重大转折!

大嘴说天下
2026-06-30 22:12:15
德国极右翼彻底反了!魏德尔:恢复德俄关系,竞选总理

德国极右翼彻底反了!魏德尔:恢复德俄关系,竞选总理

霁寒飘雪
2026-07-01 11:54:39
小泉进次郎暴跳如雷!要求中国给出解释,多部门集体对华提出抗议

小泉进次郎暴跳如雷!要求中国给出解释,多部门集体对华提出抗议

秋枫凋零
2026-07-01 08:46:20
主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

早起的鸟儿有饭吃
2026-07-01 10:46:24
詹皇为何离开湖人?两个原因是关键!下家三选一:组五星豪阵冲冠

詹皇为何离开湖人?两个原因是关键!下家三选一:组五星豪阵冲冠

你的篮球频道
2026-07-01 05:44:47
姆巴佩:我不会看射手榜,相信梅西还会继续进球

姆巴佩:我不会看射手榜,相信梅西还会继续进球

懂球帝
2026-07-01 08:37:30
欧洲人感叹:中国发展让发达国家‘活成猪狗不如’

欧洲人感叹:中国发展让发达国家‘活成猪狗不如’

今日搞笑分享
2026-07-01 09:39:50
日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

探史
2026-06-19 11:11:17
乌军总司令说了实话,不要认为俄军被削弱!半年损失11套海马斯

乌军总司令说了实话,不要认为俄军被削弱!半年损失11套海马斯

阿讯说天下
2026-07-01 13:39:13
回国后我才敢说:俄罗斯小孩看中国人的眼神,和老人态度截然不同

回国后我才敢说:俄罗斯小孩看中国人的眼神,和老人态度截然不同

复转这些年
2026-05-24 16:38:35
33岁章泽天谈“死亡”,想满足3个条件,只谈3个孩子绝口不提老公

33岁章泽天谈“死亡”,想满足3个条件,只谈3个孩子绝口不提老公

椰黄娱乐
2026-07-01 11:12:44
2026-07-01 14:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13408文章数 142685关注度
往期回顾 全部

教育要闻

姐姐前100!妹妹前300!今年高考,北京这对双胞胎姐妹火了!

头条要闻

墨西哥2-0战胜厄瓜多尔 世界杯第二张捂嘴红牌出现

头条要闻

墨西哥2-0战胜厄瓜多尔 世界杯第二张捂嘴红牌出现

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

科技要闻

Claude Fable 5恢复上线方案公布

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

本地
数码
游戏
家居
手机

本地新闻

贵州小城的新目标:举办“村超”世界杯!

数码要闻

iQOO Pad5c平板电脑发布:第三代骁龙8s处理器,2699元起

"蟹老板"加盟 《赛博朋克:边缘行者2》配音阵容揭晓

家居要闻

传奇筑 日常诗

手机要闻

消息称苹果iPhone 17生产计划削减15%,或为涨价做准备

无障碍浏览 进入关怀版