网易首页 > 网易号 > 正文 申请入驻

CMPhysBench发布,评估大语言模型凝聚态物理水平迈向科研级智能

0
分享至



作者 | 论文团队

编辑 | ScienceAI

近年来,大语言模型(LLM)似乎无所不能,以惊人的速度快速应用于文本生成、编程、通用问答和科研领域。大语言模型在具体科学问题上的能力究竟如何?

凝聚态物理问题是一个很好的测试标准,它们往往涉及固体理论、多体物理、量子统计、量子场论和高等量子力学等,还与物质科学、材料科学等高维度、多场调控等复杂物性效应密切相关。在研究生级别的凝聚态物理问题上,常见的模型还能像人类专家一样推理吗?

近日,上海人工智能实验室、中国科学院物理研究所及中国科学院凝聚态物质科学数据中心等多家机构联合发布了 CMPhysBench 评测集。这是全球首个面向凝聚态物理的大模型评测基准,涵盖磁学、超导、强关联系统、半导体、理论基础等六大核心领域,题目均来源于研究生水平教材与专家审核。

研究团队还提出了适用于物理问题答案的 SEED(Scalable Expression Edit Distance)评分体系,可实现对复杂物理推理过程的细粒度评估。实验结果显示,即使是目前最强的大模型 Grok-4,在 CMPhysBench 上的平均 SEED 得分仅为 36,准确率不到 30%,凸显了大模型在前沿物理推理中的显著差距。

该工作也在中国物理学会 2025 秋季会议 (CPS 2025) 上获得最佳墙报奖。



  • 论文链接:https://arxiv.org/pdf/2508.18124
  • 项目主页:https://cmpdc.iphy.ac.cn/benchmarks
  • 代码链接:https://github.com/CMPhysBench/CMPhysBench
  • 数据集链接:https://huggingface.co/datasets/weidawang/CMPhysBench

1. 为什么需要 CMPhysBench?——AI 与硬核科学

近年来,大语言模型(LLM)在自然语言处理、数学推理、编程等任务上展现出令人瞩目的能力。例如,它们能够在奥数题、复杂编程挑战甚至分子设计中取得接近专家的表现。这使得人们对其在科学发现中的应用寄予厚望。因此诞生了很多针对大语言模型的科学测试,但是很多测试题目偏向概念理解和多项选择题。这使得大模型在解决需要长推导的研究生级别物理问题上的能力难以进行有效评估。

物理学 —— 尤其是凝聚态物理 —— 包含了磁性、超导、强关联等,这些都是现代物理学最活跃和最具挑战性的领域,这些领域的问题对模型提出了更严苛的要求:不仅要有复杂的逻辑推理与数学计算能力,还必须深刻理解物理概念与理论框架。凝聚态物理问题往往涉及多体理论、量子统计、量子场论和高等量子力学,这类问题带来的挑战超越了日常语言和基础数学,是检验 LLM 是否真正 「懂世界」,辅助科学研究的理想试金石。现有的科学评测基准多聚焦在中学或本科水平(如 ScienceQA、PHYBench 等),对研究前沿的复杂问题覆盖有限。

因此,我们仍缺乏一个能够真正衡量大模型在研究生级别能力上的标准数据集,CMPhysBench 的诞生,正是为了填补这一空白,具体对比如下表所示:



拓展讨论:为什么选择凝聚态物理?凝聚态物理和人工智能的交汇值得更进一步的挖掘。凝聚态物理研究的是大量相互作用粒子导致的复杂物理。它的思想本源是「More is different」,「多者异也」,「量变引起质变」等多维复杂效应。凝聚态物理研究为人工智能的神经网络提供了基本原理和初始架构,为大语言模型的智能「涌现」提供了「量变引起质变」的思维根源和物理依据。从这个角度说,凝聚态物理是「人工智能 + 科学」的交汇点和发源地。

2. 试卷如何出?一份给大模型的研究生级别的考题 ——CMPhysBench

考试目的:CMPhysBench 是一个面向 凝聚态物理 的全新大模型评测基准,其目标是检验大语言模型在真正科学领域中的推理和计算能力。CMPhysBench 共收录 520 道研究生级别的计算类题目,所有题目均由博士生和博士后研究人员基于 17 本经典教材(如著名的朗道《理论物理学教程》、M. Peskin 与 D. Schroeder 合著的《量子场论导论》,F. Gelis 的《量子场论》与李正中的《固体理论》) 精心整理与改写,并经过专家审核,保证学术严谨性与可操作性。这意味着大语言模型需要掌握更复杂的推理技巧和更深厚广博的物理知识。





考试范围:题目体系完整,覆盖六大核心领域:

1. 电磁学(Magnetism)

2. 超导(Superconductivity)

3. 强关联系统(Strongly Correlated Systems)

4. 半导体(Semiconductors)

5. 理论基础(Theoretical Foundations),涵盖高等量子力学(如复杂薛定谔方程求解和物理体系分析),量子场论(如 Klein-Gordon 场、Dirac 场、路径积分、自发对称性破缺,重整化群)到统计物理(如相变、涨落理论)等广泛主题

6. 其他(Others),包括量子力学中的基础问题与计算技巧,如谐振子、微扰理论、自旋体系等

考试题型:CMPhysBench 全部为开放性计算题,没有选择题,没有填空题,不可以投机取巧!答案形式不仅包括 表达式 和 数值,还涉及方程、区间、元组等多样化类型,更贴近科研人员日常需要解决的推导与计算任务。



3. 如何花式评分?涵盖多种类型的表达式评价方法 ——SEED 评分体系

在评估大模型的物理解题能力时,由于答案具有多样性,如何打分是一个关键难题。传统做法往往采用二元判定(对 / 错),或者依赖简单的表达式比对,但这在凝聚态物理的复杂场景中非常有限,让我们来理一理:

  • Accuracy(准确率):只能判断最终答案对不对,不能定量评估正确性,忽略了「差一点正确」的情况。
  • EED 表达式编辑距离(Expression Edit Distance):通过比较答案的符号树结构来衡量差异,比单纯的字符串匹配更智能,但它在处理复杂的方程、多元组或区间答案时,往往表现不够稳定。对于复杂多样的答案,需要多种多样的处理手法。

为解决这些问题,研究团队提出了的 SEED(Scalable Expression Edit Distance)指标:

1.更全面的答案类型支持:SEED 不仅能处理 表达式(Expression),还支持 方程(Equation)、元组(Tuple)、区间(Interval)、数值(Numeric) 等多种答案形式,实现了对研究生级物理问题更真实的覆盖。

2.细粒度的部分得分:不同于传统的对 / 错判定,SEED 会根据答案和标准解之间的结构差异给出细粒度的部分分。比如:符号写错、边界条件遗漏,SEED 都能识别并合理扣分,而不是直接判「零分」。

3.物理语义感知:SEED 在设计时还特别考虑了物理场景,支持单位换算、科学计数法、四舍五入等常见物理答案格式;能处理 矩阵 / 向量、不等式等复杂符号;自动进行 LaTeX 清洗与归一化,避免因格式差异导致的「误判」。

4.更高的可靠性:在与专家打分的对比实验中,SEED 的一致性最高(Spearman 相关系数 ρ=0.90),显著优于 EED (ρ≈0.7) 和 GPT-4o 审题判分 (ρ≈0.56) 等方法。这意味着 SEED 不仅能看出对错,还能捕捉「接近正确」的推理轨迹,更接近科研人员的思维方式。



4. 最强模型真的能完美解决研究生级别物理问题吗,AI 离真正的「物理学家」还有多远?

这个问题的答案可能并不乐观,现有的大语言模型在解决研究生级别的问题时候犯的错误多种多样,体现出在物理背景知识理解与数学推导等能力上的不足。

通过对 18 个主流大语言模型(包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等)的系统评测,CMPhysBench 揭示了几个重要发现:

首先,大模型在凝聚态物理上的整体表现远低于预期。即使是表现最好的 Grok-4,平均 SEED 得分也只有 36 左右(满分 100 分),专家标注的准确率不足 30%;而多数模型徘徊在 15–25 SEED 区间,正确率更是常常低于 20%。这与它们在数学、编程等任务上的高分形成鲜明对比,说明当前最强的大模型在应对研究级物理问题时存在显著能力鸿沟。



其次,错误分析显示,大模型在凝聚态物理中最常见的错误是概念与物理模型的误用(占比超过 40–50%),其次是数学与逻辑错误(约 20–30%)。例如,有的模型在推导中混淆物理量的定义,有的则在代数运算或近似处理上犯下低级错误。这些错误反映出模型在物理概念把握和符号操作上的双重不足。



最后,不同领域的表现差异明显。如下图所示,Grok-4 在超导与理论基础题目上领先,但在强关联系统中显著下滑;Gemini 2.5 Pro 在半导体问题上表现较强;而 DeepSeek-R1 在强关联系统中反而取得了最高分。这说明不同模型在物理分支领域的能力并不均衡,凸显了未来进行「学科定向优化」的必要性。

在未来,需要更加专门的数据和训练方法才能让大模型在这些实践性强且前沿的区域成为人类的好助理。



5. CMPhysBench—— 让大语言模型离前沿基础科学更近一步

CMPhysBench 的意义在于三方面:

  • 科研价值:它是首个专注于研究生级别凝聚态物理的系统性评测基准,填补了现有物理类基准「只到高中 / 本科」的空白,让大模型真正接受更高层次级别的检验。
  • 方法论突破:团队提出的 SEED 评分体系,不仅能精确衡量复杂物理解答的对错,还能推广到数学、工程等其他 STEM 领域,为未来的精细化评测提供了新思路。
  • 对 AI 社区的启发:结果显示,即便是最先进的大规模语言模型(LLM),其在凝聚态物理领域的问题处理能力依然欠佳。这提醒我们,大模型要真正「懂物理」,还需引入物理感知、符号工具以及科学化的监督。

未来改进的方向包括:在模型推理过程中引入物理定律约束、结合符号 / 数值计算工具、开展逐步监督训练,并基于 SEED 提供过程化反馈进行后训练,从而让模型更懂物理,更加贴近科研工作。

结语

CMPhysBench 是大模型在凝聚态物理、材料科学等前沿科学领域的第一张试卷。作为「试金石」,它告诉我们大模型在具体物理问题上的智能水平;作为未来的「垫脚石」,它也展示了通用人工智能进一步改进的方向,为 AI 赋能科学 (AI for Science),科学促进 AI (Science for AI) 提供了一个重要的示范和基准。

你认为大语言模型多久才能成为真正可靠的全科科研助理,在更复杂的「考试」中取得高分?欢迎在评论区留下自己的看法。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

街声巷闻
2025-11-17 14:36:54
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
聚焦“十五五”规划建议|保持制造业合理比重

聚焦“十五五”规划建议|保持制造业合理比重

新华社
2025-11-17 15:54:02
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

极目新闻
2025-11-18 15:19:03
捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

鹰眼Defence
2025-11-18 17:53:12
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

带你逛体坛
2025-11-18 18:34:10
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
日韩股市,开盘暴跌!

日韩股市,开盘暴跌!

证券时报
2025-11-18 09:47:04
湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

体育妞世界
2025-11-18 14:08:30
乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

君好伴读
2025-10-27 10:33:08
付某梅(女),已被大连警方抓获归案!

付某梅(女),已被大连警方抓获归案!

半岛晨报
2025-11-18 12:40:05
因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

起喜电影
2025-11-18 15:29:35
赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

火山诗话
2025-11-18 18:36:08
华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

手机中国
2025-11-18 16:50:44
钟丽缇168cm的大块头,一般男人征服不了她吧?

钟丽缇168cm的大块头,一般男人征服不了她吧?

小椰的奶奶
2025-11-18 13:14:26
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
2025-11-18 19:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

艺术
本地
旅游
数码
公开课

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

旅游要闻

新疆新源县:萨哈景区初雪至 冰雪秘境引客来

数码要闻

天马全球首发真610Hz无极电竞屏,还有108英寸4K巨幕Micro LED

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版