![]()
作者 | 论文团队
编辑 | ScienceAI
近年来,大语言模型(LLM)似乎无所不能,以惊人的速度快速应用于文本生成、编程、通用问答和科研领域。大语言模型在具体科学问题上的能力究竟如何?
凝聚态物理问题是一个很好的测试标准,它们往往涉及固体理论、多体物理、量子统计、量子场论和高等量子力学等,还与物质科学、材料科学等高维度、多场调控等复杂物性效应密切相关。在研究生级别的凝聚态物理问题上,常见的模型还能像人类专家一样推理吗?
近日,上海人工智能实验室、中国科学院物理研究所及中国科学院凝聚态物质科学数据中心等多家机构联合发布了 CMPhysBench 评测集。这是全球首个面向凝聚态物理的大模型评测基准,涵盖磁学、超导、强关联系统、半导体、理论基础等六大核心领域,题目均来源于研究生水平教材与专家审核。
研究团队还提出了适用于物理问题答案的 SEED(Scalable Expression Edit Distance)评分体系,可实现对复杂物理推理过程的细粒度评估。实验结果显示,即使是目前最强的大模型 Grok-4,在 CMPhysBench 上的平均 SEED 得分仅为 36,准确率不到 30%,凸显了大模型在前沿物理推理中的显著差距。
该工作也在中国物理学会 2025 秋季会议 (CPS 2025) 上获得最佳墙报奖。
![]()
- 论文链接:https://arxiv.org/pdf/2508.18124
- 项目主页:https://cmpdc.iphy.ac.cn/benchmarks
- 代码链接:https://github.com/CMPhysBench/CMPhysBench
- 数据集链接:https://huggingface.co/datasets/weidawang/CMPhysBench
1. 为什么需要 CMPhysBench?——AI 与硬核科学
近年来,大语言模型(LLM)在自然语言处理、数学推理、编程等任务上展现出令人瞩目的能力。例如,它们能够在奥数题、复杂编程挑战甚至分子设计中取得接近专家的表现。这使得人们对其在科学发现中的应用寄予厚望。因此诞生了很多针对大语言模型的科学测试,但是很多测试题目偏向概念理解和多项选择题。这使得大模型在解决需要长推导的研究生级别物理问题上的能力难以进行有效评估。
物理学 —— 尤其是凝聚态物理 —— 包含了磁性、超导、强关联等,这些都是现代物理学最活跃和最具挑战性的领域,这些领域的问题对模型提出了更严苛的要求:不仅要有复杂的逻辑推理与数学计算能力,还必须深刻理解物理概念与理论框架。凝聚态物理问题往往涉及多体理论、量子统计、量子场论和高等量子力学,这类问题带来的挑战超越了日常语言和基础数学,是检验 LLM 是否真正 「懂世界」,辅助科学研究的理想试金石。现有的科学评测基准多聚焦在中学或本科水平(如 ScienceQA、PHYBench 等),对研究前沿的复杂问题覆盖有限。
因此,我们仍缺乏一个能够真正衡量大模型在研究生级别能力上的标准数据集,CMPhysBench 的诞生,正是为了填补这一空白,具体对比如下表所示:
![]()
拓展讨论:为什么选择凝聚态物理?凝聚态物理和人工智能的交汇值得更进一步的挖掘。凝聚态物理研究的是大量相互作用粒子导致的复杂物理。它的思想本源是「More is different」,「多者异也」,「量变引起质变」等多维复杂效应。凝聚态物理研究为人工智能的神经网络提供了基本原理和初始架构,为大语言模型的智能「涌现」提供了「量变引起质变」的思维根源和物理依据。从这个角度说,凝聚态物理是「人工智能 + 科学」的交汇点和发源地。
2. 试卷如何出?一份给大模型的研究生级别的考题 ——CMPhysBench
考试目的:CMPhysBench 是一个面向 凝聚态物理 的全新大模型评测基准,其目标是检验大语言模型在真正科学领域中的推理和计算能力。CMPhysBench 共收录 520 道研究生级别的计算类题目,所有题目均由博士生和博士后研究人员基于 17 本经典教材(如著名的朗道《理论物理学教程》、M. Peskin 与 D. Schroeder 合著的《量子场论导论》,F. Gelis 的《量子场论》与李正中的《固体理论》) 精心整理与改写,并经过专家审核,保证学术严谨性与可操作性。这意味着大语言模型需要掌握更复杂的推理技巧和更深厚广博的物理知识。
![]()
![]()
考试范围:题目体系完整,覆盖六大核心领域:
1. 电磁学(Magnetism)
2. 超导(Superconductivity)
3. 强关联系统(Strongly Correlated Systems)
4. 半导体(Semiconductors)
5. 理论基础(Theoretical Foundations),涵盖高等量子力学(如复杂薛定谔方程求解和物理体系分析),量子场论(如 Klein-Gordon 场、Dirac 场、路径积分、自发对称性破缺,重整化群)到统计物理(如相变、涨落理论)等广泛主题
6. 其他(Others),包括量子力学中的基础问题与计算技巧,如谐振子、微扰理论、自旋体系等
考试题型:CMPhysBench 全部为开放性计算题,没有选择题,没有填空题,不可以投机取巧!答案形式不仅包括 表达式 和 数值,还涉及方程、区间、元组等多样化类型,更贴近科研人员日常需要解决的推导与计算任务。
![]()
3. 如何花式评分?涵盖多种类型的表达式评价方法 ——SEED 评分体系
在评估大模型的物理解题能力时,由于答案具有多样性,如何打分是一个关键难题。传统做法往往采用二元判定(对 / 错),或者依赖简单的表达式比对,但这在凝聚态物理的复杂场景中非常有限,让我们来理一理:
- Accuracy(准确率):只能判断最终答案对不对,不能定量评估正确性,忽略了「差一点正确」的情况。
- EED 表达式编辑距离(Expression Edit Distance):通过比较答案的符号树结构来衡量差异,比单纯的字符串匹配更智能,但它在处理复杂的方程、多元组或区间答案时,往往表现不够稳定。对于复杂多样的答案,需要多种多样的处理手法。
为解决这些问题,研究团队提出了的 SEED(Scalable Expression Edit Distance)指标:
1.更全面的答案类型支持:SEED 不仅能处理 表达式(Expression),还支持 方程(Equation)、元组(Tuple)、区间(Interval)、数值(Numeric) 等多种答案形式,实现了对研究生级物理问题更真实的覆盖。
2.细粒度的部分得分:不同于传统的对 / 错判定,SEED 会根据答案和标准解之间的结构差异给出细粒度的部分分。比如:符号写错、边界条件遗漏,SEED 都能识别并合理扣分,而不是直接判「零分」。
3.物理语义感知:SEED 在设计时还特别考虑了物理场景,支持单位换算、科学计数法、四舍五入等常见物理答案格式;能处理 矩阵 / 向量、不等式等复杂符号;自动进行 LaTeX 清洗与归一化,避免因格式差异导致的「误判」。
4.更高的可靠性:在与专家打分的对比实验中,SEED 的一致性最高(Spearman 相关系数 ρ=0.90),显著优于 EED (ρ≈0.7) 和 GPT-4o 审题判分 (ρ≈0.56) 等方法。这意味着 SEED 不仅能看出对错,还能捕捉「接近正确」的推理轨迹,更接近科研人员的思维方式。
![]()
4. 最强模型真的能完美解决研究生级别物理问题吗,AI 离真正的「物理学家」还有多远?
这个问题的答案可能并不乐观,现有的大语言模型在解决研究生级别的问题时候犯的错误多种多样,体现出在物理背景知识理解与数学推导等能力上的不足。
通过对 18 个主流大语言模型(包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等)的系统评测,CMPhysBench 揭示了几个重要发现:
首先,大模型在凝聚态物理上的整体表现远低于预期。即使是表现最好的 Grok-4,平均 SEED 得分也只有 36 左右(满分 100 分),专家标注的准确率不足 30%;而多数模型徘徊在 15–25 SEED 区间,正确率更是常常低于 20%。这与它们在数学、编程等任务上的高分形成鲜明对比,说明当前最强的大模型在应对研究级物理问题时存在显著能力鸿沟。
![]()
其次,错误分析显示,大模型在凝聚态物理中最常见的错误是概念与物理模型的误用(占比超过 40–50%),其次是数学与逻辑错误(约 20–30%)。例如,有的模型在推导中混淆物理量的定义,有的则在代数运算或近似处理上犯下低级错误。这些错误反映出模型在物理概念把握和符号操作上的双重不足。
![]()
最后,不同领域的表现差异明显。如下图所示,Grok-4 在超导与理论基础题目上领先,但在强关联系统中显著下滑;Gemini 2.5 Pro 在半导体问题上表现较强;而 DeepSeek-R1 在强关联系统中反而取得了最高分。这说明不同模型在物理分支领域的能力并不均衡,凸显了未来进行「学科定向优化」的必要性。
在未来,需要更加专门的数据和训练方法才能让大模型在这些实践性强且前沿的区域成为人类的好助理。
![]()
5. CMPhysBench—— 让大语言模型离前沿基础科学更近一步
CMPhysBench 的意义在于三方面:
- 科研价值:它是首个专注于研究生级别凝聚态物理的系统性评测基准,填补了现有物理类基准「只到高中 / 本科」的空白,让大模型真正接受更高层次级别的检验。
- 方法论突破:团队提出的 SEED 评分体系,不仅能精确衡量复杂物理解答的对错,还能推广到数学、工程等其他 STEM 领域,为未来的精细化评测提供了新思路。
- 对 AI 社区的启发:结果显示,即便是最先进的大规模语言模型(LLM),其在凝聚态物理领域的问题处理能力依然欠佳。这提醒我们,大模型要真正「懂物理」,还需引入物理感知、符号工具以及科学化的监督。
未来改进的方向包括:在模型推理过程中引入物理定律约束、结合符号 / 数值计算工具、开展逐步监督训练,并基于 SEED 提供过程化反馈进行后训练,从而让模型更懂物理,更加贴近科研工作。
结语
CMPhysBench 是大模型在凝聚态物理、材料科学等前沿科学领域的第一张试卷。作为「试金石」,它告诉我们大模型在具体物理问题上的智能水平;作为未来的「垫脚石」,它也展示了通用人工智能进一步改进的方向,为 AI 赋能科学 (AI for Science),科学促进 AI (Science for AI) 提供了一个重要的示范和基准。
你认为大语言模型多久才能成为真正可靠的全科科研助理,在更复杂的「考试」中取得高分?欢迎在评论区留下自己的看法。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.