物理学AI的新考验：凝聚态物理难倒了世界最强大脑模型|数学|科学|磁学

分享至

由上海人工智能实验室领导、联合中科院物理所、复旦大学、同济大学等多家科研机构的研究团队最近发布了一项引人深思的研究成果。这项研究发表于2025年8月，完整论文可通过GitHub链接https://github.com/CMPhysBench/CMPhysBench获取。研究团队构建了一个专门针对凝聚态物理的评测基准CMPhysBench，用来检验当前最强大的AI模型在这个物理学分支上的真实水平。

说起凝聚态物理，这个名字听起来就很高深，但其实它研究的是我们身边最常见的东西——固体和液体的各种奇妙性质。比如为什么磁铁能吸引铁片，为什么有些材料在极低温度下会变成超导体，为什么半导体芯片能够处理信息。这些看似平凡却又神奇的现象，正是凝聚态物理要解开的谜团。

这项研究的重要性在于，它第一次系统性地测试了AI在这个需要深度物理直觉和复杂数学推理的领域中的表现。研究团队精心设计了520道研究生水平的物理题目，涵盖了磁学、超导、强关联系统、半导体等核心领域。更有趣的是，他们还开发了一种全新的评分方法，叫做可扩展表达式编辑距离（SEED），这种方法能够更准确地判断AI的答案是否正确，即使答案的表达方式与标准答案略有不同。

测试结果令人意外：即使是目前最强的AI模型Grok-4，平均得分也只有36分，准确率仅为28%。这个数字让人不禁思考，AI在科学推理方面还有多远的路要走。

一、凝聚态物理的独特挑战

凝聚态物理就像是自然界的魔法师，它能让平凡的材料展现出不可思议的性质。当你用手机充电时，电流在半导体材料中的流动遵循着量子力学的精妙规律。当医院的核磁共振设备工作时，超导磁体在接近绝对零度的环境下创造出强大的磁场。这些现象背后都有着深刻的物理原理。

研究团队选择凝聚态物理作为AI测试的战场，并非偶然。这个领域结合了量子力学、统计物理、固体物理等多个分支的知识，需要研究者具备强大的数学推理能力和深刻的物理直觉。更重要的是，这个领域的问题往往需要多步骤的复杂计算，每一步都可能影响最终结果的正确性。

比如在计算某种磁性材料的性质时，研究者需要先建立哈密顿量模型，然后应用格林函数方法求解，最后通过各种近似方法得到可观测的物理量。这个过程就像是在黑暗中拼装一个复杂的机械装置，需要对每个零件的作用和它们之间的关系有深入的理解。

CMPhysBench包含了六个主要研究方向。磁学研究磁性材料如何产生磁场以及磁场如何影响材料性质，就像研究为什么指南针总是指向北方。超导研究材料在低温下电阻完全消失的神奇现象，这就像找到了电流的"高速公路"。强关联系统探讨电子之间强烈相互作用产生的复杂现象，仿佛研究一群紧密合作但又相互制约的舞者。半导体研究控制电子流动的材料，这些材料是所有电子设备的基础。理论基础部分涵盖了支撑整个领域的数学框架，就像建筑的地基。其他类别则包括量子力学、统计物理等基础理论。

二、挑战AI的520道难题

研究团队从17本权威教科书中精选出520道题目，这些题目的难度跨越了本科到博士研究生的各个层次。每道题目都经过了在该领域工作的博士生和博士后研究者的仔细审核，确保题目的科学性和合理性。

这些题目有一个共同特点：它们都要求完整的计算过程，而不是简单的选择题。就像数学考试中的应用题，AI不仅要给出正确答案，还要展示解题的每一个步骤。题目的答案形式也很多样化，包括数值、表达式、方程、区间和元组等五种类型。

以其中一道关于格林函数的题目为例，题目要求推导某个物理系统的运动方程。标准答案是一个复杂的数学表达式：(ω - ε_k σ)G_σ = δ_σσ'。当不同AI模型给出答案时，有些模型的答案是(ω - ε_k σ)G_σ + μG_σ = δ_σσ'，多了一项；有些模型的答案是0 = δ_σσ'，缺少了主要项。传统的评分方法只能简单地判断对错，但新开发的SEED评分系统能够识别出第一个答案比第二个答案更接近正确答案，给予相应的部分分数。

这种细致的评分方式更接近人类教师的批改方式。当学生在解物理题时犯了小错误，比如忘记了一个常数或者符号写错了，有经验的教师会根据错误的性质给予部分分数。SEED系统通过分析数学表达式的树状结构，计算出预测答案和标准答案之间的相似度，从而给出更公平、更准确的评分。

三、AI模型的表现与困境

研究团队测试了18个不同的AI模型，包括GPT-4o、Claude、Gemini等知名系统，以及一些专门针对数学推理优化的模型。测试结果显示了AI在科学推理方面的明显局限性。

表现最好的Grok-4模型在SEED评分系统中获得了36分的平均分，传统准确率为28.9%。这意味着在100道题目中，这个目前最强的AI只能完全正确地解答不到30道题。其他模型的表现更加不理想，大多数模型的准确率都在20%以下。

更有趣的是，那些专门为推理任务优化的AI模型并没有显示出明显优势。研究者发现，在这些需要深度专业知识的问题面前，过度的推理反而可能导致错误的累积。就像一个人在解决复杂问题时，如果在错误的方向上想得越多，可能离正确答案越远。

通过详细的错误分析，研究团队发现AI模型的主要问题集中在两个方面。首先是概念和模型的误用，这类错误占了总错误数的40-50%。这就像是用错了工具来修理机器，比如用螺丝刀去敲钉子。AI模型常常选择了不适当的物理理论或数学方法来解决问题。

其次是数学和逻辑错误，占总错误数的20-30%。这类错误包括代数运算错误、微分积分计算失误、符号处理错误等。这些错误就像是计算器按错了键，即使方法正确，最终答案也会出现偏差。

四、不同物理领域的难度差异

研究结果还揭示了AI在不同物理子领域中表现的巨大差异。在超导领域，最好的模型能够达到43分的成绩，而在强关联系统领域，即使是最好的模型也只能获得20分左右的成绩。

这种差异反映了不同物理领域的内在复杂性。超导理论相对来说有着比较完整和自洽的理论框架，问题的解决往往遵循一定的标准流程。就像按照食谱做菜，虽然可能有些复杂，但步骤相对明确。

相比之下，强关联系统的问题就像是在没有地图的情况下探索未知的山区。这个领域涉及多个电子之间的复杂相互作用，往往需要使用各种近似方法和数值计算技术。即使是人类专家，在这个领域也经常需要依靠直觉和经验来选择合适的方法。

在磁学领域，AI的表现同样不尽如人意。磁性现象的计算通常需要考虑自旋-轨道耦合、交换相互作用等多种物理效应，这些效应的处理需要深刻的量子力学知识。半导体领域的题目涉及能带理论、载流子输运等概念，虽然这些概念在现代电子工业中广泛应用，但AI在处理相关计算时仍然困难重重。

五、新评分系统的技术突破

传统的AI评测方法往往采用简单的对错判断，这种方法在处理复杂的科学问题时显得过于粗糙。研究团队开发的SEED评分系统代表了评测技术的一个重要进步。

SEED系统的工作原理类似于专业编辑修改文章的过程。它首先将数学表达式转换成树状结构，每个数学符号、变量和运算符都是树的一个节点。然后，它计算将AI给出的答案转换成标准答案需要进行多少次编辑操作，包括添加、删除和修改节点。编辑操作越少，说明两个答案越相似。

这种方法的优势在于它能够识别出不同类型的错误并给予相应的评分。如果AI只是在最终答案中缺少了一个常数项，SEED会给予较高的部分分数。如果AI的整个解题思路都是错误的，SEED则会给予较低的分数。

更重要的是，SEED系统能够处理多种不同类型的答案格式。对于数值答案，它考虑了单位换算、科学记数法转换和合理的舍入误差。对于方程式答案，它能够识别数学上等价的不同表达方式。对于包含多个分量的答案（如坐标或向量），它会分别评估每个分量的正确性。

研究团队通过与人类专家评分的对比发现，SEED系统与专家评分的相关性达到了0.90，远高于其他评测方法。这意味着SEED给出的分数能够很好地反映人类专家对答案质量的判断。

六、AI科学推理能力的深层思考

这项研究的结果引发了人们对AI科学推理能力的深度思考。当前的AI模型虽然在许多任务上表现出色，但在需要深度物理直觉和复杂推理的科学问题面前却显得力不从心。

AI模型的困难主要来源于几个方面。首先是缺乏对物理概念的真正理解。AI可能能够背诵牛顿第二定律F=ma，但它并不真正理解力、质量和加速度在现实世界中的含义。这就像一个人能够流利地朗读莎士比亚的诗歌，但却不理解诗歌所表达的情感和意境。

其次是缺乏跨领域知识的整合能力。凝聚态物理的许多问题需要同时运用量子力学、统计力学、电动力学等多个领域的知识。AI模型往往难以在解题过程中灵活地切换和组合不同的理论框架。

第三是缺乏对近似方法的判断能力。在物理学中，很少有问题能够得到精确的解析解，大多数情况下需要使用各种近似方法。选择合适的近似方法需要对问题的物理本质有深刻的理解，这正是当前AI模型所缺乏的。

这些发现对AI的未来发展具有重要意义。研究团队建议，未来的AI系统需要更好地整合符号推理和数值计算能力，需要内置物理常识和量纲分析功能，需要能够进行自我验证和错误检查。

七、对未来科学研究的启示

尽管AI在这次测试中的表现不尽如人意，但这项研究为科学AI的发展指明了方向。研究团队提出了几个重要的改进建议。

首先是在AI训练过程中加入物理约束和验证机制。就像工程师在设计桥梁时必须考虑重力和材料强度的限制一样，科学AI需要内置基本的物理定律作为推理的约束条件。这样可以避免AI给出违反能量守恒或其他基本物理原理的答案。

其次是开发更好的符号推理能力。目前的AI模型主要基于统计学习，擅长处理大量数据中的模式识别，但在精确的符号操作和逻辑推理方面还有很大提升空间。科学问题的解决往往需要严格的数学推导，这要求AI具备更强的符号处理能力。

第三是建立科学知识的分层表示体系。物理学知识有着清晰的层次结构，从基本粒子的性质到宏观物体的运动，从经典物理到量子物理。AI需要能够理解这种层次结构，并在解决问题时选择合适的理论层次。

研究团队还指出，开源的评测基准对于推动AI科学能力的发展具有重要意义。CMPhysBench的公开发布为其他研究者提供了一个标准化的测试平台，有助于推动整个领域的进步。这种开放的研究态度值得称赞，因为科学的进步需要整个学术界的共同努力。

八、现实应用的前景与挑战

虽然当前的AI在复杂科学推理方面还存在明显不足，但这并不意味着AI在科学研究中没有用武之地。实际上，AI已经在许多科学应用中发挥了重要作用，比如蛋白质结构预测、材料性质计算、实验数据分析等。

这项研究的价值在于它帮助我们更清楚地认识了AI的能力边界。在一些需要大量计算但逻辑相对简单的任务中，AI可能表现出色。但在需要深度理解和创新思维的科学发现过程中，AI还需要很长时间的发展。

对于科学教育而言，这项研究也提供了有益的启示。它表明，即使在AI高度发达的未来，人类科学家的作用仍然不可替代。深度的物理直觉、创新的思维方式、跨领域的知识整合能力，这些都是人类科学家的独特优势。

同时，这项研究也为科学教育改革提供了参考。如果连最先进的AI都在这些问题上遇到困难，那么我们需要思考如何更好地培养学生的科学推理能力。也许传统的死记硬背式学习方法需要被更加注重理解和应用的教学方式所取代。

九、技术发展的未来方向

基于这项研究的发现，研究团队为AI科学能力的提升提出了具体的技术路线图。首先是开发物理感知的AI架构，这种架构能够在推理过程中自动进行量纲检查、守恒定律验证等物理一致性检验。

其次是建立更好的科学知识表示方法。当前的AI模型主要依赖于从大量文本中学习到的统计规律，但科学知识往往具有精确的逻辑结构和数学关系。未来的AI需要能够显式地表示和操作这些结构化的科学知识。

第三是开发混合推理系统，将神经网络的模式识别能力与符号推理系统的逻辑能力相结合。这种混合系统可能能够在保持AI强大学习能力的同时，增强其逻辑推理和符号操作的能力。

研究团队还强调了评测基准持续改进的重要性。随着AI技术的发展，评测基准也需要不断更新和完善。未来可能需要开发更多专门针对不同科学领域的评测工具，以更准确地评估AI在各个科学分支中的能力。

说到底，这项研究揭示了一个重要事实：AI虽然在许多领域都表现出了惊人的能力，但在需要深度科学理解的任务上仍然任重道远。凝聚态物理的复杂性对AI构成了真正的挑战，即使是最先进的模型也只能在不到30%的问题上给出完全正确的答案。

这个结果并不令人沮丧，反而为我们指明了未来发展的方向。它告诉我们，真正的科学AI不仅需要强大的计算能力，更需要对物理世界的深刻理解。这项研究开创性地建立了科学AI评测的新标准，其开发的SEED评分系统为更准确、更细致的AI能力评估提供了重要工具。

对于普通人来说，这项研究也有着重要意义。它提醒我们，在AI快速发展的今天，人类的科学思维和创新能力依然独特且重要。同时，它也让我们对AI在科学研究中的角色有了更理性的认识——AI是科学家的有力助手，但还不能替代科学家进行真正的科学发现。

研究团队将继续完善这个评测平台，并欢迎全球的研究者使用CMPhysBench来测试和改进他们的AI系统。有兴趣的读者可以通过GitHub链接https://github.com/CMPhysBench/CMPhysBench访问完整的研究资料和代码，亲自体验这个挑战AI科学推理能力的测试平台。这种开放共享的研究精神，正是推动科学进步的重要动力。

Q&A

Q1：CMPhysBench是什么？它主要测试什么？

A：CMPhysBench是由上海人工智能实验室等机构开发的专门测试AI在凝聚态物理领域能力的评测平台。它包含520道研究生级别的物理计算题，涵盖磁学、超导、半导体等核心领域，要求AI给出完整的解题过程，而不是简单的选择题。

Q2：为什么连最强的AI模型在凝聚态物理测试中表现这么差？

A：主要原因有三个：缺乏对物理概念的真正理解，只是机械地处理符号；无法灵活整合多个物理领域的知识来解决复杂问题；缺乏选择合适近似方法的判断能力。这些都需要深度的物理直觉，而这正是当前AI模型的薄弱环节。

Q3：SEED评分系统比传统评分方法好在哪里？

A：SEED系统能够像人类教师一样给出部分分数，而不是简单的对错判断。它通过分析数学表达式的树状结构，识别不同类型的错误并给予相应评分。比如只是缺少常数项会得高分，而整个思路错误会得低分，这样更公平准确。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.