![]()
五个真实物理任务实测,PhysMaster 可推导、写码、数值验证。
作者丨郑佳美
编辑丨岑峰
![]()
当大模型的能力从能回答问题走向能完成任务,AI for Science 也正在经历一次更深层的转向。
过去行业更关注模型在标准题目、知识问答和文献总结上的表现,但这些能力本质上仍属于信息处理,它们可以提升效率,却很难真正改变科研本身的推进方式。
现实科研的核心难点并不在于单点能力是否强,而在于研究过程天然是长链条、不确定、强依赖验证的闭环系统。一个看似简单的物理问题,往往需要经历建模选择、推导路径、数值实验设计、代码实现、调参排错、对照基准结果、误差来源分析等一整套流程,任何一步出错都可能导致结论失效。
也正因为如此,科研效率的瓶颈长期不在想法是否聪明,而在能否把想法变成可信结果,大量时间消耗在重复工程与试错迭代中。
在这样的行业背景下,上海交通大学 SciMaster 团队联合深势科技、中科院理论物理所在研究论文《PHYSMASTER: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research》中给出了一个更激进的答案,与其把 AI 当作分散的辅助工具,不如直接构建一个能够组织、规划并执行科研闭环的自主系统。
研究团队用五个真实的物理科研任务验证其能力,从加速成熟工作流,到自动完成复杂数值研究,再到尝试自主探索开放问题,展示了 AI 迈向可持续推进科研的可能路径。
这项研究真正值得关注的地方,不只是模型算得更快或写得更像人,而是它让我们看到一种潜在的新科研范式,AI 不再只是科研流程中的局部工具,而可能成为能够承担完整研究链条的研究主体之一。
![]()
论文地址:https://arxiv.org/pdf/2512.19799
01
五项任务跑通科研闭环
这项工作并不是在一个统一的数据集上跑模型分数,而是通过五个真实的物理科研任务来验证系统能力,并将这些任务按能力层级分为三档:加速、自动化、自主发现。换句话说,这项工作希望证明的是,这个系统并非只停留在会聊天的层面,而是能够像物理博士一样完成一个完整的研究闭环。
首先在加速类任务中,研究团队展示了两个代表性成果:第一个成果是从格点 QCD 数据中提取 Collins–Soper kernel。研究人员完成了一条非常标准但极其繁琐的粒子物理计算链条,输入是一批格点 QCD 的原始欧式相关函数数据以及 Wilson loop 数据。
![]()
这些通常是科研团队计算得到的原始数值结果,输出则是一个关键物理量 Collins–Soper kernel,用来描述 TMD(横动量相关分布)随尺度变化的规律。
研究人员强调,该系统得到的结果与已有研究人员工作(Tan 等人 2025 的处理)在中心趋势上是一致的,同时它给出的统计误差更小,但研究团队也说明这可能是因为它在某些系统误差的处理上更乐观。
![]()
这一成果的重要性并不在于得到某一个数,而在于它能把整条工作流自动跑完,包括从噪声很大的格点数据中完成拟合、自动选择合理的拟合区间(这一步在人工分析中很容易带入主观性)、进行重整化来消除发散项、处理远距离区间信号爆噪的问题(用符合物理预期的形式补齐尾部)、做傅里叶变换得到动量空间对象,并最终从不同动量输入中提取出 kernel,因此它相当于证明AI 不只是会说理论,而是真的能执行严谨的物理数据分析流程。
![]()
第二个加速类任务是从零写程序计算锂原子的第一激发能,并且不允许依赖软件工具。在这一任务中,系统从头构建了一个变分求解器,最终算出了锂原子的基态能量、第一激发态能量,并用两者差值得到第一激发能,且结果与实验值非常接近,误差小到几乎可以认为足够支撑科研验证。
这个实验的关键不在于锂原子本身有多难,而在于它证明了系统在严格限制条件下仍具备独立完成高强度计算物理工程的能力,研究团队明确规定它不能调用任何成熟量化化学软件(如 Gaussian 或 PySCF),不能依赖外部检索(等于不能查答案),只能使用 Julia 标准库,并必须自己推导所需的积分形式、自己完成数值积分实现、自己进行参数优化。
真正困难的部分来自工程细节:三电子体系的交换项很容易写错,数值积分同时要处理核附近的发散行为和远处的拖尾行为,而基函数如何选择、如何保持正交、如何调整参数,也都要求较强的物理直觉与计算经验。研究人员的结论是,这类工作研究生往往需要几天甚至更长时间才能完成,但系统能在很短时间内完成,并且结果还能对得上实验。
随后研究团队进入自动化类任务,第三个成果是用量子蒙特卡洛(QMC)计算 Union Jack 格子 Bose–Hubbard 模型的相变临界点,它得到一个非常精确的量子相变临界点(从超流到莫特绝缘体的转变点),误差很小,而且结论符合物理直觉:Union Jack 格子由于连接更丰富、更容易形成超流,因此临界点相较普通方格子显著降低。
这个实验之所以比前两个更强,是因为它不是简单照着公式写代码就结束,而更像一个完整的科研项目级流程,它必须自行实现 QMC 的核心算法(SSE 与 directed-loop 更新),处理格子拓扑带来的细节差异(例如 winding number 的计算不再与普通格子完全一样),自动调参使系统精确落在莫特区的关键位置(并非随便选一个化学势即可),并需要在不同系统尺寸上重复计算,再通过有限尺度分析把有限系统结果外推到无限系统,从而得到可靠的临界点。
研究人员还强调,这个任务是在没有外部知识库检索的情况下完成的,因此等于证明它能够从物理定义出发独立跑完一个高精度数值研究任务。
![]()
第四个成果仍属于自动化类,但形式不同,这项工作研究的是潮汐瓦解事件(TDE)中 nozzle shock 的耗散是否会被广义相对论效应显著增强,这个案例并不是要算一个固定标准答案,而是要验证一个假设是否成立。
背景是传统理论往往认为碎片流在近地点附近发生 nozzle shock 会耗散大量能量,从而快速形成吸积盘,但后来更高分辨率的模拟发现过去可能高估了耗散强度,甚至高估了两到三个数量级。
在这个背景下,系统要测试的机制是,如果考虑恒星并非一个点,则会产生能量展宽,在 Kerr 黑洞时空中不同能量碎片的轨道进动程度不同,这会导致碎片再次汇合时发生非零夹角碰撞,从而带来额外耗散并可能增强 nozzle shock 的总耗散。
这个实验体现的能力是自动化科研循环:给系统一个研究人员提出的方向或假设,它能够自己建模、自己开展数值实验、自己判断这一机制是否可能解释问题,这比单纯做题更接近真实科研。
![]()
最后第五个成果是自主发现类任务,研究对象是粲介子半轻衰变中的哈密顿量构造与振幅预测,研究团队将其定义为真正的跨越,意味着系统从协作科学家迈向自主科学家,即不再是人类一步步告诉它怎么做,而是面对仍然开放、复杂的问题时能够自主探索,并提出研究人员认为具有创新性的方法。研究团队认为这一部分体现的是最高等级能力:不仅能够执行任务,还能产出新的研究路线。
![]()
02
让物理研究流程化与可复用
这项工作将 PHYSMASTER 的整体流程拆分为三个阶段:前处理、执行、沉淀复用,因此它更像一个具备组织能力的科研团队,而不是单一模型。
在前处理阶段,研究人员指出真实科研问题常常信息过载、缺乏层次且存在歧义,如果直接开始计算,很容易跑偏,同时浪费计算资源和上下文长度,因此系统会先进行问题澄清与拆解,明确问题属于哪个物理方向,厘清输入内容与输出形式,判断任务类型属于工程计算、假设检验、开放探索或现象学分析中的哪一种,梳理必须遵守的物理约束(如守恒律、对称性、尺度等),补足所需背景知识,并最终拆成一系列可执行子任务,这一步相当于研究人员在正式研究前制定工作计划。
随后在前处理的第二部分,研究团队会建立一个只服务当前任务的专用知识库,该知识库并非用于百科式存储,而是用于补齐关键概念与关键做法,引入必要的数值基准或标准方法,避免后续推导与实现凭空编造。
其构建依赖两类协作角色,一类负责扩展检索范围以尽量不遗漏,另一类负责通过强推理筛选高相关内容,并从中提取定性知识(如机制、物理图像和效应竞争关系)以及定量知识(如关键数值结果、参数与校准信息),同时强调证据链,使系统每一步结论尽量可追溯来源。
![]()
进入执行阶段后,系统开展理论推导、代码实现与试错迭代,研究人员认为物理研究属于超长任务,通常需要多轮草稿、检查和修改,因此系统采用多轨迹探索策略,同时并行尝试多条路线,每条路线产出阶段性结果,最终选择最可靠、最完整的一条作为最终方案,这更像科研团队并行推进多个方案,而不是单一路线死磕。
执行阶段还包含明确分工:Supervisor 更像导师或项目负责人,负责决定下一步做什么、管理进度以避免遗忘前面结论、严格检查输出是否可靠,并提出批评、指出错误和要求修正。
Theoretician 更像具体执行的研究员,负责理论推导与建模,把模型转化为可运行程序,并通过数值实验得到结果,而研究团队强调系统可靠性的关键在于 Supervisor 提供的批判式反馈,否则系统可能越改越错。
![]()
最后在沉淀复用阶段,研究人员提出长期记忆系统 LANDAU,目的不是完成一次任务就结束,而是让系统未来遇到类似问题更快更稳,它会沉淀任务中检索到的可靠文献知识、已经验证有效的方法流程,以及人工整理的高置信物理常识以避免基础错误,并且每次任务结束后,本次构建的小型知识库会并入长期库,使系统不断积累经验,逐渐更像一个经验丰富的物理学家。
![]()
03
从助手到研究者的转变
整体来看,这项工作可以从四个层面理解其意义。第一,它证明AI 可以完成端到端的物理科研流程,而不仅仅停留在做竞赛题、回答事实问题或进行文献检索与总结,因为这些传统评估方式并不能构成真正的研究闭环。
而真实物理研究更需要抽象建模、严谨推导、可执行代码实现以及数值验证能力,这些恰恰是过去许多 AI 系统明显欠缺的地方,因此 PHYSMASTER 的价值就在于把这些关键能力整合到同一个系统里。
第二,它将物理研究中最耗费人力的重复工程劳动显著压缩,例如写求解器、调参、调试、反复跑计算等工作往往占据大量时间,而加速类案例表明 AI 有可能把原本需要资深博士生花费一到三个月完成的重工程环节压缩到几个小时,从而直接改变科研推进的节奏。
第三,自动化类案例进一步说明科研循环本身也可以被压缩到一天左右,即在研究人员给出一个假设或思路后,系统能够自动完成探索循环,包括做实验、验证假设并持续迭代,把原本不可预测、可能拖延数月的过程收敛到一天级别,这意味着未来的科研分工可能逐渐变成由人类负责提出方向,由 AI 负责将方向快速转化为可验证的结论。
第四,自主发现类案例体现出AI 有机会从科研助手转向研究者,因为自主发现意味着系统不再只是执行命令,而是能够在面对开放性问题时自己探索路径并推进研究,这正是其所强调的从协作科学家迈向自主科学家的关键转变。
04
点亮 PhysMaster 的人
第一作者苗庭嘉本科就读上海交通大学致远学院,现为上海交通大学人工智能学院2026级博士研究生,研究方向聚焦于 AI Agents 与 AI for Science,导师为陈思衡副教授。
2023 至 2024年,他曾在上海交通大学李政道研究所担任科研助理,从事凝聚态物理理论研究;此后,在字节跳动Seed、北京大学计算机学院进行过AI领域研究工作。
自 2025 年起,苗庭嘉开始与深势科技合作,深度参与 SciMaster 科研智能体生态的构建与完善。
![]()
本论文的通讯作者为陈思衡。他是上海交通大学人工智能学院长聘教轨副教授、博士生导师。
陈思衡于 2016 年获得美国卡内基梅隆大学电气与计算机工程博士学位,并入选国家级人才计划青年项目。他的研究方向涵盖图机器学习、群体智能、多智能体协同感知以及大模型智能体,并在图信号处理与图结构数据采样理论方面做出开拓性贡献,曾获得 IEEE 信号处理协会最佳青年作者论文奖。
在群体智能领域,他提出群智交互感知的语用社会学习思想,缓解了多智能体协同感知中通信效率与性能之间的矛盾。近年来,他致力于大模型驱动的智能体技术,开发了科研智能体 SciMaster 和 ML-Master,并在 AI4AI 方向取得了显著进展。
![]()
参考链接:https://siheng-chen.github.io/
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.