网易首页 > 网易号 > 正文 申请入驻

AI攻克物理奥赛!王梦迪团队打造Physics Supernova智能体,超过人类金牌选手平均分

0
分享至


在学科竞赛领域,物理因题目复杂、推理强度高而长期被认为是人工智能(AI)最难攻克的挑战之一。与语言类任务相比,物理问题往往涉及图像识别、单位换算、公式推导和近似计算等多重环节,更考验系统是否具备对现实世界的理解与建模能力。

随着 AI 日益深入现实世界,并不断迈向通用人工智能(AGI)乃至超级人工智能(ASI),能否通过物理抽象理解世界、解决问题,正在成为打造高水平智能系统的关键。

在今年举行的 2025 年国际物理奥林匹克竞赛中,一个名为Physics Supernova的 AI 系统交出了令人瞩目的成绩单:在 3 道理论题测试中,共获得 23.5 分(满分 30 分),在所有 406 名参赛选手中排名第 14,且在三道题目中均进入人类前 10%,超过了人类金牌选手的平均得分。

该系统由普林斯顿大学王梦迪教授团队及其合作者共同打造,两位第一作者分别为普林斯顿大学博士 Jiahao Qiu清华姚班大四本科生史景喆(在 2021 年国际物理奥林匹克竞赛中获得金牌,全球排名第十)。


论文链接:

https://arxiv.org/abs/2509.01659

不同于依赖题库的传统方式,Physics Supernova 通过图像分析、答案复核等工具模块,结合 LLM 的推理能力,实现了从题目理解到建模计算的完整过程。这一结果显示,合理集成工具的 Agent 架构,能够显著提升 AI 在复杂科学问题上的推理与解题能力,其表现已逼近人类顶尖选手,为 AI 在科学探索领域开辟了新的可能性。

业内专家指出,这一成绩不仅显示了AI 在物理解题上的突破性进展,也意味着其在科学推理领域的应用边界正在被重新定义

靠工具,AI 也能像物理学家一样解题

Physics Supernova 是一个专为解决复杂物理理论问题设计的 AI Agent 系统,基于 smolagents 框架,并采用 CodeAgent 架构

与数学解题中常见的固定、手工编码的工作流不同,该系统强调具备灵活自我规划的能力,能够根据当前的解题进展,动态调用不同的工具。


图|Physics Supernova 的架构与示例推理轨迹

研究团队为该系统配置了两个面向物理问题的专用工具:图像分析器(ImageAnalyzer)与答案复查器(AnswerReviewer)

对于物理学家而言,解读实验结果、从图像中提取关键数据是十分重要能力。在部分物理奥赛题中,这甚至是解题过程的核心环节。然而,目前的 LLM 在图表、图像与示意图等视觉数据的精确测量方面仍存在不足。ImageAnalyzer 则会将高分辨率图像传递给专用的视觉语言模型,以执行精确的数值读取与测量任务。

在实际解题中,物理学家也会持续评估自己的理论结果是否具有物理意义,这包括判断结果是否具有符合预期的物理属性,或是否违反基本物理原理。AnswerReviewer 被用于在解题过程中识别错误类型并定位错误表达,从而提升系统的自我校正能力。

为研究各类工具对最终得分的影响,研究团队测试了多种工具组合。结果显示,在大多数问题中(尤其是非简单题),移除 AnswerReviewer 会导致性能显著下降。而将图像处理任务交由 ImageAnalyzer 执行,则能够有效提升整体得分。


图|ImageAnalyzer 工具对理论题第1题C部分的影响

此外,他们还为 Physics Supernova 接入了一个用于专业领域知识的问答工具——WolframAlpha ,它是一款能够提供科学问题准确解答的计算型知识引擎,有助于提升系统在应对专业领域知识时的表现。

金牌不是终点,AI 物理系统的下一站

实验是物理研究的基础。研究团队指出,该项研究主要聚焦于 IPhO 2025 的理论题,未涉及基于仪器的实验题,部分原因在于实验仪器资源受限

他们希望,随着机器人技术的发展,未来基于 LLM 的 AI Agent 有望具备执行实验题的能力。相较于实体仪器操作,程序化实验能够模拟更复杂、更高级的实验过程。基于程序的实验考试,有可能将评估重点从操控仪器的能力转向理解和运用物理的能力。

从长远来看,基于仪器的实验评估同样也不可或缺。这类实验更贴近现实科研情境,能够更有效地衡量 AI 系统的机器人能力,并评估其在极端或非预期条件下的表现。

除此之外,他们使用答案复查工具来验证推导过程。该工具完全基于自然语言运行。在数学领域,自动化验证已经取得了显著进展,LLM 可生成可验证的 Lean 格式证明。然而,从自然语言问题出发,推导物理公式并进行自动验证,目前尚无可靠的技术路径。这仍是一个有待深入研究的方向。

研究团队表示,未来值得探索的方向应包括:构建能验证公式、物理表达与直观推理之间抽象转换的方法;建立更加严格、可验证的物理计算体系;借助具备更广泛、更深入物理知识的工具,增强答案复查系统的能力

总之,研究团队建议,未来关于 AI 物理解题系统的工作,应继续拓展其在程序实验或仪器实验方面的能力,同时增强其生成可验证、可信赖物理解答的能力。

展望未来,这类系统有望进一步发展,成为能够嵌入现实世界并执行复杂物理任务的高级智能体

整理:小羊

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
令人窒息的高铁站妈妈手撕青春期女儿事件,揭开了普通家庭的痛

令人窒息的高铁站妈妈手撕青春期女儿事件,揭开了普通家庭的痛

菁妈育儿
2026-01-07 15:30:31
医保局提醒:未来几年看慢特病,进门不说这句话,报销等于白搭

医保局提醒:未来几年看慢特病,进门不说这句话,报销等于白搭

椰青美食分享
2026-01-17 05:35:32
15张令人头皮发麻的照片,也许会让你彻底发作巨物恐惧症!

15张令人头皮发麻的照片,也许会让你彻底发作巨物恐惧症!

安徽吃喝玩乐
2026-01-19 17:55:18
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
克洛普:我知道我有能力执教,但这并不意味着我必须执教到死

克洛普:我知道我有能力执教,但这并不意味着我必须执教到死

懂球帝
2026-01-20 02:04:29
演员马晓峰办家宴,患癌后遗症说不清话,老友王一楠姚安濂来探望

演员马晓峰办家宴,患癌后遗症说不清话,老友王一楠姚安濂来探望

看尽落尘花q
2026-01-19 17:06:14
美国真的像牢A说的那样,已经当街吃人肉了吗

美国真的像牢A说的那样,已经当街吃人肉了吗

熊太行
2025-12-28 11:01:46
东体:中国足球的根本问题不是会不会踢球,而是能不能长期做对的事

东体:中国足球的根本问题不是会不会踢球,而是能不能长期做对的事

懂球帝
2026-01-19 11:57:49
41岁“朱珠”带火了一种国际范新穿法:毛衣+镰刀裤,时髦又高级

41岁“朱珠”带火了一种国际范新穿法:毛衣+镰刀裤,时髦又高级

蓓小西
2026-01-20 08:59:39
英媒爆猛料:涉及中国使馆,美方暗中下手

英媒爆猛料:涉及中国使馆,美方暗中下手

环球时报国际
2026-01-19 15:22:00
广东今日早报!杜锋点名徐杰,胡明轩打回男篮,马尚祝福老东家

广东今日早报!杜锋点名徐杰,胡明轩打回男篮,马尚祝福老东家

多特体育说
2026-01-20 07:40:03
浙江女孩爱上西班牙小伙,未婚怀胎8月,连同男友遭婆家哥嫂杀害

浙江女孩爱上西班牙小伙,未婚怀胎8月,连同男友遭婆家哥嫂杀害

观察鉴娱
2025-12-30 09:48:21
1月20日NBA看点:东部榜首大战上演,库里带队冲四连胜

1月20日NBA看点:东部榜首大战上演,库里带队冲四连胜

桃叶渡春
2026-01-20 10:34:05
大陆之行还没确定,郑丽文决定去美国,找了一个中间人赴美说好话

大陆之行还没确定,郑丽文决定去美国,找了一个中间人赴美说好话

贺文萍
2026-01-20 10:00:33
高市彻底怒了,再对中国下死手,解放军火速下场,中国绝不能垮

高市彻底怒了,再对中国下死手,解放军火速下场,中国绝不能垮

享用人生
2026-01-16 16:08:52
人民币兑美元汇率会强势升值到 6.0 吗?

人民币兑美元汇率会强势升值到 6.0 吗?

生命可以承受之轻
2026-01-20 08:19:18
沪宁沿江高铁发挥大作用,将开行进京标杆车,苏南县域进京更高效

沪宁沿江高铁发挥大作用,将开行进京标杆车,苏南县域进京更高效

笔墨V
2026-01-20 09:08:05
神舟二十号“空船”凯旋!舷窗裂纹无碍硬核着陆,黑科技太厉害了

神舟二十号“空船”凯旋!舷窗裂纹无碍硬核着陆,黑科技太厉害了

粤语音乐喷泉
2026-01-20 10:00:16
江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

不写散文诗
2026-01-19 21:23:55
白天棋圣,晚上喝4斤!聂卫平女儿发文,揭秘父亲不为人知的辛酸

白天棋圣,晚上喝4斤!聂卫平女儿发文,揭秘父亲不为人知的辛酸

复转这些年
2026-01-19 23:47:16
2026-01-20 11:20:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

教育
数码
时尚
公开课
军事航空

教育要闻

山东一市取消高一高二统考

数码要闻

消息称三星电子、SK海力士今年将缩减NAND闪存晶圆投片量

码住抄作业!春节见人不翻车就靠这8样!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版