网易首页 > 网易号 > 正文 申请入驻

谁来定义AI“懂物理”?| 科到了

0
分享至


作者:王嘉翌 博士研究生 | 中国科学院大学 培养单位:中国科学院物理研究所 审核:杨海涛 研究员 | 中国科学院物理研究所

AI懂物理吗?

让我们设想这个场景:小孩搭积木,塔刚晃一下,他急着伸手去扶:“太高了,站不稳!”这一瞬间的动作,是刻在人类基因里的“物理直觉”——无需列方程、做计算,这是我们从小摔玩具、打翻杯子、被门夹手“交学费”换来的本能。

反观AI:它能以每秒百万次的速度算出每块积木的重心、摩擦力和力矩,却在看到一段“积木凭空悬浮”的视频时,认真点头:“这很合理。”

这正是问题的关键:会算,不等于懂

最近,AI在各类奥赛中屡创佳绩,甚至展现出超越人类顶尖选手的解题统治力。但我们不禁要问:它是真的理解了真实物理世界,还是只是背下了海量题库,练就了一身“应试功夫”?

要回答这个问题,科学家们为AI设计了一种新型考试——benchmark(基准测试)。说白了,这是给AI设计的题库,专门检验它是不是真有“物理直觉”。这些测试五花八门:有的让它玩弹球游戏,有的看动画挑错,有的直接扔进虚拟厨房动手炒菜。

为了系统评估AI的“物理直觉”到底强在哪、弱在哪,科学家们通常从两个关键维度来组织这些 benchmark:

一是任务类型——AI是在预测、控制,还是在做因果推理?

二是输入模态——AI是靠读文字、看图像,还是得亲手“摸”世界?

接下来,我们就从这两个角度,看看科学家如何给AI的“物理直觉”打分。

一、按任务类型划分:AI是在“算”,还是在“理解”?


DeepPHY [3]: AI也会玩游戏,愤怒的小鸟、切绳子、打台球……

最经典的一类任务是前向问题。这类任务要求模型根据已知的物理规律、初始条件和边界条件,预测系统未来的状态。比如,给定t时刻水流的速度和压力,令AI判断水流在t+1时刻是会拐弯、起涡,还是撞水槽反弹? PDEBench [1]就专注于测评这类问题,考察AI能不能用数学方法,逼近真实世界的演化过程,本质上更接近“AI会不会计算”。


PAI-Bench [8]:AI根据输入文本生成爆炸发光视频

更高阶的任务,叫控制或设计问题。它不只是要求模型预测结果,而且要求它反过来寻找一个最优输入或控制策略,使系统达到预期目标。即让AI想:“我该怎么做,才能让系统变成我想要的样子?”。

比如:怎么控制机械臂,在不碰倒杯子的情况下抓起一个鸡蛋?

或者:如何设计一种材料结构,让它又轻又能扛住冲击?

这就是“控制与设计类问题”。代表选手是 RoboBPP [2],它模拟的是真实机器人面临的挑战:在线装箱、动态抓取、避开障碍……每一步都要考虑重力、摩擦、碰撞。

这就逼着AI从“解题思维”转向“工程思维”——不仅要懂规律,还得会规划、能权衡、敢调整,考验模型在复杂物理系统中的决策能力和规划能力。


PlasticineLab [9]:AI按照要求捏料橡皮泥柔性材料


ThreeDWorld Transport Challenge [10]:AI于三维世界完成搬东西操作

最高阶的考场,直指人类最引以为傲的能力:因果推理。它要求AI不只算出结果,更要理解“为什么”:现象背后是什么机制?改变一个条件会引发什么连锁反应?

举个例子:让它生成一段“金属钠扔进水里”的视频——不是随便放个烟花特效,而是准确呈现剧烈反应、氢气释放、甚至可能的爆炸发光。这需要它真正明白“钠+水→放热→产气→点燃”这一连串因果链。

一个有趣的benchmark—— DeepPHY [3],它把AI丢进一个充满物理规则的虚拟游戏厅:弹球轨道、台球桌、“愤怒的小鸟”、切绳子……让它边玩边试错。

考的是什么?

多步推理、空间判断、时序规划,还有最关键的一点——从失败中修正策略:“刚才那样不行,得换种方式。”

这类评测显然和我们印象中“AI做题家”截然不同,而是令AI在和物理世界对话。

二、按模态划分:AI是通过什么“看见”物理的?


PhysBench [11]:AI视觉理解真实物理世界,哪个球弹得更高?车会先撞到哪个方块?

如果说“任务类型”是考AI“会干什么”,那“模态”就是看它“怎么感知这个世界”。就像人类靠眼睛看、耳朵听、手去摸来认识物理世界,AI也需要通过不同的“感官”输入来学习规律。

最基础的是纯文本benchmark。这类任务主要围绕文字、公式、符号和逻辑推导展开,重点考察模型的数学推演和抽象推理能力,比如SuperGPQA [4]。

接下来,AI 被要求“睁眼看世界”,视觉benchmark应运而生。这类任务以图像或视频作为输入,要求模型理解其中的物理动态。例如, IntPhys [5]的灵感来自婴儿直觉物理研究:连八个月大的孩子都知道——物体不会凭空消失,也不会穿过墙壁。在这个benchmark中,科学家给AI看一系列由引擎生成的视频,有些是物理上可能发生的事件,比如球从斜坡滚下,自然落地;有些则不可能,比如球飞到半空突然悬停,或者穿墙而过。AI模型需要判断哪些现象“在物理上说得通”,考的是AI的“物理常识感”

目前最火热的方向,是多模态benchmark。在真实物理研究中,问题不可能只来来自文字图表,而是实验操作、仪器读数、乃至噪音的集成体。PhysUniBench [6] 就还原了这种场景:每个问题都配有一张复杂的物理图表。AI 必须能“看懂”坐标系,识别出波的干涉条纹,或是追踪粒子的运动轨迹,才能解出题。 SeePhys [7]则直接设计了"视觉必需型"难题:比如问:“这个波形对应哪种振动模式?” 没图?AI根本无从下手。这意味着,AI 不能再靠“背题库”蒙混过关,它必须真正具备解读科学图像的能力,像个真正的研究员一样工作。

最高阶的感知方式,是亲身参与。近年来兴起一类具身/交互式 benchmark,它干脆把AI放进一个虚拟物理世界里,让AI通过自主探索和交互来完成任务。比如 PAI-Bench [8],就设置了各种“生活挑战”:在厨房里做菜,控制火候、翻炒食材;模拟水滴落入湖中,生成涟漪扩散的全过程;生成鞭炮在厂房外爆炸和发光的视频。

此时,模型所需要的就不只是预测能力,更包括行动能力和决策能力,从“会做题”走向“会做事”。


PAIBench [8]:具身AI厨房做饭视频

从枯燥的文本题海,到能看、能听、能动手的多模态交互——物理 Benchmark 的进化史,其实就是 AI 努力长出“五官”和“双手”的过程。这过程的价值远超分数本身:它们是一面镜子,映照出 AI 的短板,也折射出人类的独特。

参考文献:

[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

编辑:夜凌Ryelin

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被要求滚出主持界、沦为众矢之的的央视主持董倩,如今早已大变样

被要求滚出主持界、沦为众矢之的的央视主持董倩,如今早已大变样

花语舞者
2026-04-29 02:02:19
放弃阿隆索!利物浦锁定英超名帅,他就是下一个克洛普

放弃阿隆索!利物浦锁定英超名帅,他就是下一个克洛普

澜归序
2026-04-29 01:19:54
9分钟2球!中国U15队2-0爆冷意大利队,马德兴:主教练周海滨立功

9分钟2球!中国U15队2-0爆冷意大利队,马德兴:主教练周海滨立功

何老师呀
2026-04-28 14:16:07
德斯特:回到巴萨对我来说仍是梦想,我挺适合弗里克的体系

德斯特:回到巴萨对我来说仍是梦想,我挺适合弗里克的体系

懂球帝
2026-04-29 01:04:01
黄一鸣丑闻持续升级!网友扒出真实目的,王思聪可能是背锅侠

黄一鸣丑闻持续升级!网友扒出真实目的,王思聪可能是背锅侠

奇思妙想草叶君
2026-04-27 15:50:29
拜托!不要再拿“致敬”当抄袭的遮羞布

拜托!不要再拿“致敬”当抄袭的遮羞布

细雨中的呼喊
2026-04-28 15:35:07
有谁留意:杜锋输球黑脸光速退场,徐杰拉着0分先生胡明轩不让走

有谁留意:杜锋输球黑脸光速退场,徐杰拉着0分先生胡明轩不让走

体坛野秀才
2026-04-29 00:20:43
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
全力冲亚锦赛!中国女排必须稳拿奥运直通票,这套阵容最稳妥

全力冲亚锦赛!中国女排必须稳拿奥运直通票,这套阵容最稳妥

金毛爱女排
2026-04-02 00:00:04
吉达国民卫冕亚冠精英冠军,马赫雷斯向全队赠送定制款劳力士

吉达国民卫冕亚冠精英冠军,马赫雷斯向全队赠送定制款劳力士

懂球帝
2026-04-28 06:17:17
首个石油储备完全枯竭国家出现,比菲律宾惨,还有三个国家很危险

首个石油储备完全枯竭国家出现,比菲律宾惨,还有三个国家很危险

混沌录
2026-04-24 21:02:11
火箭湖人G5最新伤情通报:火箭坏消息,湖人好坏消息都有!

火箭湖人G5最新伤情通报:火箭坏消息,湖人好坏消息都有!

老皢尾声体育解说
2026-04-29 00:48:55
杨乐乐后悔全职带娃落泪,在婚姻中不快乐,汪涵:为什么要和我比

杨乐乐后悔全职带娃落泪,在婚姻中不快乐,汪涵:为什么要和我比

八斗小先生
2026-04-23 10:25:23
辽宁险胜山东拿赛点,莫兰德付豪靠边站,赵继伟封神

辽宁险胜山东拿赛点,莫兰德付豪靠边站,赵继伟封神

youyou喜欢你
2026-04-29 00:04:27
法国集齐八大前锋,姆巴佩不参加世界杯也没事?

法国集齐八大前锋,姆巴佩不参加世界杯也没事?

吴朑爱游泳
2026-04-29 00:25:59
4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

你是我心中最美星空
2026-04-26 07:15:09
毛岸英牺牲后江青哼着歌,毛泽东当场沉默,转身认刘思齐做干女儿还多次劝她改嫁

毛岸英牺牲后江青哼着歌,毛泽东当场沉默,转身认刘思齐做干女儿还多次劝她改嫁

史海孤雁
2026-03-16 16:08:07
难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

老谢谈史
2026-04-26 21:27:25
美股存储概念股集体下跌 闪迪跌幅扩大至近7%

美股存储概念股集体下跌 闪迪跌幅扩大至近7%

每日经济新闻
2026-04-28 22:47:19
欧盟贸易高官被曝因不满欧美贸易协议将离职

欧盟贸易高官被曝因不满欧美贸易协议将离职

财联社
2026-04-29 02:24:50
2026-04-29 04:04:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
10112文章数 136527关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

家居
数码
本地
游戏
公开课

家居要闻

江景风格 流动的秩序

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

本地新闻

用青花瓷的方式,打开西溪湿地

这不爽翻了?曝PS6或能稳稳运行60帧+光追的游戏画面

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版