网易首页 > 网易号 > 正文 申请入驻

别被「更像真的视频」骗了,AI视频生成,还远未真正学会物理世界

0
分享至



这两年,视频生成模型进步很快。清晰度更高了,镜头更稳了,人物和场景看上去也越来越自然。很多时候,我们判断一个模型强不强,看的就是它 “像不像真的”。但这其实只回答了一半的问题:它看起来像真的,不代表它真的符合现实世界的物理规律。这件事放在短视频生成里,也许只是 “偶尔有点怪”;但如果视频模型真的要往 world model、仿真系统、具身智能这些方向走,问题就不一样了。一个模型如果连物体怎么接触、状态怎么变化、事件怎么按因果顺序发生都搞不清楚,那它再像,也只是像。



现在的视频评测,更像是在比 “好不好看”

目前,视频生成领域常见的评测方式,要么看自动指标,要么让人直接选 “哪个视频更好”。这种方式当然有意义,它能比较清晰度、流畅度、观感这些东西,但它很难告诉你:视频里到底有没有违反基本物理常识

比如,一个物体是不是无缘无故消失了;两个东西是不是明明没接触却发生了交互;一个动作的结果是不是和前面的过程根本对不上。这些问题,才真正关系到模型是在 “生成一个像真的画面”,还是在 “模拟一个可信的世界”。

Physion-Eval:从 “视觉真实” 走向 “物理真实” 的新 benchmark

这篇工作提出了Physion-Eval。它不是再做一个 “谁的视频更好看” 的排行榜,而是想认真回答一个更关键的问题:AI 生成的视频,在物理层面到底有多真实



  • 论文标题: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者单位:Physion Labs,斯坦福大学,MIT,哈佛大学,Character AI
  • 论文链接: https://arxiv.org/abs/2603.19607
  • 数据集链接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 视频链接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

这个 benchmark 同时覆盖第一人称和第三人称场景,包含10,990 条专家推理轨迹,覆盖22 类细粒度物理现象。和常见评测不太一样的地方在于,这里的每条样本不只是简单打个分,而是会标出错误发生在什么时候、属于哪一类问题,以及为什么不对

数据上,第三人称部分来自WISA-80K,第一人称部分基于EPIC-KITCHENS构建。为了保证标注质量,论文组织了90 位具有 STEM 背景并接受过本科物理训练的专家标注者,采用双人标注和资深专家裁决的流程,最后得到的是带时间戳、错误类别和文字解释的高质量标注。

在这一过程中,人类智能所展现出的优势尤为明显:人类不仅能够识别视觉上的异常,更能够基于物理直觉与因果理解,对复杂的动态过程进行推理和解释。相比之下,即使是当前最先进的多模态模型,在时序一致性、交互合理性以及隐含物理规律的判断上,仍存在明显不足。





最直接的结论:现在的模型,还远谈不上 “物理一致”

这篇工作的主结论其实很简单,也很扎眼:在物理过程敏感的场景里,83.3% 的第三人称生成视频和 93.5% 的第一人称生成视频,都至少包含一个人类可以明确识别的物理错误。这说明什么?说明今天的视频模型确实越来越会制造 “真实感” 了,但离 “真正符合物理规律” 还有很远。



而且这些错误不是零零散散的小毛病,而是系统性的。论文里总结的典型问题包括:接触或交互失败、对象突然出现或消失、时间连贯性崩塌、因果顺序错乱、材料或状态变化异常、几何碰撞不合理等等。换句话说,问题不只是 “画面有点假”,而是模型对物体、接触、运动和结果之间最基本的关系,还经常搞错。



很多错误不是粗糙,而是 “看着像,但其实完全不对”

Physion-Eval 里最有意思的地方,其实是那些具体例子。它们不是那种一眼就看出来的低级 bug,而是第一眼好像还行,仔细一想却明显不符合常识。

比如,桌面上突然多出一把本来不存在的刀;瓶口朝下,液体却不往下流;水直接穿过锅底;又或者一个锅被两根手指以几乎不可能的方式拎起来。它们的问题不在于 “渲染不精细”,而在于直接违背了物体守恒、重力、不可穿透性和稳定接触这些最基本的物理规律。

这也是为什么我们觉得,这项工作不只是 “又多了一个 benchmark”。它更像是在提醒大家:今天很多模型也许已经很会生成 “像真的视频”,但还远没有学会 “世界为什么会这样动”。





更麻烦的是,连最强的多模态模型也不太会看这些错误

论文还问了另一个很现实的问题:那能不能让现在的大模型来当 “自动评委”,替人判断一个视频有没有物理问题?

答案是,暂时还不行。

文章评估了10 个开源和闭源的 MLLM critic,结果显示,它们和人类判断之间还有明显差距。以Gemini 3.0 Pro为例,它会漏掉超过74.4% 的第三人称错误视频和 90.1% 的第一人称错误视频。而且它们不只是漏检,还会把错误发生的时间说错,甚至编出根本不存在的原因。

这点其实很关键。因为如果以后大家真想靠自动 critic 去评估 world model 或视频生成系统,那 critic 本身至少得先真的看懂视频里的物理过程。就目前来看,人类判断依然是最可靠的标准。









越是高动态的物理过程,越容易暴露当前模型的短板

论文进一步从physical intensitydynamics两个维度分析了生成模型与市面上已有的 MLLM critic 的表现。结果表明,相比强度大小,过程本身的动态性和复杂性更容易暴露视频生成模型的物理建模缺陷。对 MLLM critic 来说也是如此:只有当错误足够明显时,它们才会表现出有限的判断能力,但整体仍明显落后于人类。







总结

Physion-Eval 想指出的,不只是 “现在的视频生成模型还不够强”,而是一个更根本的问题:当行业越来越关注视频 “看起来有多真” 的时候,我们可能忽略了它 “实际上对不对”

对于真正想做 world model、机器人、具身智能和仿真的人来说,这个问题绕不过去。画面更清晰、动作更顺滑,当然重要;但如果物体会无故出现,液体不会往下流,动作结果和前因对不上,那模型就还没有真正学会世界的运行方式。

视频生成下一阶段,也许不该只继续卷观感,而应该更认真地去解决物体持续性、接触关系、状态变化、时序一致性和因果结构这些更本质的问题。“看起来对”,从来不等于 “实际上对”

作者介绍

本文由来自美国顶级科技公司与世界一流高校的豪华作者阵容共同完成,集结 Physion Labs、斯坦福大学、MIT、哈佛大学及 Character AI 的核心研究者。其中,Physion Labs 团队(Qin Zhang、Peiyu Jing、Bing Shuai)长期专注于生成式视频与世界模型中的物理一致性问题,构建了面向行业的评估基础设施与数据闭环,致力于成为下一代生成模型的 “物理可信层”。其余作者包括斯坦福大学的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工学院的 Fangqiang Ding,哈佛大学的 Yilun Du,以及 Character AI 的 Weimin Wang 等业内顶尖学者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大瓜!麻豆传媒突然停止运营

大瓜!麻豆传媒突然停止运营

新浪财经
2026-04-03 13:54:38
清明前后,6种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

清明前后,6种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

阿龙美食记
2026-04-02 22:07:37
张雪师父发声:夺冠后两人通话泣不成声;曾数十次借钱给张雪,建议他造车:是你成为世界冠军的唯一可能

张雪师父发声:夺冠后两人通话泣不成声;曾数十次借钱给张雪,建议他造车:是你成为世界冠军的唯一可能

大风新闻
2026-04-02 14:31:06
苹果把充电口改细了1毫米,官方配件当场报废

苹果把充电口改细了1毫米,官方配件当场报废

全栈遛狗员
2026-04-03 07:27:27
专访驾驶张雪机车夺冠的34岁法国“流浪车手”瓦伦丁·德比斯:因为张雪的一句话,我确定必须加入车队

专访驾驶张雪机车夺冠的34岁法国“流浪车手”瓦伦丁·德比斯:因为张雪的一句话,我确定必须加入车队

每日经济新闻
2026-04-02 16:05:08
华人父女新加坡家中身亡更多细节披露:女儿系剑桥博士,去世时仅重24公斤

华人父女新加坡家中身亡更多细节披露:女儿系剑桥博士,去世时仅重24公斤

红星新闻
2026-04-03 12:21:07
中央批准:林涛任福建省委常委和厦门市委书记

中央批准:林涛任福建省委常委和厦门市委书记

新浪财经
2026-04-03 17:54:42
政治局委员马兴瑞落马 曾任新疆书记

政治局委员马兴瑞落马 曾任新疆书记

互联网大观
2026-04-03 18:36:03
“所有都要涨,最高可能30%!”杭州有店员直言:4月中旬前买最划算

“所有都要涨,最高可能30%!”杭州有店员直言:4月中旬前买最划算

都市快报橙柿互动
2026-04-03 19:15:34
起内讧了?伊朗总统反对再这样打下去,要求革命卫队交出战时大权

起内讧了?伊朗总统反对再这样打下去,要求革命卫队交出战时大权

知法而形
2026-04-01 18:49:55
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

Ping值焦虑
2026-04-03 09:37:23
一级演员张如君逝世,享年94岁,《描金凤》《李双双》《弦索春秋》深受欢迎

一级演员张如君逝世,享年94岁,《描金凤》《李双双》《弦索春秋》深受欢迎

上观新闻
2026-04-03 13:20:06
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
伊朗议长称一周内已动员700万人为国而战,哈尔克岛加强防御应对美军地面战

伊朗议长称一周内已动员700万人为国而战,哈尔克岛加强防御应对美军地面战

红星新闻
2026-04-03 16:36:19
陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

极目新闻
2026-04-03 14:47:02
陈光标到底是怎么发家的?他为什么有那么多钱可以捐?

陈光标到底是怎么发家的?他为什么有那么多钱可以捐?

担扑
2026-04-03 13:56:56
马兴瑞被查

马兴瑞被查

南方都市报
2026-04-03 18:13:26
法国前总理说美帝走向衰落

法国前总理说美帝走向衰落

财联社
2026-04-03 14:42:07
广东省惠州市人大常委会原副主任温小林被“双开”

广东省惠州市人大常委会原副主任温小林被“双开”

界面新闻
2026-04-03 17:05:00
中纪委打虎!马兴瑞被查

中纪委打虎!马兴瑞被查

上观新闻
2026-04-03 18:33:10
2026-04-03 20:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12677文章数 142605关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

吉林下大雪致珲乌高速发生事故 目击者:多车连环追尾

头条要闻

吉林下大雪致珲乌高速发生事故 目击者:多车连环追尾

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

时尚
房产
手机
数码
公开课

怎么她们都穿成18世纪的粉彩画?

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

手机要闻

工信部提醒苹果用户:iOS 13至17.2.1存在高危漏洞,请尽快升级

数码要闻

蓝宝石推出PULSE S RX 9060 XT 8G / PRO RX 9070 GRE 12G显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版