网易首页 > 网易号 > 正文 申请入驻

你刷到的视频是真的么?用物理规律拆穿Sora谎言

0
分享至



作者张书海是华南理工大学博士四年级学生,主要研究方向为 AI 生成检测、对抗防御、模型加速等,在人工智能国际顶级会议 NeurIPS、ICML、ICLR、CVPR 和 IJCAI、ICCV 以及领域权威期刊 IEEE TIP、TCSVT 和 Neural Networks 发表论文共 15 篇。

随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。其根本原因在于,这些方法大都未能充分利用自然视频所遵循的物理规律,挖掘自然视频的更本质的特征。

真实世界的视觉现象受物理过程支配,而生成模型难以完美遵循这些规律。因此,基于物理时空一致性的生成视频检测范式更具普适性和可解释性。然而,高维时空物理规律通常由复杂偏微分方程刻画,直接建模这些规律极具挑战性,如何构建有效的物理驱动的统计量,仍是核心难题。

本文介绍发表于 NeurIPS 2025 的文章《Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection》。

文章从第一性原理出发,提出了归一化时空梯度(NSG)统计量,通过概率流守恒原理量化视频空间概率梯度与时间密度变化的比值,揭示生成视频中的物理不一致性;理论分析了生成视频与真实视频的NSG 分布差异,证明了生成视频与真实视频在该统计量的 MMD 距离大于真实视频之间的距离;基于该统计量提出了通用的视频检测方法NSG-VD,该方法对自然视频的分布进行建模,不依赖特定生成模型,对未知生成范式(如 Sora)和迁移场景具有较强的检测效果。



  • 论文链接: https://arxiv.org/abs/2510.08073v1
  • 代码链接: https://github.com/ZSHsh98/NSG-VD

实验表明 NSG-VD 方法在 Recall 和 F1-score 指标分别超越已有最新方法 16.00% 和 10.75%。

研究背景:

AI 视频检测的困境

尽管生成式 AI 技术在视频合成领域取得了突破性进展,但检测领域的研究却面临着新的瓶颈。与图像不同,视频同时包含空间结构与时间动态两类复杂依赖关系,其真实演化过程往往受到多种物理约束(如运动连续性、能量守恒等)共同支配。要准确识别生成视频,检测模型不仅需要理解空间纹理的统计特征,还必须捕捉时间维度上连贯且可解释的变化模式。

然而,现有大多数检测方法仍主要聚焦于表层信号的不一致性,如局部光流异常或视觉纹理伪影。这些特征在早期生成模型中较为明显,但在如今高质量的视频生成中已被显著削弱。另一方面,依赖大规模标注数据的深度学习方法虽然在特定数据集上取得了优异表现,却难以泛化至未见过的生成范式,特别是在新兴模型(如 Sora)出现后,检测性能会急剧退化。

因此,当前 AI 视频检测的核心困境在于:如何超越表面特征层面的统计差异,从自然视频的物理演化规律出发,构建一种具有普适性性且对未知生成模型稳健的检测框架。

基于这一思考,作者提出一个关键问题:

如何从视频本身的物理层面刻画自然视频的时空演化规律,从而揭示生成视频中极其细微且潜在的物理异常?

事实上,真实世界中物体的运动遵循着明确的物理约束,例如一辆车从左向右行驶时,其像素的亮度与位置变化应当是连续且符合运动规律的。换言之,我们可将视频的演化过程视为一种「概率流体」的时空流 —— 真实视频中的动态如同稳定、连续的流,而许多 AI 生成的视频则可能在流上表现出断裂、抖动或其他违反物理一致性的异常。

因此,作者将视频的演化过程形式化为一种概率流的时空流动,并通过归一化时空梯度(NSG)统计量来量化这种流的物理一致性。

物理一致性建模:

从概率流守恒到时空梯度

首先将视频帧序列建模为高维空间中的概率分布演化过程。设 x 表示视频帧在空间中的像素表示,t 表示时间,p (x,t) 为视频在时刻 t 的概率密度函数。类比于流体力学中的质量流动 [1],定义概率流密度(probability flow density):



其中 v (x,t) 表示概率流速度场,描述了概率密度在时空中的演化方向与速率。

概率质量守恒要求系统满足连续性方程(continuity equation)[2],这是物理学中描述守恒量传输的基本方程:





将 J (x,t) 代入上式,并对 logp (x,t) 应用链式法则,整理可得:



该式揭示了速度场 v (x,t) 如何同时编码概率分布的时间演化与空间梯度。









归一化时空梯度(NSG)统计量

式(5)表明,真实视频会保持速度场与空间概率梯度对时间密度变化比值的乘积恒定。基于此,定义归一化时空梯度(NSG)统计量:





从物理直觉上看,真实视频的 NSG 呈现平滑连续的「流线」结构,反映出自然运动的连贯性;而 AI 生成视频在此过程中出现断层、抖动等非物理现象,即违反了连续性方程。具体而言:



两者结合后,NSG 为不同视频场景提供了统一的一致性度量特征,可稳健揭示生成视频中的物理异常。

NSG 的计算近似



  • 空间梯度估计:用扩散模型建模梯度特征

现代扩散模型(或更广义的 score-based 模型)本质上学习的是数据分布的 score 函数 [5]:



即概率密度对输入的梯度。这意味着,扩散模型实际上隐式捕获了真实数据在高维空间中的概率流结构。因此,可以用一个预训练的 score 网络 s_θ,来近似计算视频帧的空间概率梯度:



式(8)实现了从生成模型到判别器的转换,作者不再利用扩散模型生成视频,而是让它「感知」视频帧是否符合自然分布的空间结构。

  • 时间导数估计:基于亮度不变假设







  • 总的估计表达式

将上式与 score 估计结合,可得到 NSG 的可计算近似式:



该公式仅需一次 diffusion 模型前向计算(用于获取 s_θ(x_t))与帧间差分,即可在无需显式光流估计或复杂运动分解的情况下,求得视频的 NSG 分布。



NSG-VD:基于物理一致性的时空视频检测框架

在获得 NSG 特征后,作者提出检测算法NSG-VD

核心思想:通过计算待测视频与真实视频参考集在 NSG 特征空间中的分布差异,利用最大均值差异(MMD)作为检测指标,从而揭示生成视频在物理一致性上的异常特征。



检测流程

首先,构建一组真实视频参考集:



并为每个视频 x 提取其在 T 帧上的 NSG 特征序列:









随后,定义检测函数:



其中 I (⋅) 为指示函数,τ 为判定阈值。根据函数输出进行视频真伪分类:



为增强判别能力,作者采用可学习的深度核 [9] 并在训练集数据上对其参数进行训练。

理论保障



该定理表明,真实视频和生成视频的 NSG 特征距离上界与分布偏移程度 μ 有关。分布偏移越小,两者特征距离上界越小;偏移越大,分离越明显。这也意味着真实数据间的 NSG 特征的 MMD 比真实与生成数据间的更小,据此可用 NSG 特征区分真实和生成视频。

实验验证:

跨生成模型与数据场景的性能分析

作者在大型基准 GenVideo 上进行了全面评估,包含 10 个不同的生成模型,涵盖开源和闭源系统。实验表明,NSG-VD 在多个标准评测中显著优于现有基线方法:

标准评测设置下的卓越性能

NSG-VD 在 Kinetics-400(真实视频) 与 Pika(生成视频) 的混合数据训练后,展现出出色的泛化能力。在十类 AI 生成视频上的平均检测性能达到 Recall 88.02%、F1 90.87%,已全面超越此前的最佳方法 DeMamba。特别是在 Sora 等闭源生成模型检测上,NSG-VD 取得了 78.57% 的 Recall,相比 DeMamba 的 48.21% 提升超过 30 个百分点,展现出显著的性能优势。



数据不平衡场景下的鲁棒性

在实际应用中,获取大规模 AI 生成视频 的训练数据往往具有较高成本与难度。为评估模型在更贴近真实场景下的表现,作者在训练集仅包含 1,000 条 SEINE 的生成数据上进行了实验。

结果表明,即使在仅使用 1,000 条 AI 生成视频 进行训练的条件下,NSG-VD 仍展现出显著的稳健性与泛化能力:其在 Sora 上的召回率(Recall)高达 82.14%,远超 DeMamba (33.93%) 与 NPR (10.71%) 等基线模型。这充分验证了 NSG-VD 的高数据效率,其性能提升并非依赖于大规模训练数据,而源于基于物理一致性的第一性原理建模的有效性。



消融研究:验证物理建模的有效性

为进一步验证 NSG 各组成模块的作用,作者进行了系统性的消融实验。

实验结果表明,当仅使用空间概率梯度时,模型的 Recall 为 87.99%;仅使用时间密度变化时,Recall 降至 60.35%。将两者进行物理一致性融合后,NSG-VD 的 Recall 提升至 88.02%,F1 值进一步达到 90.87%。这一结果充分说明,基于物理公式的时空联合建模能够有效捕捉视频生成过程中的细微差异,不仅验证了该建模范式的必要性,也凸显了其显著的性能优势。



决策阈值鲁棒性分析

在实际部署中,方法的超参数敏感性至关重要。对此,作者分析了决策阈值 τ 的影响:

结果表明,在 τ∈[0.7,1.1] 的阈值范围内,NSG-VD 的各项指标(Recall、Accuracy、F1)稳定性,证实了 NSG 特征对真伪视频的强大判别能力。该方法的核心在于物理驱动的时空梯度建模,而非依赖生成器特定伪影,因而能够稳健地检测来源多样的生成内容。



总结与展望

本文提出了基于物理守恒的时空建模视频检测框架 NSG-VD,通过归一化时空梯度(NSG)统计量量化视频在空间和时间维度上的物理一致性,实现对 AI 生成视频的通用检测。实验表明,NSG-VD 在多种生成模型、数据不平衡场景及迁移测试中均表现出卓越的泛化能力和稳健性,显著优于现有方法。

NSG-VD 的核心创新在于将物理一致性约束引入检测任务,通过 NSG 特征捕捉生成视频中潜在的物理规律违例。这种物理驱动范式无需依赖特定生成模式的数据,在面对多样化生成内容时展现出强鲁棒性,即便在数据不平衡场景下也能保持稳定性能。

在当前「真假难辨」的生成时代,NSG-VD 引领我们从「图像的真实」走向「物理的真实」—— 不关注视频有多逼真,而关注其是否遵守物理规律。尽管该方法仍依赖一定的物理假设并存在计算开销,未来工作将着力于开发更精细的物理模型、优化轻量化计算方案,并探索实时检测应用场景的可行性。

参考文献

[1] Hodge, W. B., S. V. Migirditch, and William C. Kerr. "Electron spin and probability current density in quantum mechanics." American Journal of Physics 82.7 (2014): 681-690.

[2] Batchelor, George Keith. An introduction to fluid dynamics. Cambridge university press, 2000.

[3] Panton, Ronald L. Incompressible flow. John Wiley & Sons, 2024.

[4] Böhm, Arno. Quantum mechanics: foundations and applications. Springer Science & Business Media, 2013.

[5] Song, Yang, and Stefano Ermon. "Generative modeling by estimating gradients of the data distribution." Advances in neural information processing systems 32 (2019).

[6] Horn, Berthold KP, and Brian G. Schunck. "Determining optical flow." Artificial intelligence 17.1-3 (1981): 185-203.

[7] Zhang, Shuhai, et al. "Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy." The Twelfth International Conference on Learning Representations.

[8] Zhang, Shuhai, et al. "Detecting adversarial data by probing multiple perturbations using expected perturbation score." International conference on machine learning. PMLR, 2023.

[9] Liu, Feng, et al. "Learning deep kernels for non-parametric two-sample tests." International conference on machine learning. PMLR, 2020.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视曝光!真别在吃了!头皮发麻!市监局通报40批食品抽检不合格

央视曝光!真别在吃了!头皮发麻!市监局通报40批食品抽检不合格

刘哥谈体育
2026-01-21 11:50:01
2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

沙雕小琳琳
2026-01-21 08:08:12
阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

百态人间
2026-01-07 16:41:49
冉莹颖穷到晚上不敢开灯!儿子穿破洞鞋、节约餐费,满墙名包讽刺

冉莹颖穷到晚上不敢开灯!儿子穿破洞鞋、节约餐费,满墙名包讽刺

探索新高度
2026-01-21 12:12:44
2月左右开播!腾讯视频又一部年代剧来袭,阵容我很喜欢

2月左右开播!腾讯视频又一部年代剧来袭,阵容我很喜欢

小邵说剧
2026-01-21 16:29:55
女子用600块彩色冰砖“手搓”冰屋,因“翻车”意外圈粉,网友“云监工”下大功告成!邀游客围炉赏雪吃火锅

女子用600块彩色冰砖“手搓”冰屋,因“翻车”意外圈粉,网友“云监工”下大功告成!邀游客围炉赏雪吃火锅

极目新闻
2026-01-21 11:34:37
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

素衣读史
2026-01-21 16:19:41
江苏省教育厅紧急通知:迟到不处理!江苏家长微信群刷屏了…

江苏省教育厅紧急通知:迟到不处理!江苏家长微信群刷屏了…

教师吧
2026-01-21 13:14:12
陈晓旭走了,周海媚走了,何晴也走了,四大古装美人只有她还活着

陈晓旭走了,周海媚走了,何晴也走了,四大古装美人只有她还活着

凡知
2026-01-20 16:44:16
俄军终于锁定乌克兰命门,集火全力猛攻三座城,乌军现20万逃兵潮

俄军终于锁定乌克兰命门,集火全力猛攻三座城,乌军现20万逃兵潮

百科密码
2026-01-21 16:20:07
开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

文史达观
2026-01-15 14:50:48
2025上海GDP总量全球第五,增速跑赢全国

2025上海GDP总量全球第五,增速跑赢全国

第一财经资讯
2026-01-21 10:03:03
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

比利
2026-01-20 14:37:21
央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢

央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢

趣文说娱
2026-01-21 13:51:14
越媒:9名越南球迷花费人均超1亿越南盾前往沙特观看半决赛

越媒:9名越南球迷花费人均超1亿越南盾前往沙特观看半决赛

懂球帝
2026-01-20 17:50:09
俄军越打越无人化了

俄军越打越无人化了

星火聊天下
2026-01-21 16:03:15
向涵之瘦成钟楚曦?被赞淡颜神女,被粉丝喊妈,御姐秒变含羞少女

向涵之瘦成钟楚曦?被赞淡颜神女,被粉丝喊妈,御姐秒变含羞少女

露珠聊影视
2026-01-21 16:05:28
1937年八路军6个旅长排座次,陈赓竟然只排第五?榜首那位确实惹不起

1937年八路军6个旅长排座次,陈赓竟然只排第五?榜首那位确实惹不起

寄史言志
2026-01-15 12:38:08
惊天发现!斯里兰卡挖出“天价紫星”,估值惊人!远超所有钻石

惊天发现!斯里兰卡挖出“天价紫星”,估值惊人!远超所有钻石

Science科学说
2026-01-20 08:05:03
2026-01-21 17:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12159文章数 142547关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

亲子
艺术
房产
本地
教育

亲子要闻

新华读报|儿童近视越来越早?专家给家长的“近视防控三件套”

艺术要闻

一百多年前的中国,太雄伟震撼了!

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

教育要闻

初中竞赛题:这种指数方程怎么解?数形结合一招搞定

无障碍浏览 进入关怀版