网易首页 > 网易号 > 正文 申请入驻

AAAI 2026|教会视频扩散模型理解科学:从初始帧生成整个物理演化

0
分享至



近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

上述问题的根源在于,这些模型缺乏对科学规律的内在理解。它们学习到的只是像素分布,而非支配这些分布的动力学方程。更糟的是,科学数据具有稀缺性,且缺少语言描述(不像 “a dog is running” 那样易于提示),导致传统 “文本提示 — 图像生成” 范式在科学视频生成任务中失效



现有的视频扩散模型与本文新方法的生成效果对比

文中视频链接:https://mp.weixin.qq.com/s/gXNZp_yJr6xyGDZ1L3d6og

因此,在扩散模型不断重塑视觉生成的今天,一个全新的问题正在浮现:当 AI 可以生成炫丽的自然视频时,是否也能推演 “真实的科学现象”

这正是来自东方理工与上海交大的研究团队在最新研究中提出的挑战。他们在一篇新论文中,提出了一种让视频扩散模型学习 “潜在科学知识” 的全新框架,使模型在给定一帧初始图像的情况下,可以生成更为贴近物理规律的科学现象演化过程—— 例如流体运动、台风路径、湍流结构等。



  • 论文标题:Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame
  • 论文地址:https://arxiv.org/abs/2411.11343

不同于以往依靠语言提示或大规模视觉数据的生成方式,这项方法让模型在 “看懂科学” 的基础上自己推演后续的演化轨迹,在生成式 AI 中注入了 “物理直觉(physical intuition)”。该研究已被人工智能顶会 AAAI 2026 正式接收。



图一:整体算法框架。该方法通过参数高效的微调将潜在的物理现象知识融入视频扩散模型中,从而在数据受限的场景下实现更贴近物理规律的视频生成。

方法介绍

如图一所示,整个方法核心可分为三步:潜在知识提取 → 伪语言提示生成 → 知识引导视频生成。

第一步:从一帧中提取 “潜在科学知识”

研究的起点是极具挑战性的设定:模型只能获得一帧初始图像。在这种情况下,它需要有“潜在科学知识”,从而“推断”出后续的动态演化。为此,作者设计了两种互补的知识提取模块:

  • 静态知识(Static Knowledge)—— 通过预训练的 Masked Autoencoder (MAE) 提取。这一步相当于让模型 “看懂” 一帧图像中隐含的结构规律,例如流场初始条件、温度梯度、云层形态等。不同于一般视觉自监督方法中随意的旋转、噪声扰动,研究者刻意避免破坏物理连续性的增强方式,使 MAE 能在 “科学一致性” 条件下学习。
  • 动态知识(Dynamic Knowledge)— 通过 光流预测网络(Optical Flow Predictor, OFP) 提取,用以捕捉物理系统的运动趋势,如流体方向或旋涡迁移。这一模块让模型 “想象” 科学现象的运动轨迹,从而获得对动力学过程的隐式理解。通过这两个模块,模型获得了一种 “潜在物理直觉”:它不仅看到静态状态,还能感受到变化的方向。

第二步:让科学知识 “说话”—— 伪语言提示生成

扩散模型通常依赖文字提示(prompt)来控制生成,但在科学领域,“语言提示” 很难准确定义。例如,用自然语言准确描述 “一个雷诺数为 10⁵ 的流场如何演化”就极为困难。为此,研究者创新性地利用了 CLIP 模型的跨模态对齐特性。他们将前一步提取的视觉特征与科学知识特征输入 CLIP 的视觉空间中,并通过一种四元数网络(Quaternion Network)进行投影,把这些潜在特征转换成伪语言提示嵌入(pseudo-language embeddings)

这一步的关键思想是,避开文字局限,通过跨模态特征对齐与多维信息融合,使科学知识转化为可被扩散模型解析的引导信号。四元数网络使模型能在多维空间中同时处理图像、静态知识、动态知识与频率信息,从而生成能够引导扩散模型的语义性信号。研究者还将频域(Frequency Domain)特征注入提示生成过程,让模型在 “空间-频率” 两个维度理解科学规律。

第三步:知识引导下的视频生成

在拥有这些 “伪语言提示” 后,研究者将其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力层,通过 LoRA(Low-Rank Adaptation) 的方式进行轻量微调。

在训练阶段,模型从真实的科学视频(如流体仿真、台风演化)中学习如何从噪声逐步重建出物理一致的视频序列;在推理阶段,它只需要输入一帧图像,就能借助潜在知识推演出整个动态过程 —— 实现从 “初态” 到 “演化” 的全程科学生成。这种机制让模型不再仅仅是图像生成器,而是一个能够模拟科学规律的世界现象生成器(World Phenomena Simulator)。

模型结果

研究团队在流体力学仿真数据真实台风观测数据上进行了大规模实验,结合数值精度指标和物理精度指标进行评估。该模型的输出不仅呈现效果更优,更关键的是,它生成得更 “科学”。

在实验中,研究者分别使用了四种典型的流体模拟场景:Rayleigh-Bénard Convection(瑞利 - 贝纳德对流)、Cylinder Flow(圆柱绕流)、DamBreak(溃坝流)和 DepthCharge(深水爆炸 / 水下爆炸)。这些都是流体力学中经典而复杂的物理过程。此外,研究者还将方法应用于真实卫星观测的台风数据,选取了 4 个台风事件(202001、202009、202102、202204),让模型在仅看到一帧初始卫星图像的情况下,推演整个风暴演化。



图二:台风现象生成效果对比。



图三:流体现象生成效果对比。

定性上看,如图二和图三所示,传统视频扩散模型(如 Stable Video Diffusion 或 CogVideoX)往往会 “画出” 违背物理规律的画面。在相同的初始帧下,传统模型生成的流体场常出现 “静止涡旋” 或 “反重力液面”,而本研究的模型则能自然还原出连续的流动与下泄过程。现有模型生成的台风中心漂移、风眼逆转、云层断裂;而新方法生成的视频不仅结构连贯,而且旋转方向、云带卷吸、能量分布都更好的保持了物理合理性。



表一:对流体模拟数据(左)和真实台风数据(右)进行定量评估。

定量上评估,除了传统的 RMSE 和 SSIM 指标,为了验证生成结果是否 “符合科学”,研究团队设还基于六项物理一致性指标,从不同角度评估生成视频是否尊重物理规律:

  • RMSE:像素层误差,衡量整体偏差;
  • SSIM:结构相似性,衡量图像纹理保持程度;
  • SFE(Stream Function Error):流函数误差,检验流体走向与真实场是否一致;
  • SE(Smoothness Error):平滑度误差,考察流场演化是否连贯;
  • GS(Gradient Smoothness):梯度平滑度,评估空间变化是否自然;
  • CS(Continuity Score):连续性得分,检验是否违反质量守恒;
  • QCE(Q-Criterion Error):涡度判据误差,衡量涡旋结构是否被保持;
  • VE(Vorticity Error):旋涡误差,检查流体旋转强度的一致性。

如表一所示,在所有这些指标上,新模型都显著超越了主流方法。例如,在流体模拟任务中,Q-Criterion 误差降低了一个数量级,意味着生成视频的涡旋结构具有更强的物理一致性;而在台风预测任务中,SSIM 提升超过 10%,RMSE 降低 20% 以上,证明生成结果更加贴近真实观测。

总结

综上所述,这项研究展示了生成式 AI 在科学建模方向上的一次有意义的探索。通过让视频扩散模型学习潜在的科学知识,研究团队让 AI 不再只是 “画出” 自然现象,而能 “推演” 出它们的演化逻辑。

在从一帧图像生成出完整科学过程的同时,模型也学会了遵守能量守恒、流体连续性等自然规律。需要明确的是,由于缺少未来边界条件等约束信息,其生成的并非未来真实发展的唯一结果,而是物理上可行的解。这种从 “视觉生成” 到 “科学生成” 的转变,意味着生成模型开始具备理解物理世界的潜能

未来,这一方向有望在气象预测、流体仿真、地球系统建模等领域发挥更大作用,让 AI 真正成为科学家的助手,而不仅是艺术家的画笔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

老范谈史
2025-10-06 23:44:51
越来越看不懂潘展乐了,为何才过一年,就连全运会金牌都拿不到了

越来越看不懂潘展乐了,为何才过一年,就连全运会金牌都拿不到了

赵或是个热血青年
2025-11-13 09:59:18
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

普览
2025-11-10 00:34:31
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

蔡蔡说史
2025-11-15 05:12:34
“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

白马惊天剑
2025-11-16 00:01:02
葡萄牙21岁防守型中场 本赛季10球1助 身价高达9000万欧

葡萄牙21岁防守型中场 本赛季10球1助 身价高达9000万欧

智道足球
2025-11-17 19:37:19
51年曾泽生从朝鲜回国,见过主席之后回家吩咐妻子:北京不能待了

51年曾泽生从朝鲜回国,见过主席之后回家吩咐妻子:北京不能待了

鹤羽说个事
2025-10-25 11:52:27
震惊!杨兰兰案第四次庭审,惊爆全网

震惊!杨兰兰案第四次庭审,惊爆全网

热点菌本君
2025-11-16 17:48:30
马筱梅:受大S委托,照顾其儿女,自己宝宝出生后由妈妈和保姆带

马筱梅:受大S委托,照顾其儿女,自己宝宝出生后由妈妈和保姆带

小咪侃娱圈
2025-11-16 09:18:47
中方打算擒贼先擒王,反击第一枪打向德国,更多手段还在后头

中方打算擒贼先擒王,反击第一枪打向德国,更多手段还在后头

李子橱
2025-11-17 21:25:03
一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

带你感受人间冷暖
2025-11-11 01:15:18
正式退出,王俊杰遗憾,男篮名单公布,原因找到,日本媒体表态

正式退出,王俊杰遗憾,男篮名单公布,原因找到,日本媒体表态

乐聊球
2025-11-17 12:31:06
教科书没讲,甲午海战后,大清海军经过重建,变得到底有多强

教科书没讲,甲午海战后,大清海军经过重建,变得到底有多强

蜉蝣说
2025-10-09 15:21:25
14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

娱乐督察中
2025-10-30 10:33:53
高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

健身狂人
2025-11-17 14:46:43
湖人宣布!你好,詹姆斯!40岁超巨即将赛季首秀

湖人宣布!你好,詹姆斯!40岁超巨即将赛季首秀

篮球实战宝典
2025-11-17 12:06:15
西安一知名中学校长调整

西安一知名中学校长调整

大风新闻
2025-11-17 16:26:26
钝刀子割肉!乌克兰正在徐徐摧毁俄罗斯的石油工业

钝刀子割肉!乌克兰正在徐徐摧毁俄罗斯的石油工业

军迷战情室
2025-11-16 20:22:10
2025-11-17 22:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

媒体:美国核武器进驻日本意味着什么 高市可要想好了

头条要闻

媒体:美国核武器进驻日本意味着什么 高市可要想好了

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

房产
艺术
手机
公开课
军事航空

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

艺术要闻

这雪景,太美了!

手机要闻

三星Galaxy S26系列三款手机参数曝光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版