网易首页 > 网易号 > 正文 申请入驻

教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

0
分享至



作者 | 论文团队

编辑 | ScienceAI

近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常「乱画」:如图一所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

上述问题的根源在于,这些模型缺乏对科学规律的内在理解。它们学习到的只是像素分布,而非支配这些分布的动力学方程。更糟的是,科学数据具有稀缺性,且缺少语言描述(不像「a dog is running」那样易于提示),导致传统「文本提示 — 图像生成」范式在科学视频生成任务中失效。



图一:现有的视频扩散模型生成效果。

因此,在扩散模型不断重塑视觉生成的今天,一个全新的问题正在浮现:当 AI 可以生成美丽的自然视频时,能否同样生成「真实的科学现象」?

这正是来自东方理工与上海交大的研究团队在最新研究中提出的挑战。他们在论文《Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame》中,提出了一种让视频扩散模型学习「潜在科学知识」的全新框架,使模型能够仅凭一帧初始图像,就生成更为贴近物理规律的科学现象演化过程—— 例如流体运动、台风路径、湍流结构等。

不同于以往依靠语言提示或大规模视觉数据的生成方式,这项方法让模型在「看懂科学」的基础上自己推演后续的演化轨迹,在生成式 AI 中注入了「物理直觉(physical intuition)」。该研究已被人工智能顶会 AAAI 2026 正式接收。



图二:整体算法框架。该方法通过参数高效的微调将潜在的物理现象知识融入视频扩散模型中,从而在数据受限的场景下实现更贴近物理规律的视频生成。

方法介绍

如图二所示,整个方法核心可分为三步:潜在知识提取 → 伪语言提示生成 → 知识引导视频生成。

第一步:从一帧中提取「潜在科学知识」。研究的起点是极具挑战性的设定:模型只能获得一帧初始图像。在这种情况下,它必须「推断」出后续的动态演化。为此,作者设计了两种互补的知识提取模块:

  • 静态知识(Static Knowledge)—— 通过预训练的 Masked Autoencoder (MAE) 提取。这一步相当于让模型「看懂」一帧图像中隐含的结构规律,例如流场边界、温度梯度、云层形态等。不同于一般视觉自监督方法中随意的旋转、噪声扰动,研究者刻意避免破坏物理连续性的增强方式,使 MAE 能在「科学一致性」条件下学习。
  • 动态知识(Dynamic Knowledge)— 通过 光流预测网络(Optical Flow Predictor, OFP) 提取,用以捕捉物理系统的运动趋势,如流体方向或旋涡迁移。这一模块让模型「想象」科学现象的运动轨迹,从而获得对动力学过程的隐式理解。通过这两个模块,模型获得了一种「潜在物理直觉」:它不仅看到静态状态,还能感受到变化的方向。

第二步:让科学知识「说话」—— 伪语言提示生成。扩散模型通常依赖文字提示(prompt)来控制生成,但在科学领域,「语言提示」几乎无法定义。例如,没有人能准确描述「一个雷诺数为 10⁵ 的流场如何演化」。为此,研究者创新性地利用了 CLIP 模型的跨模态对齐特性。他们将前一步提取的视觉特征与科学知识特征输入 CLIP 的视觉空间中,并通过一种四元数网络(Quaternion Network)进行投影,把这些潜在特征转换成伪语言提示嵌入(pseudo-language embeddings)。

这一步的关键思想是,避开文字局限,通过跨模态特征对齐与多维信息融合,使科学知识转化为可被扩散模型解析的引导信号。四元数网络使模型能在多维空间中同时处理图像、静态知识、动态知识与频率信息,从而生成能够引导扩散模型的语义性信号。研究者还将频域(Frequency Domain)特征注入提示生成过程,让模型在「空间 - 频率」两个维度理解科学规律。

第三步:知识引导下的视频生成。在拥有这些「伪语言提示」后,研究者将其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力层,通过 LoRA(Low-Rank Adaptation) 的方式进行轻量微调。在训练阶段,模型从真实的科学视频(如流体仿真、台风演化)中学习如何从噪声逐步重建出物理一致的视频序列;在推理阶段,它只需要输入一帧图像,就能借助潜在知识推演出整个动态过程 —— 实现从「初态」到「演化」的全程科学生成。这种机制让模型不再仅仅是图像生成器,而是一个能够模拟科学规律的世界现象生成器(World Phenomena Simulator)。

模型结果

研究团队在流体力学仿真数据和真实台风观测数据上进行了大规模实验,结合数值精度指标和物理精度指标进行评估。该模型的输出不仅呈现效果更优,更关键的是,它生成得更「科学」。

在实验中,研究者分别使用了四种典型的流体模拟场景:Rayleigh-Bénard Convection(瑞利 - 贝纳德对流)、Cylinder Flow(圆柱绕流)、DamBreak(溃坝流)和 DepthCharge(深水爆炸 / 水下爆炸)。这些都是流体力学中经典而复杂的物理过程。此外,研究者还将方法应用于真实卫星观测的台风数据,选取了 4 个台风事件(202001、202009、202102、202204),让模型在仅看到一帧初始卫星图像的情况下,推演整个风暴演化。



图三:台风现象生成效果对比。



图四:流体现象生成效果对比。

定性上看,如图三和图四所示,传统视频扩散模型(如 Stable Video Diffusion 或 CogVideoX)往往会「画出」违背物理规律的画面。在相同的初始帧下,传统模型生成的流体场常出现「静止涡旋」或「反重力液面」,而本研究的模型则能自然还原出连续的流动与下泄过程。现有模型生成的台风中心漂移、风眼逆转、云层断裂;而新方法生成的视频不仅结构连贯,而且旋转方向、云带卷吸、能量分布都更好的保持了物理合理性。



表一:对流体模拟数据(左)和真实台风数据(右)进行定量评估。

定量上评估,除了传统的 RMSE 和 SSIM 指标,为了验证生成结果是否「符合科学」,研究团队设还基于六项物理一致性指标,从不同角度评估生成视频是否尊重物理规律:

  • RMSE:像素层误差,衡量整体偏差;
  • SSIM:结构相似性,衡量图像纹理保持程度;
  • SFE(Stream Function Error):流函数误差,检验流体走向与真实场是否一致;
  • SE(Smoothness Error):平滑度误差,考察流场演化是否连贯;
  • GS(Gradient Smoothness):梯度平滑度,评估空间变化是否自然;
  • CS(Continuity Score):连续性得分,检验是否违反质量守恒;
  • QCE(Q-Criterion Error):涡度判据误差,衡量涡旋结构是否被保持;
  • VE(Vorticity Error):旋涡误差,检查流体旋转强度的一致性。

如表一所示,在所有这些指标上,新模型都显著超越了主流方法。例如,在流体模拟任务中,Q-Criterion 误差降低了一个数量级,意味着生成视频的涡旋结构几乎与真实物理场完全重合;而在台风预测任务中,SSIM 提升超过 10%,RMSE 降低 20% 以上,证明生成结果更加贴近真实观测。

总结

综上所述,这项研究展示了生成式 AI 在科学建模方向上的一次有意义的探索。通过让视频扩散模型学习潜在的科学知识,研究团队让 AI 不再只是「画出」自然现象,而能「推演」出它们的演化逻辑。

在从一帧图像生成出完整科学过程的同时,模型也学会了遵守能量守恒、流体连续性等自然规律。这种从「视觉生成」到「科学生成」的转变,意味着生成模型开始具备理解物理世界的潜能。未来,这一方向有望在气象预测、流体仿真、地球系统建模等领域发挥更大作用,让 AI 真正成为科学家的助手,而不仅是艺术家的画笔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

星Xin辰大海
2025-11-18 12:17:46
看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

大铁猫娱乐
2025-11-09 16:47:23
事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

优趣纪史记
2025-08-13 18:46:36
耿宝昌先生遗体告别仪式,在京举行

耿宝昌先生遗体告别仪式,在京举行

新京报
2025-11-17 20:34:28
被抵毁的“东南互保”:实质是不抵抗的爱国

被抵毁的“东南互保”:实质是不抵抗的爱国

深度报
2025-11-17 23:00:01
中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

小七七体育解说
2025-11-18 11:04:46
仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

世界体育圈
2025-11-18 11:47:59
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

阿斚田侃故事
2025-11-03 22:56:11
抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

梁讯
2025-11-18 11:45:34
王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

舞指飞扬
2025-11-18 09:10:27
650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

军霆说
2025-11-18 11:09:04
多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

娱圈小愚
2025-11-18 09:48:30
太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

爱写的樱桃
2025-11-16 21:36:38
活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

喜欢历史的阿繁
2025-11-14 15:35:44
6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

来科点谱
2025-11-17 09:09:40
陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

乡野小珥
2025-11-16 06:43:55
戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

不八卦掌门人
2025-07-25 21:56:46
两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

知鉴明史
2025-11-15 21:31:17
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
疯狂的清朝乡试

疯狂的清朝乡试

汉周读书
2025-11-17 13:36:29
2025-11-18 13:03:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1153文章数 218关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

时尚
教育
旅游
游戏
公开课

听说冷帽是“美女检验神器”?

教育要闻

2026高考缴费今日开启!详细操作步骤来了!(附缴费清单)

旅游要闻

4条线路、5大亮点……快来一场说走就走的“红叶之旅”

CDPR为《赛博朋克2077》中的强尼·银手庆祝生日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版