网易首页 > 网易号 > 正文 申请入驻

AAAI 2026|教会视频扩散模型理解科学:从初始帧生成整个物理演化

0
分享至

近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

上述问题的根源在于,这些模型缺乏对科学规律的内在理解。它们学习到的只是像素分布,而非支配这些分布的动力学方程。更糟的是,科学数据具有稀缺性,且缺少语言描述(不像 “a dog is running” 那样易于提示),导致传统 “文本提示 — 图像生成” 范式在科学视频生成任务中失效

现有的视频扩散模型与本文新方法的生成效果对比

文中视频链接:https://mp.weixin.qq.com/s/gXNZp_yJr6xyGDZ1L3d6og

因此,在扩散模型不断重塑视觉生成的今天,一个全新的问题正在浮现:当 AI 可以生成炫丽的自然视频时,是否也能推演 “真实的科学现象”

这正是来自东方理工与上海交大的研究团队在最新研究中提出的挑战。他们在一篇新论文中,提出了一种让视频扩散模型学习 “潜在科学知识” 的全新框架,使模型在给定一帧初始图像的情况下,可以生成更为贴近物理规律的科学现象演化过程—— 例如流体运动、台风路径、湍流结构等。

  • 论文标题:Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame
  • 论文地址:https://arxiv.org/abs/2411.11343

不同于以往依靠语言提示或大规模视觉数据的生成方式,这项方法让模型在 “看懂科学” 的基础上自己推演后续的演化轨迹,在生成式 AI 中注入了 “物理直觉(physical intuition)”。该研究已被人工智能顶会 AAAI 2026 正式接收。

图一:整体算法框架。该方法通过参数高效的微调将潜在的物理现象知识融入视频扩散模型中,从而在数据受限的场景下实现更贴近物理规律的视频生成。

方法介绍

如图一所示,整个方法核心可分为三步:潜在知识提取 → 伪语言提示生成 → 知识引导视频生成。

第一步:从一帧中提取 “潜在科学知识”

研究的起点是极具挑战性的设定:模型只能获得一帧初始图像。在这种情况下,它需要有“潜在科学知识”,从而“推断”出后续的动态演化。为此,作者设计了两种互补的知识提取模块:

  • 静态知识(Static Knowledge)—— 通过预训练的 Masked Autoencoder (MAE) 提取。这一步相当于让模型 “看懂” 一帧图像中隐含的结构规律,例如流场初始条件、温度梯度、云层形态等。不同于一般视觉自监督方法中随意的旋转、噪声扰动,研究者刻意避免破坏物理连续性的增强方式,使 MAE 能在 “科学一致性” 条件下学习。
  • 动态知识(Dynamic Knowledge)— 通过 光流预测网络(Optical Flow Predictor, OFP) 提取,用以捕捉物理系统的运动趋势,如流体方向或旋涡迁移。这一模块让模型 “想象” 科学现象的运动轨迹,从而获得对动力学过程的隐式理解。通过这两个模块,模型获得了一种 “潜在物理直觉”:它不仅看到静态状态,还能感受到变化的方向。

第二步:让科学知识 “说话”—— 伪语言提示生成

扩散模型通常依赖文字提示(prompt)来控制生成,但在科学领域,“语言提示” 很难准确定义。例如,用自然语言准确描述 “一个雷诺数为 10⁵ 的流场如何演化”就极为困难。为此,研究者创新性地利用了 CLIP 模型的跨模态对齐特性。他们将前一步提取的视觉特征与科学知识特征输入 CLIP 的视觉空间中,并通过一种四元数网络(Quaternion Network)进行投影,把这些潜在特征转换成伪语言提示嵌入(pseudo-language embeddings)

这一步的关键思想是,避开文字局限,通过跨模态特征对齐与多维信息融合,使科学知识转化为可被扩散模型解析的引导信号。四元数网络使模型能在多维空间中同时处理图像、静态知识、动态知识与频率信息,从而生成能够引导扩散模型的语义性信号。研究者还将频域(Frequency Domain)特征注入提示生成过程,让模型在 “空间-频率” 两个维度理解科学规律。

第三步:知识引导下的视频生成

在拥有这些 “伪语言提示” 后,研究者将其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力层,通过 LoRA(Low-Rank Adaptation) 的方式进行轻量微调。

在训练阶段,模型从真实的科学视频(如流体仿真、台风演化)中学习如何从噪声逐步重建出物理一致的视频序列;在推理阶段,它只需要输入一帧图像,就能借助潜在知识推演出整个动态过程 —— 实现从 “初态” 到 “演化” 的全程科学生成。这种机制让模型不再仅仅是图像生成器,而是一个能够模拟科学规律的世界现象生成器(World Phenomena Simulator)。

模型结果

研究团队在流体力学仿真数据真实台风观测数据上进行了大规模实验,结合数值精度指标和物理精度指标进行评估。该模型的输出不仅呈现效果更优,更关键的是,它生成得更 “科学”。

在实验中,研究者分别使用了四种典型的流体模拟场景:Rayleigh-Bénard Convection(瑞利 - 贝纳德对流)、Cylinder Flow(圆柱绕流)、DamBreak(溃坝流)和 DepthCharge(深水爆炸 / 水下爆炸)。这些都是流体力学中经典而复杂的物理过程。此外,研究者还将方法应用于真实卫星观测的台风数据,选取了 4 个台风事件(202001、202009、202102、202204),让模型在仅看到一帧初始卫星图像的情况下,推演整个风暴演化。

图二:台风现象生成效果对比。

图三:流体现象生成效果对比。

定性上看,如图二和图三所示,传统视频扩散模型(如 Stable Video Diffusion 或 CogVideoX)往往会 “画出” 违背物理规律的画面。在相同的初始帧下,传统模型生成的流体场常出现 “静止涡旋” 或 “反重力液面”,而本研究的模型则能自然还原出连续的流动与下泄过程。现有模型生成的台风中心漂移、风眼逆转、云层断裂;而新方法生成的视频不仅结构连贯,而且旋转方向、云带卷吸、能量分布都更好的保持了物理合理性。

表一:对流体模拟数据(左)和真实台风数据(右)进行定量评估。

定量上评估,除了传统的 RMSE 和 SSIM 指标,为了验证生成结果是否 “符合科学”,研究团队设还基于六项物理一致性指标,从不同角度评估生成视频是否尊重物理规律:

  • RMSE:像素层误差,衡量整体偏差;
  • SSIM:结构相似性,衡量图像纹理保持程度;
  • SFE(Stream Function Error):流函数误差,检验流体走向与真实场是否一致;
  • SE(Smoothness Error):平滑度误差,考察流场演化是否连贯;
  • GS(Gradient Smoothness):梯度平滑度,评估空间变化是否自然;
  • CS(Continuity Score):连续性得分,检验是否违反质量守恒;
  • QCE(Q-Criterion Error):涡度判据误差,衡量涡旋结构是否被保持;
  • VE(Vorticity Error):旋涡误差,检查流体旋转强度的一致性。

如表一所示,在所有这些指标上,新模型都显著超越了主流方法。例如,在流体模拟任务中,Q-Criterion 误差降低了一个数量级,意味着生成视频的涡旋结构具有更强的物理一致性;而在台风预测任务中,SSIM 提升超过 10%,RMSE 降低 20% 以上,证明生成结果更加贴近真实观测。

总结

综上所述,这项研究展示了生成式 AI 在科学建模方向上的一次有意义的探索。通过让视频扩散模型学习潜在的科学知识,研究团队让 AI 不再只是 “画出” 自然现象,而能 “推演” 出它们的演化逻辑。

在从一帧图像生成出完整科学过程的同时,模型也学会了遵守能量守恒、流体连续性等自然规律。需要明确的是,由于缺少未来边界条件等约束信息,其生成的并非未来真实发展的唯一结果,而是物理上可行的解。这种从 “视觉生成” 到 “科学生成” 的转变,意味着生成模型开始具备理解物理世界的潜能

未来,这一方向有望在气象预测、流体仿真、地球系统建模等领域发挥更大作用,让 AI 真正成为科学家的助手,而不仅是艺术家的画笔。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS 27 将为新机带来分屏显示功能!

iOS 27 将为新机带来分屏显示功能!

花果科技
2026-06-03 17:08:32
四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

阿讯说天下
2026-06-03 03:14:05
上海一女子吐槽老公:每天在家躺着工资却比自己高倍

上海一女子吐槽老公:每天在家躺着工资却比自己高倍

周哥一影视
2026-06-03 09:26:02
中方定性,16国联合军团围剿俄,日本已正式介入

中方定性,16国联合军团围剿俄,日本已正式介入

玲儿爱唱歌
2026-06-03 12:30:42
白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

展望云霄
2026-05-18 22:30:18
俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

闻号说经济
2026-06-02 10:43:10
小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

刘振起观点
2026-06-03 15:35:08
马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

漫川舟船
2026-06-03 09:44:51
送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

上观新闻
2026-06-03 08:22:20
外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

混沌录
2026-06-02 22:58:17
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

月颖资金推动论
2026-06-03 16:44:43
疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

澜归序
2026-06-03 05:43:27
CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

中国篮坛快讯
2026-06-03 15:00:02
重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

听心堂
2026-06-03 16:16:08
中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

风信子的花
2026-06-03 16:32:08
名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

娱圈观察员
2026-06-03 01:18:06
王楚钦上任仅24小时,丑闻频发引争议

王楚钦上任仅24小时,丑闻频发引争议

萧狡科普解说
2026-06-03 13:03:31
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
2026-06-03 17:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

艺术
本地
教育
健康
公开课

艺术要闻

二十年前割麦的场景

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

高考预警通知和物业欠费严重、几个美国消息和人工智能救人

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版