网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步

0
分享至


视频智能正从画面生成走向运动控制、动态建模、信号理解与真实场景应用。

作者丨郑佳美

编辑丨马晓宁

过去,视频生成更多是在解决“像不像”的问题:人物是否清晰,画面是否流畅,风格是否统一。但随着模型能力提升,视频真正困难的部分开始显现出来——它不是一组漂亮帧的连续播放,而是一个由时间、空间、运动、相机、光照和物理信号共同构成的动态系统。

只要模型无法理解这些隐含结构,它生成的视频就可能看似逼真,却在运动逻辑、视角一致性或真实场景适应上露出破绽。因此,视频智能正在进入一个更深的阶段:不只是生成画面,而是理解画面为什么会这样变化。

从运动轨迹编辑、3D 结构约束、可迭代文生视频,到自适应视频 token、长期运动表征、频闪去除、热成像分离和地球观测模型,研究者实际上都在处理同一个底层问题:如何让模型把视频从“像素序列”理解为“动态世界”。

这也是今年 CVPR 相关方向中一个值得注意的信号——视频模型的竞争重心,正在从视觉质量转向对时间、空间和物理规律的建模能力。

换句话说,视频 AI 的下一步,不是单纯把视频生成得更长、更清楚、更炫,而是让模型知道运动从哪里来、结构为什么稳定、信号如何形成,以及复杂场景中的变化如何被预测和控制。

当这些能力逐渐补齐,视频模型才可能真正从内容生成工具,走向能够理解、编辑和推演现实世界的动态智能系统。

01


从改画面到改运动

视频生成和视频编辑正在从“画面是否好看”,走向“运动是否可控”。谷歌和石溪大学共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改视频风格或局部外观,而是直接编辑视频里的“运动”。

比如让人物换方向、让物体晚一点出现,或在保留场景内容的同时改变镜头运动。现有方法一旦涉及物体运动、相机轨迹或时间顺序变化,就很难保留原视频后续帧中已有的内容。

MotionV2V 的核心思路是把视频运动表示成稀疏轨迹点,并让用户直接编辑这些轨迹。系统先从输入视频中提取物体或场景点的原始运动轨迹,用户再指定目标运动,模型根据“原始轨迹”和“目标轨迹”之间的差异生成编辑后的视频。论文把这种差异称为 motion edit,并用它指导视频扩散模型,在尽量保留原视频内容的同时,让目标物体或相机按新的方式运动。


论文地址:https://arxiv.org/pdf/2511.20640v1

它的亮点在于,MotionV2V 不是从单张图片重新生成视频,而是真正以完整输入视频为条件进行 video-to-video motion editing。因此它可以利用视频中任意时间点的信息,处理首帧里还没出现的物体,也能支持物体运动、相机运动、时间控制和连续多次编辑。

作者还构建了 motion counterfactuals,即内容相同但运动不同的视频对,用来微调 motion-conditioned video diffusion 架构。从论文对比来看,MotionV2V 在内容保留、运动控制和整体编辑质量上优于已有方法,用户研究中也获得约 70% 的偏好率。整体来看,这篇论文把视频编辑从“改外观”推进到“改运动”。


当运动编辑涉及相机、物体和非刚性形变时,仅靠 2D 运动线索往往不够。Adobe 和马里兰大学帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》进一步使用 3D point tracks 作为统一的运动控制表示,同时改变视频里的相机运动和物体运动。

系统会先估计输入视频中的相机参数和 3D 点轨迹,用户编辑相机运动或物体轨迹后,再由 video-to-video 生成模型合成新视频。


论文地址:https://arxiv.org/pdf/2512.02015v1

相比 2D 轨迹,3D 轨迹提供了深度信息,可以帮助模型判断遮挡关系、前后层次和真实空间运动。论文还设计了 3D track conditioner,通过 cross-attention 从输入视频中采样视觉上下文,并把这些信息对齐到目标帧空间中,让模型在改变运动的同时保持画面连贯。

由于真实世界中很难获得成对训练数据,作者采用两阶段训练:先用合成数据学习基础运动控制,再用真实单目视频构造非连续片段对,缩小合成到真实的差距。整体来看,这篇论文把视频运动编辑推进到更 3D-aware 的阶段,也支持运动迁移、非刚性变形、物体移除和复制等效果。


如果输入只有一张物体图像,模型如何在相机绕物体旋转时生成稳定、真实、结构一致的视频?澳大利亚国立大学和亚马逊共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是从单张物体图像生成 orbital video。现有视频生成方法在大角度视角变化时缺少可靠像素对应关系,容易生成结构扭曲或不合理的物体形状。


论文地址:https://arxiv.org/pdf/2604.12309

这篇论文的核心思路是引入 3D foundation model 中学到的形状先验,用它辅助视频扩散模型生成更稳定的环绕视频。模型从单张输入图像中提取两类 3D latent features:全局 latent vector 提供整体结构指导,体积特征投影得到的 latent images 提供随视角变化的几何细节。

相比深度图或法线图,这些 3D latent features 能表达更完整的物体形状,也避免显式提取 mesh 的额外开销。作者还设计了 multi-scale 3D adapter,把不同尺度的 3D 特征接入基础视频模型,从而提升生成视频的真实感、物体形状合理性和多视角一致性。


谷歌和新加坡国立大学共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》则把重点放在生成流程本身:当用户给出文本想法后,系统能不能反复评估、反思和修改,直到生成更符合意图的视频。

它研究的是 test-time self-improvement,也就是不重新训练视频生成模型,而是在推理阶段通过反复评价和改写 prompt 来提升结果。

VISTA 会先把用户想法拆成带有时间结构的场景计划,包括时长、角色、动作、对白、环境、相机、声音和情绪等要素;生成多个候选视频后,通过 pairwise tournament 选出当前最好结果;随后由视觉、音频和上下文评审智能体提出意见,最后由 reasoning agent 综合反馈并改写 prompt,进入下一轮生成。


论文地址:https://arxiv.org/pdf/2510.15831

它的亮点在于,VISTA 不是只优化某个指标,而是把视频规划、候选筛选、多维度评价和提示词重写串成自动闭环。论文中提到,VISTA 在自动指标下相较先进基线最高达到 60% 的 pairwise win rate,在人工评测中也获得 66.4% 的偏好率。整体来看,它把文生视频从“一次性生成”推进到“生成—评价—反思—再生成”。


02


让模型先学会「怎么动」

要让视频模型更好地生成和编辑内容,底层表示也需要更高效。上海交通大学、香港中文大学多媒体实验室、上海人工智能实验室 OpenGVLab、同济大学、清华大学共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是视频 tokenization 问题,也就是如何把连续视频帧压缩成更适合自回归模型处理的离散 token。


论文地址:https://arxiv.org/pdf/2505.17011v2

AdapTok 的核心思路是让视频 token 分配变得自适应。它不是给每个时间段分配同样多的 token,而是根据视频内容、时间变化和整体预算,动态决定哪里多用 token、哪里少用 token。

它使用 1D latent token space 表示视频,并引入 temporal causality,让前面帧的编码和解码不依赖未来帧,更适合流式处理和自回归生成;同时通过 block-wise masking、block causal scorer 和 IPAL 策略完成自适应分配。

这样一来,运动明显、场景变化大的片段会获得更多 token,静态或冗余片段则使用更少 token。在 UCF-101 和 Kinetics-600 任务中,AdapTok 在不同 token 预算下都能提升重建质量和生成表现。


AdapTok 解决的是视频如何被高效表示,而 CompVis @ LMU、MCML 和苹果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》进一步追问:如果只是理解未来怎么动,是否一定要完整生成像素视频。论文转向学习一种更紧凑的 long-term motion embedding,用来表示场景中的长期运动规律。

它从大规模 tracker 模型得到的轨迹数据中学习压缩运动空间,把稀疏轨迹和起始帧编码成 latent motion grid,并可在任意空间查询点上重建密集运动;随后在这个运动 latent 空间里训练 conditional flow-matching 模型,根据文本任务描述或 spatial pokes 生成长期运动。这种表示可达到 64 倍时间压缩,也就是说模型不用逐帧生成视频,就能在更抽象的运动空间中推断未来动态。


论文地址:https://arxiv.org/pdf/2604.11737

这篇论文的亮点在于,它把“生成视频”拆成了更基础的“生成运动”。这种 kinematics-first 方式更适合探索多个可能未来,也更适合机器人规划、轨迹预测和长期动态建模。

在开放域互联网视频和 LIBERO 机器人基准上,它的运动生成质量、条件遵循能力和效率都优于专门轨迹预测方法以及 Wan、Veo 3 等视频模型基线。整体来看,AI 不一定要先“画出未来”,也可以先学会“未来应该怎么动”。


03


从修复画面到理解信号来源

除了生成和编辑,视频与图像研究也在关注如何从复杂成像退化中恢复可靠信息。南开大学国际先进研究院、鹏城实验室、南开大学计算机学院、香港理工大学、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光连拍图像中的 flicker artifact 去除问题。

这类退化由人工光源频闪和 rolling shutter 共同造成,表现为条纹状、明暗不均的闪烁,不能简单当作普通噪声或低光增强处理。

Flickerformer 的核心思路是利用闪烁退化的周期性和方向性。周期性来自交流电光源亮度变化,方向性与相机逐行扫描机制有关。针对这两个特点,Flickerformer 设计了 PFM、AFFN 和 WDAM 三个模块,分别用于帧间相位相关融合、单帧自相关建模,以及小波域方向性高频修复。


论文地址:https://arxiv.org/pdf/2603.22794v1

它的亮点在于,把频闪本身的物理先验嵌入网络结构里,而不是把 flicker removal 当成普通图像增强任务。在 BurstDeflicker benchmark 上,Flickerformer 超过多种图像复原和 burst restoration 方法,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整体来看,这篇论文让模型能够更准确地去除条纹闪烁,同时保留细节并减少重影。


类似思路也出现在热成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是热成像中的发射 / 反射分离问题。

热相机看到的长波红外信号既可能来自物体自身热辐射,也可能来自周围环境反射;在接近室温的日常场景中,这两部分信号强度接近且都会随时间变化,因此很难判断亮暗变化到底来自物体温度变化,还是背景反射。


论文地址:https://arxiv.org/pdf/2509.11334

论文提出 dual-band thermal videography,用两个长波红外子波段视频分离“物体自身发射”和“背景反射”。它同时利用光谱线索和时间线索:同一材料在两个波段中的发射率比例相对固定,而物体热传导变化通常更平滑、背景反射变化更快。

实验中,方法能把咖啡壶升温时的热发射与旁边移动人物的反射分开,也能区分玻璃板上的手指热印和手指反射。在酒杯和咖啡壶视频中的非校准温度估计误差分别约为 1.72% 和 5.34%。整体来看,这篇论文把热成像从“看到温度分布”推进到“理解热信号来源”。


04


让视觉模型进入真实世界任务

当视觉模型进入遥感和地球观测场景时,问题会比普通图像更复杂:模型不仅要处理图像,还要同时理解时间序列、多源数据和地图标注。艾伦人工智能研究所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学联合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球观测数据的多模态基础模型。

地球观测数据既有图像空间结构,也有类似视频或文本的时间序列特征,还包含卫星影像、地图、地形、作物、土地覆盖等多种模态。

这篇论文提出的模型叫 OlmoEarth,目标是让地球观测基础模型更稳定、更高效,也更容易落地到环保、人道主义和公共利益相关任务中。它不只训练模型,还配套构建端到端平台,用于数据收集、标注、训练和推理,降低真实组织使用前沿地球观测模型的门槛。


论文地址:https://arxiv.org/pdf/2511.13655

OlmoEarth 的核心方法是 Latent MIM Lite。它用随机初始化、训练中冻结的线性投影层,把图像 patch 投到 token 空间作为预测目标,在保留 latent modeling 表征能力的同时提升训练稳定性。这个设计还把自监督数据和带标注地图数据统一到同一个 token 空间里,让模型可以用相同损失学习观测数据和标签地图。

针对遥感数据空间、时间和模态高度冗余的问题,OlmoEarth 采用 modality-aware masking,让模型必须从其他时间、空间或模态中推断缺失信息;同时只在同一 bandset 内进行 token 对比,避免大量“太容易”的负样本削弱训练效果。

综合评估中,OlmoEarth 与 12 个其他基础模型相比,在 embedding 评估中于 24 个任务里的 15 个取得最好表现;在 full fine-tuning 设置下,于 29 个任务里的 19 个取得最好表现。整体来看,这篇论文为地球观测任务提出了一个更稳定、更开放、更面向真实应用的多模态基础模型体系。


这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

【限额5位,先到先得】

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣!中超截至第14轮射手榜前5名 申花标王拉唐 依然在海报里

官宣!中超截至第14轮射手榜前5名 申花标王拉唐 依然在海报里

80后体育大蜀黍
2026-05-25 19:53:30
三人小组调查结果出炉:马英九自己把钱用了!

三人小组调查结果出炉:马英九自己把钱用了!

达文西看世界
2026-05-24 16:28:11
陕西老总3年赚42亿,女秘书换12个,知情人士吐露:吃人不吐骨头

陕西老总3年赚42亿,女秘书换12个,知情人士吐露:吃人不吐骨头

悬案解密档案
2025-05-19 14:44:14
专家解读塞尔维亚总统访华:提升国际关注度,推动多领域合作

专家解读塞尔维亚总统访华:提升国际关注度,推动多领域合作

南方都市报
2026-05-21 22:44:24
摩根大通:预计标普500指数未来一年内将突破9000点 AI超级周期或比想象更牛

摩根大通:预计标普500指数未来一年内将突破9000点 AI超级周期或比想象更牛

财联社
2026-05-25 14:24:08
伟伟道来 | 浅议美以伊三国的成败得失

伟伟道来 | 浅议美以伊三国的成败得失

经济观察报
2026-05-25 11:32:00
上海老教授临终捐空房产,养子整理遗物找到结婚证,翻开后瘫坐在地

上海老教授临终捐空房产,养子整理遗物找到结婚证,翻开后瘫坐在地

红豆讲堂
2025-05-09 09:55:16
血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

芹姐说生活
2026-05-22 16:15:25
为啥生物拉出来的排泄物都是臭的,没有其他味道的?有啥科学解释

为啥生物拉出来的排泄物都是臭的,没有其他味道的?有啥科学解释

向航说
2026-05-21 00:55:03
这3种鱼中老年人要常吃,不是鲈鱼、不是鲫鱼,刺少、低脂高蛋白

这3种鱼中老年人要常吃,不是鲈鱼、不是鲫鱼,刺少、低脂高蛋白

江江食研社
2026-05-24 14:30:07
中纪委通报:这些看似正常的“行业潜规则”,药企人你中了吗?

中纪委通报:这些看似正常的“行业潜规则”,药企人你中了吗?

新浪财经
2026-05-25 19:42:29
新四军团长被日军追击,向老农求救,老农却一脚将他踹入水田里

新四军团长被日军追击,向老农求救,老农却一脚将他踹入水田里

云霄纪史观
2026-05-24 01:16:45
小鹏高管:小鹏可能是唯一欢迎特斯拉FSD入华的车企

小鹏高管:小鹏可能是唯一欢迎特斯拉FSD入华的车企

CNMO科技
2026-05-24 11:46:04
罗斯:队员完全没有执行战术纪律,下半场的表现可以说是耻辱

罗斯:队员完全没有执行战术纪律,下半场的表现可以说是耻辱

懂球帝
2026-05-25 01:58:32
突发!以色列发动空袭

突发!以色列发动空袭

极目新闻
2026-05-25 08:08:06
RAV4荣放全系混动卖12.9万,丰田这把玩得有点狠

RAV4荣放全系混动卖12.9万,丰田这把玩得有点狠

侃故事的阿庆
2026-05-23 13:09:44
你造车没我专业!当年指着张雪鼻子骂的王铸,成了2026年最大笑话

你造车没我专业!当年指着张雪鼻子骂的王铸,成了2026年最大笑话

周哥一影视
2026-05-23 08:52:01
蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

凡人侃史
2026-05-12 14:37:12
外媒:中国J-16挂8枚PL-15,令美日欧恐慌

外媒:中国J-16挂8枚PL-15,令美日欧恐慌

世家宝
2026-05-25 19:54:48
特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏令美军无计可施

特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏令美军无计可施

陈腕特色体育解说
2026-05-24 10:04:58
2026-05-25 20:40:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7302文章数 20754关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

手机
教育
时尚
本地
公开课

手机要闻

OPPO推出Bubble潮玩自拍屏:499元,自定义壁纸、10米无线拍摄

教育要闻

“妹妹能嫁有钱人,姐姐注定家庭妇女”,家长晒两个女儿对比火了

薄底鞋失宠!“这双鞋”突然爆火,夏天穿时髦又好看

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版