过去几年,视觉生成与视觉理解领域的技术推进,整体上始终沿着一条相对明确的路径展开:当一套建模范式被验证有效之后,后续的大量工作往往都会围绕这套既有框架持续做模型扩容、训练增强、采样优化与局部模块修补,以此换取更高的性能上限。
无论是扩散生成、视频 world model,还是动作建模与视觉匹配,主流研究在很长时间里都更多表现为对既有系统的持续加固,而不是对底层假设本身的重新审视。
但从今年 CVPR 集中出现的一批代表性工作来看,这种相对稳定的技术推进逻辑正在发生值得警惕的变化。越来越多研究已经不再满足于在现有模型框架内部继续做增量式性能修补,而是开始系统性地把问题重新拉回到那些长期被工程实践视为“默认正确”的基础设定上。
扩散模型中的引导机制是否真的合理,视频生成是否必须建立在 diffusion 的反复去噪之上,生成模型所学习的预测对象是否从一开始就遵循了最自然的数据流形,以及人体动作生成与语义对应任务中长期被粗粒度评价掩盖的控制边界和泛化边界,是否都需要被重新定义。
这意味着,顶会论文所呈现出的竞争重点正在悄然发生迁移。相比于过去更多强调“在原有范式内把模型做得更强、把指标推得更高”,这一批工作更值得注意的地方在于,它们开始同步触碰那些决定模型行为方式的底层建模前提,并试图重新建立新的生成目标、控制机制、主干架构与表示逻辑。
换句话说,视觉 AI 的下一轮竞争,正在逐渐从性能增量竞争,转向对既有默认设定的回溯性重写。
视觉生成开始重写基础机制
这一趋势首先体现在由上海交通大学和 vivo BlueImage Lab 共同提出的《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。
Classifier-Free Guidance(CFG)作为条件扩散模型中最常用的生成引导机制,几乎已经成为默认组件:通过调节 conditional 分支和 unconditional 分支之间的 guidance strength 来增强模型对条件信息的服从程度,从而提升生成质量。
但长期以来,这一过程主要依赖固定 guidance weight 或少量经验化动态调整,真正的问题在于,扩散过程内部的噪声结构和 score 差异并不是静止的,而是随着时间步不断变化,固定的引导强度很难在整个采样阶段都保持最优。
论文正是从这一被忽视的内部动力学出发,分析不同 timestep 下 conditional score 与 unconditional score 的 discrepancy 变化规律,指出 guidance scale 本质上不应是一个静态超参数。
基于这种理论观察,作者提出 C²FG(Control Classifier-Free Guidance),利用指数衰减控制函数让 guidance strength 在采样前期和后期自动完成动态分配:前期更强地利用条件约束保证语义对齐,后期则逐步减弱引导以避免过强 guidance 带来的分布偏移和细节失真。
它真正打破的是 CFG 长期依赖经验调参的惯性,把一个原本“手工设定的 scale”重新建立成一个与扩散动力学同步变化的控制变量,而且由于整个方法 training-free、plug-in,无需重新训练模型即可直接嵌入现有采样流程,这也使它具备了非常强的工程可迁移性。
![]()
而当扩散模型内部的引导控制开始被重新理论化时,苹果团队提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则进一步把问题推向了更底层的生成架构本身。
当前高质量视频生成几乎清一色建立在 diffusion 框架之上,反复去噪似乎已经成为视频 world model 的默认实现方式,normalizing flow 虽然在图像生成中重新受到关注,却始终没有真正进入视频生成主流。
STARFlow-V 试图回答的是:高质量视频生成是否真的只有 diffusion 这一条路。为此,论文并没有简单把图像 flow 结构迁移到视频,而是针对视频生成的长时序依赖和跨帧一致性,在时空 latent 空间中重新构建了一套 global-local 的 autoregressive normalizing flow 架构:
全局 latent 用于控制跨帧因果依赖,减少长视频中误差逐帧累积的问题,局部 latent 则保留帧内细节交互,保证空间纹理质量。
同时,作者进一步引入 flow-score matching,通过轻量级 causal denoiser 提升自回归生成过程中的时间一致性,并利用 video-aware Jacobi iteration 提高内部更新的并行效率。
也就是说,它并不是在 diffusion 框架内继续做采样优化,而是直接打破“高质量视频生成必须依赖 diffusion 反复去噪”的默认前提,建立起一种基于 normalizing flow 的端到端视频生成范式。
更重要的是,由于 flow 天然具备可逆结构和显式 likelihood 估计能力,同一个 STARFlow-V 模型就能够原生支持 text-to-video、image-to-video 以及 video-to-video 多种任务,不需要为不同任务额外堆叠复杂分支,这使它不仅是一个替代架构,更像是在重新打开视频生成的技术路线图。
![]()
如果说前两篇工作还主要集中在“生成过程如何被重新控制与重新实现”,那么由 MIT 团队提出的《Back to Basics: Let Denoising Generative Models Denoise》则把审视进一步推回到扩散模型最核心的预测对象上。雷峰网
当前主流 denoising diffusion model 虽然名义上是“去噪生成模型”,但大多数做法实际上并不直接预测干净图像,而是让模型去拟合噪声残差或带噪中间量,这一设定在工程上已经沿用多年,却很少有人重新追问它是否真的是最合理的生成目标。
他们的研究指出,按照流形假设,自然图像分布位于相对低维且连续的数据流形,而噪声空间则高维、分散且更难拟合;从这个角度看,让模型直接学习回到 clean data,本身可能比在高维噪声空间中预测 noised quantity 更自然、更稳定。
基于这一认识,作者提出 JiT(Just image Transformers),不再依赖额外 tokenizer、复杂预训练模块或辅助损失,而是直接使用大 patch Transformer 在原始像素空间完成 clean image 预测。
这个设计表面上看是“回归朴素”,但它真正打破的是“扩散模型默认预测噪声”的路径依赖,重新建立起一种以直接回归数据流形为核心的生成思路,也让 Transformer-based diffusion 在高分辨率自然图像上的建模逻辑变得更加自洽。
![]()
生成模型开始从「会生成」走向「会精确编排」
当视觉生成模型不断回到底层机制做重构时,另一部分工作则开始把注意力转向“模型生成结果到底能被控制到什么程度”。由德国图宾根大学、Tübingen AI Center 以及马克斯·普朗克信息学研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。
当前文本驱动人体动作生成虽然已经能够根据整体动作描述生成相对自然的人体运动,但模型控制依然停留在粗粒度层面:它能理解“一个人在走路”“一个人在挥手”,却很难精确回答“左手什么时候抬起”“下半身何时转向”“动作切换发生在哪一帧”。
造成这一问题的核心原因,一方面在于现有 mocap 数据大多只有序列级动作标签,缺少按时间对齐、按身体部位拆分的细粒度标注;另一方面,模型即使理解整体语义,也很难同时兼顾局部肢体动作与全局时序一致性。
FrankenMotion 正是重新把复杂人体运动视为由多个“原子动作单元”组成,并尝试让模型学习这些身体部位级动作之间的组合关系。
论文首先借助 FrankenAgent 自动为已有动作序列生成逐帧、逐身体部位且时间对齐的层级文本标注,构建新的 FrankenStein 数据集;随后训练 FrankenMotion 同时接收序列级、动作级和身体部位级条件,使模型不仅知道“做什么动作”,还知道“哪部分身体在什么时候做”。
这意味着人体动作生成开始从“生成一个合理动作片段”转向“按指令精确编排复杂动作组合”,模型能够组合出训练集中并未直接出现过的细粒度复合动作。
与这种细粒度控制需求相对应,视觉理解中的匹配任务也在经历类似的范式转向。由意大利都灵理工大学、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的
![]()
由而意大利都灵理工大学(Politecnico di Torino)、德国达姆施塔特工业大学(TU Darmstadt)、德国黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。
关注的则是语义对应(semantic correspondence)里一个很现实却常被 benchmark 掩盖的问题:现有方法虽然在已标注关键点上精度很高,但一旦查询点超出训练时见过的关键点位置,或者遇到未见类别,泛化能力就会迅速下降,导致 benchmark 成绩与真实可用性之间存在明显落差。
当前主流语义对应模型通常采用 DINOv2 加 diffusion backbone 的双编码器架构,虽然效果强,但模型规模接近十亿参数,计算开销大,而且依赖稀疏关键点监督时很难学到真正连续、致密的语义匹配关系。
MARCO 的核心切入点,就是不再满足于“在标注点上对得准”,而是尝试让模型学会在未被标注的空间中也能推断合理的对应关系。
为此,论文在 DINOv2 基础上构建了一个更统一、更轻量的对应框架,并结合 coarse-to-fine 的定位目标提升细粒度空间精度,同时引入一种 dense self-distillation 机制,把原本稀疏的关键点监督逐步扩展成更致密的语义对齐信号。
这种设计带来的变化在于,模型不只是记住训练时出现过的对应点,而是开始学习物体表面更连续的结构关联,因此在 unseen keypoints 和 unseen categories 上都表现出更强泛化能力。
实验结果显示,MARCO 不仅在 SPair-71k、AP-10K、PF-PASCAL 等标准基准上刷新了性能,在更严格的细粒度定位阈值和未见关键点测试中提升尤其明显;与此同时,它相比 diffusion-based 方法还实现了约 3 倍更小、10 倍更快 的效率优势。
这篇工作的价值在于,它打破了语义对应领域长期“高 benchmark 分数 ≠ 强真实泛化”的隐性瓶颈,建立起一种更强调致密推断和未见空间泛化的建模思路,使 semantic correspondence 从“在标注点上匹配”,进一步走向“在整片语义空间中寻找对应”。
![]()
把这几项工作放在一起看,会发现它们虽然分别来自扩散控制、视频生成、人体动作生成和语义对应等不同方向,但背后其实共享着同一条更深层的研究脉络:视觉 AI 正在从“沿着既定范式堆模型、调参数、刷 benchmark”,转向“重新拆掉那些被默认正确的底层设定,再建立新的生成目标、控制机制和表示方式”。雷峰网
有的工作在重新定义扩散模型应该如何引导,有的在重新打开视频生成不止 diffusion 一条路的可能性,有的在追问生成模型到底该预测噪声还是直接预测数据流形,也有的在把模型控制粒度和泛化空间从粗粒度推进到更连续、更真实的层面。
换句话说,真正值得注意的已经不只是某一个模型分数提升了多少,而是这一批工作共同释放出的信号:视觉模型的下一轮竞争,正在从性能增量竞争,转向底层建模范式的重构竞争。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.