网易首页 > 网易号 > 正文 申请入驻

一拖一拽,小猫活了!Netflix等新作爆火,噪声扭曲算法让运动控制更简单

0
分享至

新智元报道

编辑:英智

【新智元导读】本文提出了一种全新的噪声扭曲算法,利用光流推导出的结构化噪声来替代传统随机噪声,成功实现了对视频运动的强大控制能力。

在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。

来自Neflix、Stony Brook大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。

实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。

研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。 它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。

由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。

这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。

此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。

论文链接:https://arxiv.org/pdf/2501.08331

本研究的贡献如下:

  • 创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。

  • 高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。

实验和用户研究充分验证了该方法在各类运动控制应用中的优势。

这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。

在像素质量、可控性、时间连贯性以及用户主观偏好等方面,表现十分优异。‍

Go-with-the-Flow

当前的视频扩散模型存在局限性,研究者提出了一种创新且简单的方法,旨在把运动控制当作结构化组件,融入到视频扩散模型潜在空间的无序状态中。

具体实现方式是关联潜在噪声的时间分布。

先从二维高斯噪声片入手,把它和根据训练视频样本提取的光流场算出来的扭曲噪声片,按照时间顺序连接起来。下图清晰展示了该方法的流程。

本文提出创新的噪声扭曲算法,运行速度极快,能够实时运行。

传统方法需从初始帧起,对每一帧都进行一系列复杂的扭曲操作,而本文的算法则通过在连续帧之间迭代扭曲噪声来实现目标。

具体来说,研究者在像素层面精准地追踪噪声和光流密度,依据前向、后向光流,计算画面的扩展与收缩变化,以此来确定噪声的扭曲方式。

同时,结合HIWYN提出的条件白噪声采样方法,保证算法在运行过程中始终维持高斯性。

在视频扩散推理阶段,本文提出的方法优势明显,能依据不同运动类型,自动调整噪声变形,为多种运动控制应用提供一站式解决方案。

  • 局部物体运动控制:当用户想要控制局部物体运动时,只需给出拖动信号,就能在物体轮廓范围内灵活改变噪声元素,让局部物体按照需求运动。

  • 全局相机运动控制:针对全局相机运动的控制,复用参考视频里的光流数据,对输入噪声进行扭曲处理,这样就能在不同文本描述或初始帧条件下,重新生成视频。

  • 任意运动传递:进行任意运动传递时,运动表达方式不再局限于常见光流,还包括3D渲染引擎生成的光流、深度变形等形式。

Go-with-the-Flow主要由两部分组成:噪声扭曲算法和视频扩散微调。

噪声扭曲算法运行时,和扩散模型的训练流程互不干扰。研究团队利用这个算法生成噪声模式,再用这些模式去训练扩散模型。

本研究中的运动控制完全基于噪声初始化,在视频扩散模型中没有添加任何额外参数,这样既能简化模型结构,又能提高运行效率。

HIWYN提出将噪声扭曲应用于图像扩散模型的设想。受此启发,研究团队发现了扭曲噪声的新用法,就是把它作为视频生成模型的运动控制条件。

研究团队使用由大量视频和扭曲噪声对构成的数据集,对视频扩散模型进行微调。经过这样的处理,在推理阶段就能很好地控制视频里的运动了。

噪声扭曲算法

为了便于进行大规模噪声扭曲操作,研究团队研发出一种快速噪声扭曲算法。

这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是H×W×C)和每个像素的光流密度值矩阵(尺寸为H×W),这里的密度值能体现特定区域中噪声的压缩程度。

HIWYN算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。

新算法直接根据光流追踪帧与帧之间画面的扩展和收缩情况,全程只用到像素级别的操作,这些操作还很容易实现并行处理,大大提高了效率。

新算法和HIWYN算法一样,都能保证噪声的高斯性。

下一帧噪声扭曲

噪声扭曲算法通过迭代方式来计算噪声,某一帧的噪声计算仅取决于前一帧的状态。

假设每帧视频的尺寸是H×W,用 代表一个高为H、宽为W的 二维矩阵。

已知前一帧的噪声q和流密度 , 同时知道正向流f和反向流f ′: , 基于这些条 件,算法就能算出下一帧的噪声q′和流密度 , q′(或p′)与前一帧的q(或p)通过流在时间上建立起关联。

本文的算法结合了扩展和收缩两种动态机制。

当视频里某个区域放大,或者有物体朝着相机移动时,就会触发扩展机制。在这种情况下,当前帧的一个噪声像素,会在下一帧中对应一个或多个噪声像素,这就是扩展。

在收缩时,研究者借鉴了拉格朗日流体动力学的思路,把噪声像素想象成沿着前向光流f移动的粒子。

这些粒子移动后,画面中往往会留下空白区域。对于前向光流f没有覆盖到的区域,就利用反向光流f'拉回一个噪声像素,再用扩展过程中算好的噪声去填充这些空白。

此外,为了长时间维持噪声分布的正确性,研究团队借助密度值,来记录特定区域内噪声像素的聚集数量。

在收缩情形下,当这些噪声像素与附近其他粒子混合时,密度较高的粒子会有更大的权重。

为了同时处理好扩展和收缩这两种情况,研究者构建了一个二分图G。图里的边表明了噪声和密度从前一帧传递到下一帧的方式。

在综合考虑图中各边的作用,生成下一帧噪声q'时,依据光流密度对噪声进行缩放,以此确保原始帧的分布特性能够得以保留。

同时计算扩展和收缩的情况,避免它们相互干扰,就能确保最终输出的结果符合完美的高斯分布。

实验结果

为了验证方案的有效性,研究团队开展了大量实验及用户调研。结果表明,在保持运动一致性和针对同一情境渲染不同的运动效果方面,该方案表现十分出色。

从实验数据和用户反馈可知,本方案在像素画面质量、运动控制精准度、与文本描述的契合度、视频时间连贯性以及用户喜好程度等方面,都具有显著优势。

用Moran's I指标衡量空间相关性,K-S检验评估正态性。选择多种基准进行对比,包括固定独立采样噪声、插值方法及其他噪声扭曲算法。

可以看到,本文提出的方法在Moran's I指标和K-S检验中表现良好,表明无空间自相关性且符合正态分布;而双线性、双三次和最近邻插值方法未能保持高斯性,存在空间自相关性且偏离正态分布。

本文的方法在保持空间高斯性上成效显著,且在噪声生成效率和实际应用方面有很强的可行性。

实验结果表明,本文的方法效率极高,比并行的InfRes运行更快,相比HIWYN,速度提升了26倍,这得益于算法的线性时间复杂度。

算法的效率比实时速度快了一个数量级,这说明在视频扩散模型微调时动态应用噪声扭曲是可行的。

为验证噪声扭曲算法有效性,将经不同方法扭曲的噪声输入到用于超分辨率和人像重光照的预训练图像扩散模型中,通过评估输出视频的质量和时间一致性。

结果显示,本文的算法在时间一致性上比基线方法更出色,处理前景、背景和边缘时稳定性更好。

在DifFRelight视频重光照任务中评估噪声扭曲方法。推理时,研究者从特定区域裁剪出画面,并按照指定光照条件进行处理。本文的方法在图像和时间指标上表现更好,能有效改进图像扩散模型。

接下来聚焦视频扩散中的局部对象运动控制。为评估模型控制能力,将其与SG-I2V、MotionClone和DragAnything三种基线方法对比。

现有方法在处理复杂局部运动时存在局限,SG-I2V会误判运动导致场景平移,DragAnything缺乏一致性易失真,MotionClone难以捕捉细微动态。

本文的模型在处理复杂运动时表现优异,能保持对象保真度和三维一致性。大量研究和评估证实了本文的方法在运动一致性、视觉保真度和整体真实感方面优势显著。

本文的方法同样支持运动迁移和相机运动控制。

在DAVIS数据集的对象运动迁移中,运动保真度和视频质量更好,生成视频与真实视频还原度高。

在相机运动控制上,在DL3DV和WonderJourney数据集以及深度扭曲实验中表现出色。

在视频首帧编辑能力上,能无缝融入新增对象并保留原始运动,明显优于基线方法。

本研究提出了一种新颖的、速度快于实时的噪声扭曲算法,它能将运动控制自然地融入视频扩散噪声采样过程。

研究者用这种噪声扭曲技术对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于各类运动可控的视频生成场景。

参考资料:

https://x.com/EHuanglu/status/1882014762281865379

https://x.com/natanielruizg/status/1882121096859890140

https://eyeline-research.github.io/Go-with-the-Flow/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4个半月,OpenAI清空了整个GPT-4家族

4个半月,OpenAI清空了整个GPT-4家族

新智元
2026-06-28 17:56:32
四任主政25年皆被查,任职期间乱作为,终究是自己挖坑自己跳

四任主政25年皆被查,任职期间乱作为,终究是自己挖坑自己跳

元芳有看法
2026-06-28 21:50:43
每体:内马尔与苏格兰赛后买下100万美元名表

每体:内马尔与苏格兰赛后买下100万美元名表

懂球帝
2026-06-29 00:17:34
1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

三石记
2026-06-25 11:54:09
铜价:6月30日大限将至,全球铜市要变天?不少人还没反应过来

铜价:6月30日大限将至,全球铜市要变天?不少人还没反应过来

次元君情感
2026-06-29 12:39:29
这些三星手机预计将无缘One UI 9.0更新 有你的爱机吗?

这些三星手机预计将无缘One UI 9.0更新 有你的爱机吗?

CNMO科技
2026-06-29 15:54:24
1980年,李雪健话剧中饰演林彪,因太过逼真,王光美拒绝和他握手

1980年,李雪健话剧中饰演林彪,因太过逼真,王光美拒绝和他握手

文史达观
2026-06-28 15:24:53
43岁尹恩惠自曝“29岁后断绝所有交往”,已经单身14年

43岁尹恩惠自曝“29岁后断绝所有交往”,已经单身14年

娱乐嗑学家.
2026-06-29 12:26:37
谢霆锋西安开唱前低调打卡油泼面馆,老板称当时根本没认出来,此前他和王菲一同现身咸阳机场

谢霆锋西安开唱前低调打卡油泼面馆,老板称当时根本没认出来,此前他和王菲一同现身咸阳机场

极目新闻
2026-06-27 15:21:39
勇士将为詹姆斯报价1500万!计划续约波津 也有意追三大自由球员

勇士将为詹姆斯报价1500万!计划续约波津 也有意追三大自由球员

罗说NBA
2026-06-29 05:37:44
湖人再现20年愚蠢操作?胜火箭5人组或4人离队,东契奇要被坑惨了

湖人再现20年愚蠢操作?胜火箭5人组或4人离队,东契奇要被坑惨了

小路看球
2026-06-29 19:16:35
女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

谭谈社会
2026-06-28 16:38:04
日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

农夫也疯狂
2026-06-26 11:22:17
升官瞒妻谎称平调,饭桌上妻子拉我敬酒,县委书记竟起身让座

升官瞒妻谎称平调,饭桌上妻子拉我敬酒,县委书记竟起身让座

晓艾故事汇
2026-06-28 10:03:00
金融法草案首次审议时:你的存款、你的账户、你的出境自由,全在这部“母法”的边界里

金融法草案首次审议时:你的存款、你的账户、你的出境自由,全在这部“母法”的边界里

土家铁拳
2026-06-29 04:36:02
阿斯:皇马认为英超球队哄抬价格,签谁都要超1亿欧

阿斯:皇马认为英超球队哄抬价格,签谁都要超1亿欧

懂球帝
2026-06-29 15:21:05
还梅西一个公道

还梅西一个公道

寄居在世
2026-06-29 16:42:20
【减持速览】6月29号这些公司减持了

【减持速览】6月29号这些公司减持了

市值财经Pro
2026-06-29 18:23:09
足球队回国在即,韩国极端网友对主帅洪明甫发出死亡威胁,警方密切监控仁川机场等地

足球队回国在即,韩国极端网友对主帅洪明甫发出死亡威胁,警方密切监控仁川机场等地

红星新闻
2026-06-29 10:56:48
马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

马雅舒庆结婚16周年,外国老公显老胖到200斤,儿女又高又好看

柒佰娱
2026-06-29 11:03:36
2026-06-29 19:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15559文章数 66943关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

游戏
艺术
手机
本地
公开课

R星取消《GTA6》实体版!三大原因带你看清背后真相

艺术要闻

赵孟頫行书的巅峰之作,水平超越《圣教序》

手机要闻

屏幕反人类,但AI绝了!酷派小方块上手:没法当主力机用

本地新闻

贵州小城的新目标:举办“村超”世界杯!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版