网易首页 > 网易号 > 正文 申请入驻

多重可控插帧视频生成编辑,Adobe大一统模型做到了,效果惊艳

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 + 图像 + 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。

继 Firefly 视频大模型公布后,Adobe 的研究者在如何更好的控制视频的生成和编辑进行了更深入的研究。近日,Adobe 提出了一个统一模型,除了传统的根据图片生成动画的功能(image animation)外,同时支持各种模态的控制,包括关键帧 (keyframes)、运动轨迹 (sparse trajectory)、掩码(mask)、引导像素(guiding pixels)、文本等。

论文中的 demo 让人眼前一亮,下面一起来看看模型的效果:

1. 运动轨迹 (sparse trajectory)

通过提供简单的轨迹笔画,小熊栩栩如生地动起来了。

2. 掩码(Mask)

MotionBridge 不仅可以控制物体的运动,如图所示,将简单的运动笔画和 mask 结合起来,模型也可以轻松控制镜头视角。

如上所示的 mask 描绘了变动(dynamic)区域,同样 mask 也可以指定不动的(static,红色)区域。描绘出整座桃林围着城堡旋转的景象。

让我们看看同样的图像和运动轨迹,不同 mask 作用下的结果吧。

3. 引导像素 (guiding pixels)

通过将想要的像素区域粘贴在指定帧的指定位置,就可以进行更精准的像素控制。如:船在指定时间 “航行” 到指定位置。

4. 关键帧 (keyframes)

提供关键帧,模型可以在关键帧之间生成中间帧,实现场景的平滑切换。在视频内容创作、动画制作、视频合成等方面都有至关重要的作用,例如长视频合成 / 生成。除了可以生成有别于以往插帧方法更丰富困难的动作,还可以自然和多种模态控制结合。

通过运动轨迹控制,三个小球可以自由在彭罗斯阶梯分别滚动。

加上 mask,操控飞船左右摆动也不在话下,连洒下来的光也追随移动

动静结合,万圣节装扮的动图也可以多种多样:

当采用同一帧作为首位帧,还可以产生循环播放的奇妙效果:

当然,卡通视频也不在话下:

也可以进行视角转化:

不单单可以进行新视频的生成和创作,MotionBridge 还可以改善图生视频或者文生视频的效果,减少歧义并增加视频复杂度和可控性。

除此之外,最常用的文本交互也是支持的。

更多的结果和应用,请参考官方视频。

技术概览

如今,已经有很多模型可以进行图生视频的创作,但生成的结果往往缺少可控性,用户要进行很多次的试错才能得到满意的结果。本文提出了一个名为 MotionBridge 的算法集成了多种可控信号,方便用户生成或者编辑现有的视频。不同于以往工作,MotionBridge 以插帧作为基本框架构建模型。即模型可以通过输入 1~n 张关键帧来生成对应视频,补全帧与帧之间的流畅过度。这个建模方式自然的保留了原本图生视频(image to video)的能力,同时提供了更高的可控性和视频生成质量。

然而,传统的插帧方法还具有一定的局限性,传统方法一般分为运动估计和运动补偿两个步骤,但当输入帧之间的时间或空间间隔增大时,运动估计和补偿的难度呈指数级上升。这是因为要生成逼真的中间帧,就必须填补输入帧之间缺失的信息,而这往往需要合成全新的内容,这对于传统方法而言是一个巨大的挑战。

尽管近年来视频生成模型取得了显著进展,为插帧技术带来了新的可能性,但这些技术仍然存在不足。一方面,许多模型难以生成复杂的大动作,无法满足创作者对于丰富场景变化的需求;另一方面,即使能够生成高质量的视频,却常常缺乏对中间帧细节的精细控制,导致最终生成的视频与创作者的创意设想存在偏差。

因此,为了解决以上的难题,MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。

相比于图生视频,可控插帧视频任务的复杂度更高。以运动轨迹控制为例,视频插帧不仅需要服从指定轨迹,还需要丝滑过度并在指定帧结束。即使轨迹不完整,模型也需要根据关键帧推测,往往生成的动作比图生视频更为复杂。而进行多模态控制会进一步提升问题难度。

为了确保模型的生成能力,MotionBridge 的设计基于 DiT 的模型架构并且具有普适性(backbone-agnostic)可以适用于任何形式的 DiT 架构。

技术要点

1. 分类编码控制信号:为了减少控制信号融合时的歧义,MotionBridge 将控制分为内容控制(如掩码和引导像素)和运动控制(如轨迹)两类,通过双分支嵌入器分别计算所需特征,再引导去噪过程。这样的设计能更精准地处理不同类型的控制信息。

2. 运动轨迹表征:用简单且准确的交互表征方式进行视频运动的控制颇具挑战。该模型提出一种生成器,它能从光流合成轨迹,并将其转换为稀疏 RGB 点,作为模型训练时的运动表示,有效提升了运动控制的准确性。

3. 空间内容控制表征:MotionBridge 不仅有传统的轨迹控制,还增加了掩码和引导像素等空间内容控制。用户可以指定想要移动或保持静止的区域,进一步降低生成过程中的歧义,提供更灵活的创作条件。

4. 训练策略:面对多模态控制,常规训练效果不佳。MotionBridge 采用 curriculum learning 策略,先给模型输入更密集、简单的控制,再逐渐过渡到更稀疏、高级的控制,确保模型能平稳学习各种控制方式。

对比实验

1. 与 SOTA 的算法相比,MotionBridge 在没有额外控制的干预下,可以生成更真实高质量的图片细节。并且证实了在不同 DiT 架构下的普适性。

2. 消融研究

a. 对于算法提出的分类编码融合(dual-branch)和 curriculum learning,文中也进行了实验。可以看出其设计对于模型理解轨迹控制输入以及视频生成质量起到了至关重要的作用。

b. 掩码(mask)的作用:定性实验表明在一些情况下,mask 的使用可以让模型更容易感知到主体,并且让用户可以以尽量少的交互达到想要的效果。比如当只有一个运动轨迹时,因为过于稀疏,狐狸的跳起空间有限。当额外将 mask 输入,狐狸的跳跃便更加连贯自然。而用户也不需要像之前的工作一样提供过多的轨迹笔画反复调试。

更多技术细节,对比实验请参考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf

视频:https://motionbridge.github.io/static/motionbridge_1.mp4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高铁“变味”了?如今的高铁,为什么越来越多的人不想坐了呢?

高铁“变味”了?如今的高铁,为什么越来越多的人不想坐了呢?

混沌录
2026-07-01 19:03:21
“你恩断义绝,我大卸八块”,女子求复合遭拒,杀死男友砌入墙内

“你恩断义绝,我大卸八块”,女子求复合遭拒,杀死男友砌入墙内

易玄
2026-06-30 22:58:00
世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

红星新闻
2026-07-02 17:48:29
突然昏迷、下病危通知?91岁游本昌紧急入院,儿子却拒绝过度治疗

突然昏迷、下病危通知?91岁游本昌紧急入院,儿子却拒绝过度治疗

秋姐居
2026-07-02 11:37:35
守军全军覆没,康斯坦丁诺夫卡失守,顿巴斯决战近在眼前

守军全军覆没,康斯坦丁诺夫卡失守,顿巴斯决战近在眼前

黄丽搞笑小能手
2026-07-02 14:22:39
贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

懂球帝
2026-07-01 21:58:08
135公里刀片网背后,泰山是收门票者的山,还是人民的山?

135公里刀片网背后,泰山是收门票者的山,还是人民的山?

非虚构人间
2026-07-01 20:50:30
心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理观察局
2026-07-02 06:37:12
6球6助!这家俱乐部成世界杯最大赢家:三叉戟表现不输姆巴佩梅西

6球6助!这家俱乐部成世界杯最大赢家:三叉戟表现不输姆巴佩梅西

衣衫褴褛的文人
2026-07-02 15:53:34
对照往年广东本科录取实录,今年填报志愿家长无需焦虑

对照往年广东本科录取实录,今年填报志愿家长无需焦虑

解说阿洎
2026-07-02 18:34:44
桥炸了,抢修队也端了,白俄断信号自保!几十万俄军成瓮中之鳖?

桥炸了,抢修队也端了,白俄断信号自保!几十万俄军成瓮中之鳖?

万物知识圈
2026-07-01 14:26:35
影视飓风创始人Tim情绪失控险动手 工作人员劝和:别打架 在直播

影视飓风创始人Tim情绪失控险动手 工作人员劝和:别打架 在直播

快科技
2026-07-02 11:48:10
A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

云鹏叙事
2026-07-02 00:00:05
悲催!上海大妈以一己之力,断了儿子儿媳的财路,私教生意被叫停

悲催!上海大妈以一己之力,断了儿子儿媳的财路,私教生意被叫停

火山詩话
2026-07-01 16:00:16
逆势20CM涨停,两连板!网友:太“争光”了……

逆势20CM涨停,两连板!网友:太“争光”了……

新浪财经
2026-07-02 11:52:45
爆冷!WTT大满贯战报:国乒名将1-3不敌非洲奇才,朱雨玲惨遭零封

爆冷!WTT大满贯战报:国乒名将1-3不敌非洲奇才,朱雨玲惨遭零封

小七说篮球
2026-07-02 13:34:20
别再逼孩子了!斯坦福教授20年研究:大脑进入「恐惧模式」的娃,越努力越焦虑...

别再逼孩子了!斯坦福教授20年研究:大脑进入「恐惧模式」的娃,越努力越焦虑...

阅读第一
2026-07-01 08:36:04
搬起石头砸自己的脚!本想帮谢娜,结果任素汐先被扒了个底朝天

搬起石头砸自己的脚!本想帮谢娜,结果任素汐先被扒了个底朝天

眼底星碎
2026-07-02 06:40:45
央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

陈博世财经
2026-07-01 14:05:05
WTT美国大满贯|女双半决赛将上演中国德比

WTT美国大满贯|女双半决赛将上演中国德比

北青网-北京青年报
2026-07-02 20:00:04
2026-07-02 20:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

患罕见病被背进考场男生考出643分 想报考中医药专业

头条要闻

患罕见病被背进考场男生考出643分 想报考中医药专业

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

家居
亲子
房产
旅游
健康

家居要闻

传奇筑 日常诗

亲子要闻

分年龄段选购儿童被子指南:不同成长阶段核心需求与选型方向梳理

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

旅游要闻

“带着饸饹去旅行·重走秦直道”主题文旅交流活动走进榆林横山

这4类消化病患者 吃粘食管住嘴

无障碍浏览 进入关怀版