网易首页 > 网易号 > 正文 申请入驻

多重可控插帧视频生成编辑,Adobe大一统模型做到了,效果惊艳

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 + 图像 + 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。

继 Firefly 视频大模型公布后,Adobe 的研究者在如何更好的控制视频的生成和编辑进行了更深入的研究。近日,Adobe 提出了一个统一模型,除了传统的根据图片生成动画的功能(image animation)外,同时支持各种模态的控制,包括关键帧 (keyframes)、运动轨迹 (sparse trajectory)、掩码(mask)、引导像素(guiding pixels)、文本等。

论文中的 demo 让人眼前一亮,下面一起来看看模型的效果:

1. 运动轨迹 (sparse trajectory)

通过提供简单的轨迹笔画,小熊栩栩如生地动起来了。

2. 掩码(Mask)

MotionBridge 不仅可以控制物体的运动,如图所示,将简单的运动笔画和 mask 结合起来,模型也可以轻松控制镜头视角。

如上所示的 mask 描绘了变动(dynamic)区域,同样 mask 也可以指定不动的(static,红色)区域。描绘出整座桃林围着城堡旋转的景象。

让我们看看同样的图像和运动轨迹,不同 mask 作用下的结果吧。

3. 引导像素 (guiding pixels)

通过将想要的像素区域粘贴在指定帧的指定位置,就可以进行更精准的像素控制。如:船在指定时间 “航行” 到指定位置。

4. 关键帧 (keyframes)

提供关键帧,模型可以在关键帧之间生成中间帧,实现场景的平滑切换。在视频内容创作、动画制作、视频合成等方面都有至关重要的作用,例如长视频合成 / 生成。除了可以生成有别于以往插帧方法更丰富困难的动作,还可以自然和多种模态控制结合。

通过运动轨迹控制,三个小球可以自由在彭罗斯阶梯分别滚动。

加上 mask,操控飞船左右摆动也不在话下,连洒下来的光也追随移动

动静结合,万圣节装扮的动图也可以多种多样:

当采用同一帧作为首位帧,还可以产生循环播放的奇妙效果:

当然,卡通视频也不在话下:

也可以进行视角转化:

不单单可以进行新视频的生成和创作,MotionBridge 还可以改善图生视频或者文生视频的效果,减少歧义并增加视频复杂度和可控性。

除此之外,最常用的文本交互也是支持的。

更多的结果和应用,请参考官方视频。

技术概览

如今,已经有很多模型可以进行图生视频的创作,但生成的结果往往缺少可控性,用户要进行很多次的试错才能得到满意的结果。本文提出了一个名为 MotionBridge 的算法集成了多种可控信号,方便用户生成或者编辑现有的视频。不同于以往工作,MotionBridge 以插帧作为基本框架构建模型。即模型可以通过输入 1~n 张关键帧来生成对应视频,补全帧与帧之间的流畅过度。这个建模方式自然的保留了原本图生视频(image to video)的能力,同时提供了更高的可控性和视频生成质量。

然而,传统的插帧方法还具有一定的局限性,传统方法一般分为运动估计和运动补偿两个步骤,但当输入帧之间的时间或空间间隔增大时,运动估计和补偿的难度呈指数级上升。这是因为要生成逼真的中间帧,就必须填补输入帧之间缺失的信息,而这往往需要合成全新的内容,这对于传统方法而言是一个巨大的挑战。

尽管近年来视频生成模型取得了显著进展,为插帧技术带来了新的可能性,但这些技术仍然存在不足。一方面,许多模型难以生成复杂的大动作,无法满足创作者对于丰富场景变化的需求;另一方面,即使能够生成高质量的视频,却常常缺乏对中间帧细节的精细控制,导致最终生成的视频与创作者的创意设想存在偏差。

因此,为了解决以上的难题,MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。

相比于图生视频,可控插帧视频任务的复杂度更高。以运动轨迹控制为例,视频插帧不仅需要服从指定轨迹,还需要丝滑过度并在指定帧结束。即使轨迹不完整,模型也需要根据关键帧推测,往往生成的动作比图生视频更为复杂。而进行多模态控制会进一步提升问题难度。

为了确保模型的生成能力,MotionBridge 的设计基于 DiT 的模型架构并且具有普适性(backbone-agnostic)可以适用于任何形式的 DiT 架构。

技术要点

1. 分类编码控制信号:为了减少控制信号融合时的歧义,MotionBridge 将控制分为内容控制(如掩码和引导像素)和运动控制(如轨迹)两类,通过双分支嵌入器分别计算所需特征,再引导去噪过程。这样的设计能更精准地处理不同类型的控制信息。

2. 运动轨迹表征:用简单且准确的交互表征方式进行视频运动的控制颇具挑战。该模型提出一种生成器,它能从光流合成轨迹,并将其转换为稀疏 RGB 点,作为模型训练时的运动表示,有效提升了运动控制的准确性。

3. 空间内容控制表征:MotionBridge 不仅有传统的轨迹控制,还增加了掩码和引导像素等空间内容控制。用户可以指定想要移动或保持静止的区域,进一步降低生成过程中的歧义,提供更灵活的创作条件。

4. 训练策略:面对多模态控制,常规训练效果不佳。MotionBridge 采用 curriculum learning 策略,先给模型输入更密集、简单的控制,再逐渐过渡到更稀疏、高级的控制,确保模型能平稳学习各种控制方式。

对比实验

1. 与 SOTA 的算法相比,MotionBridge 在没有额外控制的干预下,可以生成更真实高质量的图片细节。并且证实了在不同 DiT 架构下的普适性。

2. 消融研究

a. 对于算法提出的分类编码融合(dual-branch)和 curriculum learning,文中也进行了实验。可以看出其设计对于模型理解轨迹控制输入以及视频生成质量起到了至关重要的作用。

b. 掩码(mask)的作用:定性实验表明在一些情况下,mask 的使用可以让模型更容易感知到主体,并且让用户可以以尽量少的交互达到想要的效果。比如当只有一个运动轨迹时,因为过于稀疏,狐狸的跳起空间有限。当额外将 mask 输入,狐狸的跳跃便更加连贯自然。而用户也不需要像之前的工作一样提供过多的轨迹笔画反复调试。

更多技术细节,对比实验请参考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf

视频:https://motionbridge.github.io/static/motionbridge_1.mp4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曲婉婷勇闯抖音,没活过48小时

曲婉婷勇闯抖音,没活过48小时

智识漂流
2026-02-22 20:43:16
16个检查组空降!大批医院将迎来严查

16个检查组空降!大批医院将迎来严查

梅斯医学
2026-02-24 07:52:02
平顶山事件发酵!夫妻生活照和背景流出,律师称要赔钱,可判10年

平顶山事件发酵!夫妻生活照和背景流出,律师称要赔钱,可判10年

火山詩话
2026-02-23 14:58:42
套现188亿,四川巨富被监视居住半年后,把控制权卖给了国资

套现188亿,四川巨富被监视居住半年后,把控制权卖给了国资

聚焦真实瞬间
2026-02-11 08:56:53
东海中美对峙!美军隐身神话破灭,歼16锁定2架F22,释放2大信号

东海中美对峙!美军隐身神话破灭,歼16锁定2架F22,释放2大信号

胖福的小木屋
2026-02-21 23:59:14
张一山跟发小聚会!新家又大又豪,别人都大叔了,他还像个小孩子

张一山跟发小聚会!新家又大又豪,别人都大叔了,他还像个小孩子

社会日日鲜
2026-02-22 04:44:24
正式告别?谷爱凌发声,宣布决定,或长期定居美国,新计划曝光

正式告别?谷爱凌发声,宣布决定,或长期定居美国,新计划曝光

草莓解说体育
2026-02-24 04:18:42
新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

国乒二三事
2026-02-24 09:40:55
24岁离异女与男网友车震,事后索要一千块补偿,结果惨遭杀害

24岁离异女与男网友车震,事后索要一千块补偿,结果惨遭杀害

胖胖侃咖
2024-08-24 08:00:08
这下彻底没救了!网传平顶山受害者态度强硬,坚决不签谅解书…

这下彻底没救了!网传平顶山受害者态度强硬,坚决不签谅解书…

火山詩话
2026-02-24 10:51:39
为秦昊拼三胎!58岁伊能静怀三胎,已怀孕5个月是男宝,计划赴美生产

为秦昊拼三胎!58岁伊能静怀三胎,已怀孕5个月是男宝,计划赴美生产

八卦王者
2026-02-22 13:23:33
铁饭碗不要了!网传武汉一白富美研究生辞去公职,回家躺平引争议

铁饭碗不要了!网传武汉一白富美研究生辞去公职,回家躺平引争议

火山詩话
2026-02-23 15:36:22
外甥和舅舅上坟上成全武行,网友:老祖宗气得要揭棺而起了

外甥和舅舅上坟上成全武行,网友:老祖宗气得要揭棺而起了

丫头舫
2026-02-24 11:26:01
18点05,CCTV直播!中国男篮vs日本队生死战,郭士强力选人引争议

18点05,CCTV直播!中国男篮vs日本队生死战,郭士强力选人引争议

大秦壁虎白话体育
2026-02-23 22:27:03
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
一女子坐牢20年终于出狱,去办身份证时警察竟泪洒当场

一女子坐牢20年终于出狱,去办身份证时警察竟泪洒当场

故事秘栈
2025-05-27 18:56:51
花生立大功!浙江大学研究:每天吃够量,可以延缓衰老30%

花生立大功!浙江大学研究:每天吃够量,可以延缓衰老30%

番茄健康
2026-02-23 21:05:16
深夜,全线大跌!“超级风暴”突袭!

深夜,全线大跌!“超级风暴”突袭!

券商中国
2026-02-24 07:27:25
马丽在人民日报撰文

马丽在人民日报撰文

南方都市报
2026-02-24 09:53:02
“一代鞋王”达芙妮没落,家族内斗中亏40亿,最后败给了红颜祸水

“一代鞋王”达芙妮没落,家族内斗中亏40亿,最后败给了红颜祸水

小熊侃史
2025-12-28 11:02:11
2026-02-24 12:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12330文章数 142569关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

商务部将20家日本实体列入关注名单

汽车要闻

淦家阅定调价值战 吉利高阶智驾加速普及

态度原创

家居
健康
时尚
手机
军事航空

家居要闻

本真栖居 爱暖伴流年

转头就晕的耳石症,能开车上班吗?

今年春天一定要拥有的针织,这样穿减龄又好看!

手机要闻

三星Galaxy S26 Ultra旗舰手机防窥屏原理曝光

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版