网易首页 > 网易号 > 正文 申请入驻

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

  • 论文地址:https://arxiv.org/pdf/2412.19761
  • 项目地址:https://genprop.github.io/
  • 视频地址:https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展现出世界模拟器的潜力,这种潜力能革新传统视觉任务吗?

近日,贾佳亚团队联手 Adobe 团队,用 GenProp(Generative Video Propagation)来给出答案。

GenProp 可以完成几乎所有 “传播”( Propagation)任务,即便是更接近感知任务的实例追踪(Instance Tracking)

在人们的印象里,追踪(Tracking)问题已经得到了很好的解决。SOTA 方法 SAM 在大规模分割数据上经过了专门的训练,精度很高。然而,传统感知方法的数据标注很难覆盖 “千变万化” 的影子,强如 SAM 也会在这类问题上犯错。

相比于 SAM v2.1,GenProp 展现出了生成模型特有的优势:得益于 video generation 的基础能力,模型可以完整地追踪物体的 side effects,如狗和人的影子、反射等。

这给我们带来了一些启发:

  • 能够生成的视觉现象,是否都能够被感知?
  • 生成式的大规模预训练,可能会弥补感知模型的一些缺陷。

GenProp 并不追求在某个问题上成为定量的 SOTA,而是希望能够发挥生成模型的作用,拓展每个问题的边界,展现之前方法做不到的事情。接下来,我们会看到 GenProp 对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题的革新。

对于物体移除,传统方法只能移除物体本身。和追踪问题类似,GenProp 也可以同时移除物体产生的 side effects,如反射、影子。这对于传统方法很困难,因为数据多变、难以收集,需要模型对物理规律有理解。

对于物体插入,GenProp 不仅能插入静止物体,还可以产生合理的独立运动,如行驶的赛车、掉落的柠檬(符合物理规律)。

对于物体替换,GenProp 不止能编辑外观(appearance editing),还能大幅改变替换物体的形状,例如熊变成羊,人变成石台。而依靠 attention map 的传统视频编辑方法,如 Video-P2P,都无法大幅改变形状。

GenProp 还可以编辑特效,如使钓鱼竿着火!须知,现阶段的编辑算法大多围绕物体和场景,对于特效的编辑能力都较弱。

对于背景替换,GenProp 能使生成物体和新背景的相互作用,适应协调:

除此之外,GenProp 在没有 outpainting 数据 pair 训练的情况下,涌现出了 outpainting 的能力,可以补全大面积运动的区域,体现了模型的通用能力:

化繁为简:通用框架与通用数据对

GenProp 允许用户在初始帧上做任意修改,并据此生成后续变化的内容。

在推理过程中,GenProp 的框架通过选择性内容编码器(Selective Content Encoder,SCE)接收原始视频作为输入,以保留未改变区域的内容。首帧所做的更改会通过 Image-to-Video(I2V)模型在整个视频中传播,而其他区域则保持不变。

如图所示,Selective Content Encoder 负责重建原始视频的信息,Image-to-Video 模型负责生产新的视频信息。通过调整 Injection Weight,可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基础上集成了选择性内容编码器(Selective Content Encoder,SCE)和掩码预测解码器(Mask Decoder),强制模型传播编辑区域的同时,保留原始视频中其他所有区域的内容。通过 Copy & Paste 等合成数据,模型被训练以传播首帧中的各种变化,同时还可以预测每帧中被编辑区域的位置。

如图所示,训练过程中,仅需放开 Selective Content Encoder 和 Mask Decoder 的参数。合成数据只作为 Selective Content Encoder 的输入,用于监督的模型输出数据均采用原始视频,从而保证了模型输出的视频质量不会被降低。这也意味着,原始视频的 caption 可以直接送入 text encoder。

具体来说,文章对实例分割数据采用了多种数据制造技术,针对不同的传播子任务进行了设计:

(1)Copy-and-Paste:从一个视频中随机分割物体并粘贴到另一个视频中,模拟物体移除;

(2)Mask-and-Fill:对遮罩区域进行图像修复,模拟选定区域内的编辑效果;

(3)Color Fill:用特定颜色填充遮罩区域,代表基本的物体跟踪场景。

Copy & Paste 合成数据如图所示(Video1 和 Video2 是随机采样的视频):

可以看出,GenProp 的数据对并无涵盖所有的应用场景,但数据量很大。通过有限的构造数据,SCE 和 I2V 的分工得到了充分训练,实现了 “无限” 应用,如特效编辑、outpainting 等。

除此之外,GenProp 提出了区域感知损失(Region-Aware Loss)。该 loss 通过限制梯度的方式,削弱了 SCE 对于编辑区域的影响,帮助模型将编辑区域与原始内容区分开来。

可以观察到,在注意力图可视化过程中,注意力图逐渐聚焦于要移除的区域(左边的天鹅),引导 I2V 模型在这些区域内生成新内容,符合训练的预期:

总结

本文搭建了一个通用的框架,把视频生成模型转变为编辑模型 GenProp,可将一帧的修改传播到整个视频。对于去除任务,模型可去除物体的 side effects(如影子、反射)。对于修改任务,模型可修改物体的一小部分,也可进行较大形变的修改。对于背景修改,模型能够生成物体和新背景的相互作用。对于物体插入,模型能够允许物体独立的运动。对于物体追踪,模型能够同时追踪 side effects(如影子、反射)。此外,模型还涌现出了如 outpainting 等新能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
房子是压箱底的命根!宁可房价跌,也别赌上全家住处去炒股

房子是压箱底的命根!宁可房价跌,也别赌上全家住处去炒股

像梦一场a
2026-02-16 15:06:29
高芙呼吁增设非强制1000赛允许球员退赛,约维奇表白德约科维奇

高芙呼吁增设非强制1000赛允许球员退赛,约维奇表白德约科维奇

网球之家
2026-02-16 22:31:20
中央财办分管日常工作的副主任、中央农办主任韩文秀,发表署名文章

中央财办分管日常工作的副主任、中央农办主任韩文秀,发表署名文章

中国基金报
2026-02-16 12:47:58
独居老人网购18年不拆包裹,全家堆满,离世后才发现价值3500万

独居老人网购18年不拆包裹,全家堆满,离世后才发现价值3500万

明智家庭教育
2026-01-28 16:50:53
体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

米修体育
2026-01-24 12:47:31
顶级大花差点被噶在国外的瓜!

顶级大花差点被噶在国外的瓜!

香港内地文娱
2026-02-15 21:50:52
“收费时代”来了?原本免费的东西开始收费,网友:是抢疯了吗?

“收费时代”来了?原本免费的东西开始收费,网友:是抢疯了吗?

复转小能手
2026-02-14 22:21:17
60岁后,一定不要和子女说这6件事,子女才能更孝顺,亲情更稳!

60岁后,一定不要和子女说这6件事,子女才能更孝顺,亲情更稳!

热心市民小黄
2026-02-17 03:49:07
奔驰疯了,16款新车即将上市

奔驰疯了,16款新车即将上市

放毒
2026-02-14 13:49:52
辛酸!57岁王菲六登春晚,唱功失准,只能靠眉毛和耳环上热搜

辛酸!57岁王菲六登春晚,唱功失准,只能靠眉毛和耳环上热搜

呀古铜
2026-02-17 01:08:08
娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娱乐领航家
2026-02-03 23:30:03
文班空砍33分8板3帽,小卡单节31分追平唐斯,华子斩获全明星MVP

文班空砍33分8板3帽,小卡单节31分追平唐斯,华子斩获全明星MVP

世界体育圈
2026-02-16 09:30:27
情人关系己落伍!2026年爆火的5种两性关系,第三种最让人上头

情人关系己落伍!2026年爆火的5种两性关系,第三种最让人上头

匹夫来搞笑
2026-02-04 16:14:39
朝鲜领导人金正恩参加农历新年庆典演出 表示衷心的感谢

朝鲜领导人金正恩参加农历新年庆典演出 表示衷心的感谢

看得见的历史
2026-02-16 07:00:08
别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

三农老历
2026-02-15 12:47:14
穆里尼奥:我是少数几位没被皇马解雇的教练,为皇马的成就高兴

穆里尼奥:我是少数几位没被皇马解雇的教练,为皇马的成就高兴

砚底沉香
2026-02-16 23:11:03
中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

来科点谱
2026-02-16 07:13:02
旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

每日经济新闻
2025-10-09 15:44:18
事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

小熊侃史
2026-02-11 12:56:17
他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

云霄纪史观
2025-12-23 01:40:09
2026-02-17 04:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12313文章数 142567关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

家居
教育
游戏
公开课
军事航空

家居要闻

中古雅韵 乐韵伴日常

教育要闻

幼儿园遇到这种事,找对方家长解决不了问题!

索尼又背刺PS5Pro用户?独占《战神》新作不支持强化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版