网易首页 > 网易号 > 正文 申请入驻

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

  • 论文地址:https://arxiv.org/pdf/2412.19761
  • 项目地址:https://genprop.github.io/
  • 视频地址:https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展现出世界模拟器的潜力,这种潜力能革新传统视觉任务吗?

近日,贾佳亚团队联手 Adobe 团队,用 GenProp(Generative Video Propagation)来给出答案。

GenProp 可以完成几乎所有 “传播”( Propagation)任务,即便是更接近感知任务的实例追踪(Instance Tracking)

在人们的印象里,追踪(Tracking)问题已经得到了很好的解决。SOTA 方法 SAM 在大规模分割数据上经过了专门的训练,精度很高。然而,传统感知方法的数据标注很难覆盖 “千变万化” 的影子,强如 SAM 也会在这类问题上犯错。

相比于 SAM v2.1,GenProp 展现出了生成模型特有的优势:得益于 video generation 的基础能力,模型可以完整地追踪物体的 side effects,如狗和人的影子、反射等。

这给我们带来了一些启发:

  • 能够生成的视觉现象,是否都能够被感知?
  • 生成式的大规模预训练,可能会弥补感知模型的一些缺陷。

GenProp 并不追求在某个问题上成为定量的 SOTA,而是希望能够发挥生成模型的作用,拓展每个问题的边界,展现之前方法做不到的事情。接下来,我们会看到 GenProp 对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题的革新。

对于物体移除,传统方法只能移除物体本身。和追踪问题类似,GenProp 也可以同时移除物体产生的 side effects,如反射、影子。这对于传统方法很困难,因为数据多变、难以收集,需要模型对物理规律有理解。

对于物体插入,GenProp 不仅能插入静止物体,还可以产生合理的独立运动,如行驶的赛车、掉落的柠檬(符合物理规律)。

对于物体替换,GenProp 不止能编辑外观(appearance editing),还能大幅改变替换物体的形状,例如熊变成羊,人变成石台。而依靠 attention map 的传统视频编辑方法,如 Video-P2P,都无法大幅改变形状。

GenProp 还可以编辑特效,如使钓鱼竿着火!须知,现阶段的编辑算法大多围绕物体和场景,对于特效的编辑能力都较弱。

对于背景替换,GenProp 能使生成物体和新背景的相互作用,适应协调:

除此之外,GenProp 在没有 outpainting 数据 pair 训练的情况下,涌现出了 outpainting 的能力,可以补全大面积运动的区域,体现了模型的通用能力:

化繁为简:通用框架与通用数据对

GenProp 允许用户在初始帧上做任意修改,并据此生成后续变化的内容。

在推理过程中,GenProp 的框架通过选择性内容编码器(Selective Content Encoder,SCE)接收原始视频作为输入,以保留未改变区域的内容。首帧所做的更改会通过 Image-to-Video(I2V)模型在整个视频中传播,而其他区域则保持不变。

如图所示,Selective Content Encoder 负责重建原始视频的信息,Image-to-Video 模型负责生产新的视频信息。通过调整 Injection Weight,可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基础上集成了选择性内容编码器(Selective Content Encoder,SCE)和掩码预测解码器(Mask Decoder),强制模型传播编辑区域的同时,保留原始视频中其他所有区域的内容。通过 Copy & Paste 等合成数据,模型被训练以传播首帧中的各种变化,同时还可以预测每帧中被编辑区域的位置。

如图所示,训练过程中,仅需放开 Selective Content Encoder 和 Mask Decoder 的参数。合成数据只作为 Selective Content Encoder 的输入,用于监督的模型输出数据均采用原始视频,从而保证了模型输出的视频质量不会被降低。这也意味着,原始视频的 caption 可以直接送入 text encoder。

具体来说,文章对实例分割数据采用了多种数据制造技术,针对不同的传播子任务进行了设计:

(1)Copy-and-Paste:从一个视频中随机分割物体并粘贴到另一个视频中,模拟物体移除;

(2)Mask-and-Fill:对遮罩区域进行图像修复,模拟选定区域内的编辑效果;

(3)Color Fill:用特定颜色填充遮罩区域,代表基本的物体跟踪场景。

Copy & Paste 合成数据如图所示(Video1 和 Video2 是随机采样的视频):

可以看出,GenProp 的数据对并无涵盖所有的应用场景,但数据量很大。通过有限的构造数据,SCE 和 I2V 的分工得到了充分训练,实现了 “无限” 应用,如特效编辑、outpainting 等。

除此之外,GenProp 提出了区域感知损失(Region-Aware Loss)。该 loss 通过限制梯度的方式,削弱了 SCE 对于编辑区域的影响,帮助模型将编辑区域与原始内容区分开来。

可以观察到,在注意力图可视化过程中,注意力图逐渐聚焦于要移除的区域(左边的天鹅),引导 I2V 模型在这些区域内生成新内容,符合训练的预期:

总结

本文搭建了一个通用的框架,把视频生成模型转变为编辑模型 GenProp,可将一帧的修改传播到整个视频。对于去除任务,模型可去除物体的 side effects(如影子、反射)。对于修改任务,模型可修改物体的一小部分,也可进行较大形变的修改。对于背景修改,模型能够生成物体和新背景的相互作用。对于物体插入,模型能够允许物体独立的运动。对于物体追踪,模型能够同时追踪 side effects(如影子、反射)。此外,模型还涌现出了如 outpainting 等新能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

Ck的蜜糖
2026-03-26 12:30:25
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

观察者网
2026-03-25 14:58:54
郑裕彤家族危机爆发,或卖祖业自救,为何没有香港豪门出手相助?

郑裕彤家族危机爆发,或卖祖业自救,为何没有香港豪门出手相助?

林小明商业评说
2026-03-25 14:18:52
斯洛伐克总理:泽连斯基觉得想要什么就必须得到,欧洲已厌倦他了

斯洛伐克总理:泽连斯基觉得想要什么就必须得到,欧洲已厌倦他了

浩舞纆画
2026-03-26 11:15:44
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

新京报
2026-03-26 12:58:08
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
以色列全境被打穿,防空也拦不住,海湾国家耐心耗尽,或下场打仗

以色列全境被打穿,防空也拦不住,海湾国家耐心耗尽,或下场打仗

老男孩儿
2026-03-26 10:50:14
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
勇士逆转险胜!波杰22+6全队第一,桑托斯31+3格林立功,库里开心

勇士逆转险胜!波杰22+6全队第一,桑托斯31+3格林立功,库里开心

鱼崖大话篮球
2026-03-26 13:04:06
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
火箭创造历史!杜兰特30+3+8赛后阿杜走入通道,爱德华兹激情庆祝

火箭创造历史!杜兰特30+3+8赛后阿杜走入通道,爱德华兹激情庆祝

担酒
2026-03-26 12:41:20
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
2026-03-26 13:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
数码
亲子
手机
艺术

旅游要闻

人不算多风景极美 清明假期去这7座宝藏小城

数码要闻

海盗船MAKR PRO 75霍尔效应磁轴键盘国行上市,1999元

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

手机要闻

华为全面回归官宣!产品全覆盖、麒麟全搭载,国产手机重回巅峰

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版