网易首页 > 网易号 > 正文 申请入驻

贾佳亚团队 x Adobe提出GenProp,物体追踪移除特效样样在行

0
分享至

作者 | 刘少腾

Text-to-Video 模型已展现出世界模拟器的潜力,这种潜力能革新传统视觉任务吗?

近日,贾佳亚团队联手 Adobe 团队,用 GenProp(Generative Video Propagation)来给出答案。

GenProp 可以完成几乎所有 “传播”( Propagation)任务,即便是更接近感知任务的实例追踪(Instance Tracking):

在人们的印象里,追踪(Tracking)问题已经得到了很好的解决。SOTA 方法 SAM 在大规模分割数据上经过了专门的训练,精度很高。然而,传统感知方法的数据标注很难覆盖“千变万化”的影子,强如 SAM 也会在这类问题上犯错。

相比于 SAM v2.1,GenProp 展现出了生成模型特有的优势:得益于 video generation 的基础能力,模型可以完整地追踪物体的 side effects,如狗和人的影子、反射等。

这给我们带来了一些启发:

  • 能够生成的视觉现象,是否都能够被感知?

  • 生成式的大规模预训练,可能会弥补感知模型的一些缺陷。

GenProp 并不追求在某个问题上成为定量的 SOTA,而是希望能够发挥生成模型的作用,拓展每个问题的边界,展现之前方法做不到的事情。接下来,我们会看到 GenProp 对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题的革新。

对于物体移除,传统方法只能移除物体本身。和追踪问题类似,GenProp 也可以同时移除物体产生的 side effects,如反射、影子。这对于传统方法很困难,因为数据多变、难以收集,需要模型对物理规律有理解。

对于物体插入,GenProp 不仅能插入静止物体,还可以产生合理的独立运动,如行驶的赛车、掉落的柠檬(符合物理规律)。

对于物体替换,GenProp 不止能编辑外观(appearance editing),还能大幅改变替换物体的形状,例如熊变成羊,人变成石台。而依靠 attention map 的传统视频编辑方法,如 Video-P2P,都无法大幅改变形状。

GenProp 还可以编辑特效,如使钓鱼竿着火!须知,现阶段的编辑算法大多围绕物体和场景,对于特效的编辑能力都较弱。

对于背景替换,GenProp 能使生成物体和新背景的相互作用,适应协调:

除此之外,GenProp 在没有 outpainting 数据 pair 训练的情况下,涌现出了 outpainting 的能力,可以补全大面积运动的区域,体现了模型的通用能力:

化繁为简:通用框架与通用数据对

GenProp 允许用户在初始帧上做任意修改,并据此生成后续变化的内容。

在推理过程中,GenProp 的框架通过选择性内容编码器(Selective Content Encoder,SCE)接收原始视频作为输入,以保留未改变区域的内容。首帧所做的更改会通过 Image-to-Video(I2V)模型在整个视频中传播,而其他区域则保持不变。

如图所示,Selective Content Encoder 负责重建原始视频的信息,Image-to-Video 模型负责生产新的视频信息。通过调整 Injection Weight,可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基础上集成了选择性内容编码器(Selective Content Encoder,SCE)和掩码预测解码器(Mask Decoder),强制模型传播编辑区域的同时,保留原始视频中其他所有区域的内容。通过 Copy & Paste 等合成数据,模型被训练以传播首帧中的各种变化,同时还可以预测每帧中被编辑区域的位置。

如图所示,训练过程中,仅需放开 Selective Content Encoder 和 Mask Decoder 的参数。合成数据只作为 Selective Content Encoder 的输入,用于监督的模型输出数据均采用原始视频,从而保证了模型输出的视频质量不会被降低。这也意味着,原始视频的 caption 可以直接送入 text encoder。

具体来说,文章对实例分割数据采用了多种数据制造技术,针对不同的传播子任务进行了设计:

  • Copy-and-Paste:从一个视频中随机分割物体并粘贴到另一个视频中,模拟物体移除;

  • Mask-and-Fill:对遮罩区域进行图像修复,模拟选定区域内的编辑效果;

  • Color Fill:用特定颜色填充遮罩区域,代表基本的物体跟踪场景。

Copy & Paste 合成数据如图所示(Video1 和 Video2 是随机采样的视频):

可以看出,GenProp 的数据对并无涵盖所有的应用场景,但数据量很大。通过有限的构造数据,SCE 和 I2V 的分工得到了充分训练,实现了“无限”应用,如特效编辑、outpainting 等。

除此之外,GenProp 提出了区域感知损失(Region-Aware Loss)。该 loss 通过限制梯度的方式,削弱了 SCE 对于编辑区域的影响,帮助模型将编辑区域与原始内容区分开来。

可以观察到,在注意力图可视化过程中,注意力图逐渐聚焦于要移除的区域(左边的天鹅),引导 I2V 模型在这些区域内生成新内容,符合训练的预期:

总 结

本文搭建了一个通用的框架,把视频生成模型转变为编辑模型 GenProp,可将一帧的修改传播到整个视频。对于去除任务,模型可去除物体的 side effects(如影子、反射)。对于修改任务,模型可修改物体的一小部分,也可进行较大形变的修改。对于背景修改,模型能够生成物体和新背景的相互作用。对于物体插入,模型能够允许物体独立的运动。对于物体追踪,模型能够同时追踪 side effects(如影子、反射)。此外,模型还涌现出了如 outpainting 等新能力。

论文地址:https://arxiv.org/pdf/2412.19761

项目地址:https://genprop.github.io/

视频地址:https://www.youtube.com/watch?v=GC8qfWzZG1M

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
就为道那声“过年好”

就为道那声“过年好”

北青深一度
2026-02-16 11:06:41
郭富城曝马年春晚节目结束后,请王一博出来团建被拒,理由超搞笑

郭富城曝马年春晚节目结束后,请王一博出来团建被拒,理由超搞笑

娱最资讯
2026-02-16 20:52:24
逼得杨白劳不敢回家过年的高利贷,利率究竟是多少?

逼得杨白劳不敢回家过年的高利贷,利率究竟是多少?

家传编辑部
2026-02-16 12:50:54
王菲接班李谷一!今年春晚的“洗衣凝珠”耳环火了,网友求同款,和去年的“虾片”是同一个品牌

王菲接班李谷一!今年春晚的“洗衣凝珠”耳环火了,网友求同款,和去年的“虾片”是同一个品牌

极目新闻
2026-02-16 23:21:22
王菲戴千元水滴型耳夹上春晚,她的耳饰又火了,她脸上的细纹很美

王菲戴千元水滴型耳夹上春晚,她的耳饰又火了,她脸上的细纹很美

小娱乐悠悠
2026-02-16 23:41:37
米兰冬奥|2月17日看点:中国王牌之师——自由式滑雪空中技巧队亮相

米兰冬奥|2月17日看点:中国王牌之师——自由式滑雪空中技巧队亮相

上观新闻
2026-02-17 04:17:06
2月16日起,微信支付宝银行转账规则全变了!

2月16日起,微信支付宝银行转账规则全变了!

我不叫阿哏
2026-02-16 22:33:20
看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

娱最资讯
2026-02-16 22:32:42
第9艘!美军又扣押中国油轮,没完了?

第9艘!美军又扣押中国油轮,没完了?

兵国大事
2026-02-16 13:29:55
凌晨4点 欧冠好戏上演!穆帅第7次大战皇马 姆巴佩冲击40球

凌晨4点 欧冠好戏上演!穆帅第7次大战皇马 姆巴佩冲击40球

叶青足球世界
2026-02-17 05:00:03
央视春晚:蔡明小品满屏问号,众人被秦岚惊艳,两位主持人疑翻车

央视春晚:蔡明小品满屏问号,众人被秦岚惊艳,两位主持人疑翻车

一娱三分地
2026-02-16 23:13:23
加拿大超市售卖中国课本,人教版各科目教材被整齐码放,网友:秒回新华书店

加拿大超市售卖中国课本,人教版各科目教材被整齐码放,网友:秒回新华书店

极目新闻
2026-02-16 19:38:57
红星专访|王菲春晚唱火《你我经历的一刻》,原创称歌词是倒着写出来的

红星专访|王菲春晚唱火《你我经历的一刻》,原创称歌词是倒着写出来的

红星新闻
2026-02-16 22:22:42
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
大年初一开门,千万别早于这个点!老辈人:开对时辰,家宅旺一年

大年初一开门,千万别早于这个点!老辈人:开对时辰,家宅旺一年

小陆搞笑日常
2026-02-16 00:25:08
今年春晚,机器人刷屏

今年春晚,机器人刷屏

第一财经资讯
2026-02-16 22:20:37
大新闻!高市早苗除夕当天对华作出不寻常举动,释放强烈政治信号

大新闻!高市早苗除夕当天对华作出不寻常举动,释放强烈政治信号

娱乐督察中
2026-02-17 02:38:22
大年初一拜年,别只说“新年快乐”,送您几句祝福语,马年走鸿运

大年初一拜年,别只说“新年快乐”,送您几句祝福语,马年走鸿运

神牛
2026-02-16 09:00:22
冯小刚新作!《抓特务》发布新春特别海报

冯小刚新作!《抓特务》发布新春特别海报

草莓解说体育
2026-02-16 21:57:41
8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

博士观察
2026-02-16 23:12:50
2026-02-17 06:32:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1313文章数 127关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

教育
艺术
手机
数码
家居

教育要闻

不承认有差生,就是教育进步?

艺术要闻

名家笔下话过年,别有风味!

手机要闻

3月4日晚上10点见:苹果发布新品邀请函,向马年春节献礼

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

家居要闻

中古雅韵 乐韵伴日常

无障碍浏览 进入关怀版