网易首页 > 网易号 > 正文 申请入驻

VideoCoF推出创新视频编辑技术,无需Mask实现高精度时序推理!

0
分享至



本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF,受 LLM「思维链」启发,通过「看 - 推理 - 编辑」的流程,仅需 50k 训练数据,就在多项任务上取得了 SOTA 效果,并完美支持长视频外推!

目前,模型、代码均已开源,4 步编辑一条视频,训练数据 VideoCoF-50k 预计本周内开源!



  • 论文链接: https://arxiv.org/abs/2512.07469
  • 项目主页: https://videocof.github.io/
  • 代码 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo链接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛点:精度与通用的「两难困境」

在 AIGC 时代,视频编辑已经有了长足进步,但仍存在一个明显的痛点:

  • 专家模型(Expert Models):像医生做手术一样精准,但往往需要用户提供繁琐的 Mask,因此阻碍了自动化和统一化。
  • 通用上下文学习模型(Unified In-Context Models):虽然不需要 Mask,但在面对复杂的空间关系(比如「右边的那个男孩」)时,往往「眼神不好」,定位不准。

能不能既要高精度,又不要 Mask?

VideoCoF 给出了肯定的答案。

核心创新:像人一样「先思考,后动手」

VideoCoF 的核心灵感来自于大语言模型(LLM)中的思维链(Chain-of-Thought)。研究团队认为,视频生成模型也应该具备类似的推理能力。

为此,他们提出了Chain of Frames (CoF) 机制,将视频编辑过程重构为三个阶段:

  1. Seeing(看):输入原始视频。
  2. Reasoning(推理):模型先预测出「推理帧」(Reasoning Frame),即用高亮区域明确指出「哪里需要编辑」。
  3. Editing(编辑):基于推理结果,精准生成目标视频。



这种显式的推理过程,让模型学会了主动建立编辑指令与画面区域的对应关系,从而实现了无需 Mask 的高精度编辑。

时序 RoPE 对齐,实现长视频外推



除了推理能力,视频编辑的另一个难题是长度限制。很多模型只能编辑短视频,一旦视频变长,动作就会变形或崩坏。

VideoCoF 引入了独特的RoPE(旋转位置编码)对齐策略:

  • 巧妙的对齐了原视频 [1,F] 和编辑视频 [1,F] 时间索引,同时将推理帧的时间索引设置为 0,避免了推理帧与编辑帧的索引冲突;
  • 实现了「训练短视频(33 帧),推理长视频(140 + 帧)」 的能力。

这意味着,你用极小的成本训练出的模型,可以在推理时处理远超训练长度的视频,且保持动作流畅、无纹理突变和伪影。



实验验证:50k 数据「四两拨千斤」,性能全面 SOTA

除了架构设计的精妙,VideoCoF 最令人印象深刻的当属其惊人的数据效率。

为了验证效果,研究团队构建了一个包含添加、删除、替换及风格迁移的高质量实例级数据集,并在VideoCoF-Bench上进行了严格测评。

1.以小博大:50k vs 100 万

  • VideoCoF:仅使用 50k (5 万) 视频对进行微调。
  • 基线模型 (ICVE):依赖庞大的 100 万 视频预训练 + 15 万 微调数据。

尽管训练数据量仅为基线的1/20,VideoCoF 却实现了性能的反超:

  • 指令遵循 (Instruct Follow):得分高达8.97(满分 10),显著优于 ICVE (7.79) 和 VACE (7.47)。这意味着模型能更精准地 “听懂人话”,不会漏掉指令细节。
  • 成功率 (Success Ratio):达到了76.36%,大幅领先于商业模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。



2.为什么「推理」如此重要?(消融实验)

VideoCoF 的核心在于「先推理,再编辑」。那么,如果去掉推理帧,直接让模型硬算,效果会怎样?

研究团队进行了详细的消融实验(Ablation Study)。结果显示,相比于没有推理环节的Naive Temporal in Context基线:

  • 引入CoF (Chain of Frames)后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入RoPE 索引解耦后,长视频外推的保真度(Preservation)和时序一致性(CLIP-F)均有显著提升。

这有力地证明了:显式的时序推理(See-Reason-Edit)不仅是锦上添花,更是实现高精度视频编辑的关键。

3.推理帧长什么样?「五彩斑斓的灰」才是最优解

除了「要不要推理」,VideoCoF 团队还深入研究了「推理帧到底该长什么样」,是像分割模型那样用黑白掩码?还是像圈图那样用红圈?

在 Table 3 的消融实验中,团队对比了三种形式:

  • 纯黑背景 (Black BG):效果最差,因为扩散模型往往对极端的纯黑 / 纯白像素不敏感。
  • 红色高亮 (Red Highlight):效果中规中矩。
  • 灰色高亮 (Gray Highlight):表现优于红色。

最终杀器:渐变灰 (Progressive Gray) 。VideoCoF 发现,推理帧不应只是一个静态的「定位图」,而应充当从「源视频」到「编辑视频」的时序过渡桥梁。

因此,团队设计了一种透明度渐变(如 0% → 25% → 50% → 75%)的灰色掩码。这种设计不仅明确了「哪里要改」,更给模型一种「变化正在发生」的动态暗示。

实验结果(Table 3)显示,相比于静态的红 / 黑掩码,渐变灰设计直接将指令遵循得分(Instruct Follow)从 7.5/7.8 拉升到了 8.97,证明了细节设计对模型性能的巨大影响。





效果展示:万物皆可改

VideoCoF 展现了强大的通用编辑能力,无论是增删改查,还是局部风格迁移,都能精准搞定:

  1. 多实例移除 (Multi-Instance Removal):「移除左边穿米色裤子的年轻女性」 —— 指哪打哪,背景自动补全,绝不误伤旁人;
  2. 物体添加 (Object Addition):「在草地上凭空加一只白色的萨摩耶」 —— 从无到有,光影透视完美融合,仿佛它原本就在那里;
  3. 多实例物体替换:无论是给人换一件牛仔外套,还是更换性别年龄,从老头换成女孩, 可以轻松完成;
  4. 局部风格迁移:给兔子换个「铜色皮肤」,把路牌从「School」改成「Hospital」,细节纹理都能完美保留。


https://mp.weixin.qq.com/s/e0X_0oF46oYJNqyAI3qetQ?click_id=11

总结

VideoCoF 是一项通过「时序推理」统一视频编辑任务的开创性工作。它不仅解决了无 Mask 编辑的精度问题,还通过高效的数据利用(仅 50k 样本)和巧妙的 RoPE 设计,实现了低成本、高性能、长视频支持的视频编辑。对于社区而言,VideoCoF 证明了 Better Reasoning > More Data,为未来的视频生成与编辑研究提供了新的思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

澳洲红领巾
2026-02-15 11:58:23
看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

看了观众对王菲央视马年春晚的评价,李健的话,终于有人信了

娱最资讯
2026-02-16 22:32:42
台湾“国运签”除夕夜出炉!签上28字令民进党冒汗,一切才刚开始

台湾“国运签”除夕夜出炉!签上28字令民进党冒汗,一切才刚开始

头条爆料007
2026-02-18 08:56:09
52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

素然追光
2026-01-06 05:50:03
明日大年初三“送穷日”,牢记:2习俗3忌讳,不忘传统,马年更旺

明日大年初三“送穷日”,牢记:2习俗3忌讳,不忘传统,马年更旺

餐饮新纪元
2026-02-18 00:14:20
揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

谈史论天地
2026-02-18 16:51:15
转告父母:服用“他汀药”期间,不要碰这4物,建议放心上

转告父母:服用“他汀药”期间,不要碰这4物,建议放心上

39健康网
2026-02-14 20:15:39
砸2.2亿!金螳螂建总部大楼,长得像一本本堆起来的书!

砸2.2亿!金螳螂建总部大楼,长得像一本本堆起来的书!

GA环球建筑
2026-02-18 14:02:15
二婚市场的真实模样:人到中年离婚,男女谁更有市场?

二婚市场的真实模样:人到中年离婚,男女谁更有市场?

加油丁小文
2025-12-29 10:02:08
杨怡罗仲谦晒全家福!45岁杨怡状态绝了,一双儿女颜值爆表?

杨怡罗仲谦晒全家福!45岁杨怡状态绝了,一双儿女颜值爆表?

娱乐领航家
2026-02-18 23:00:03
迟到12年的道歉,TVB一个女演员被“献祭”的真相,给炸了出来

迟到12年的道歉,TVB一个女演员被“献祭”的真相,给炸了出来

西楼知趣杂谈
2026-02-04 21:53:51
中国汽车正式进入“国产四巨头”时代,2026年买车怎么买?

中国汽车正式进入“国产四巨头”时代,2026年买车怎么买?

小怪吃美食
2026-01-25 13:45:34
笑死!你永远猜不到狗狗的交际圈到底有多广,哈哈哈哈 ​​​

笑死!你永远猜不到狗狗的交际圈到底有多广,哈哈哈哈 ​​​

夜深爱杂谈
2026-01-29 21:15:05
10岁豪门娃破纪录!霍中曦的爆红,离不开郭晶晶的狠心教育

10岁豪门娃破纪录!霍中曦的爆红,离不开郭晶晶的狠心教育

瓜汁橘长Dr
2026-01-12 16:50:35
你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

带你感受人间冷暖
2026-02-12 00:05:09
价格大跳水,不少人“抄底”!武汉最高跌幅超80%

价格大跳水,不少人“抄底”!武汉最高跌幅超80%

瓜哥的动物日记
2026-02-18 20:01:28
高市早苗万万没想到,自己精心策划的“闪电选举”竟成了一场噩梦

高市早苗万万没想到,自己精心策划的“闪电选举”竟成了一场噩梦

我心纵横天地间
2026-02-18 18:49:00
维尼修斯疑似挑衅奥塔门迪,后者掀开衣服展示世界杯冠军文身

维尼修斯疑似挑衅奥塔门迪,后者掀开衣服展示世界杯冠军文身

懂球帝
2026-02-18 07:01:31
300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

小熊侃史
2026-01-04 12:36:18
“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

谈史论天地
2026-02-06 19:00:03
2026-02-19 02:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12318文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

艺术
健康
亲子
家居
军事航空

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

转头就晕的耳石症,能开车上班吗?

亲子要闻

一群小可爱,一群好家长,用最甜的声音,唱最暖的歌声,有缘相聚

家居要闻

中古雅韵 乐韵伴日常

军事要闻

菲海警在南海投放不明物体 被中国海警全程监控并拍下

无障碍浏览 进入关怀版