![]()
这项由南京大学联合中科院、香港大学以及腾讯微信团队共同完成的研究发表于2026年3月,论文编号为arXiv:2603.02802v1。对于想要深入了解技术细节的读者,可以通过这个编号在arXiv平台上查询完整的学术论文。
日常生活中,我们经常会遇到这样的情况:拍摄了一段很棒的视频,但总想对其中某些部分进行修改——比如去掉背景中不小心入镜的路人,或者给空旷的海滩上添加一艘游船。然而,现有的视频编辑技术就像需要"对照答案"才能做题的学生一样,必须拥有大量"原视频-编辑后视频"的配对样本才能学会编辑技巧。收集这样的配对数据就像要求每个人都准备好"修图前后对比照"一样困难且成本高昂,这成为了视频编辑技术发展的重大瓶颈。
南京大学的研究团队敏锐地观察到了这个问题的关键所在。他们发现,当前的视频编辑方法在处理全局性编辑(比如改变整个视频的色调风格)时表现不错,但在进行局部编辑(比如只移除视频中的某个物体)时却常常力不从心。这种现象背后有两个根本性难题:一是高质量配对数据的极度稀缺,就像要找到完全相同场景下的"编辑前后"视频对比一样困难;二是现有方法过度依赖单一关键帧进行编辑指导,这就像仅凭一张照片就要重建整部电影的情节一样不切实际。
研究团队提出的NOVA框架采用了一种巧妙的"稀疏控制,密集合成"策略。这种方法可以比作一位经验丰富的视频剪辑师的工作方式:他们不需要逐帧进行精细调整,而是先在关键节点做出编辑决策,然后利用原始视频中丰富的运动和纹理信息来保持其他部分的连贯性和真实性。
一、突破传统限制的双分支架构设计
NOVA的核心创新在于采用了一种前所未有的双分支处理架构,这种设计就像人类大脑在处理视觉信息时的分工合作模式。整个系统包含两个专门化的处理分支:稀疏分支和密集分支,它们各司其职又紧密协作。
稀疏分支的作用类似于一位艺术指导,它专门负责处理用户提供的关键帧编辑信息。当用户想要对视频进行编辑时,他们不需要对每一帧都进行修改,而只需要在几个关键时间点提供编辑后的图像。这些关键帧就像电影分镜头脚本中的重要场景,为整个编辑过程提供语义指导。稀疏分支通过分析这些关键帧之间的变化,理解用户想要实现的编辑意图,并将这种意图转化为可以指导整个视频生成的控制信号。
与此同时,密集分支扮演着纹理和运动信息保管员的角色。它接收原始的未编辑视频作为输入,详细分析其中的每一个像素点的运动轨迹、纹理变化和时空关系。这个分支的职责是确保编辑后的视频在非关键帧区域依然保持原有的自然运动特征和背景细节。可以说,密集分支是视频真实感和连贯性的守护者。
两个分支之间的协作通过精心设计的交叉注意力机制实现。这种机制就像两位画家在协作完成一幅作品:一位专门负责构图和色彩搭配(稀疏分支),另一位专门负责细节描绘和质感表现(密集分支)。在每个处理层级上,主处理分支都会向两个专门分支"咨询"——从稀疏分支获取编辑意图的指导,从密集分支获取原始视频的运动和纹理信息。这种多层次的信息融合确保了最终生成的视频既能准确反映用户的编辑意图,又能保持原有视频的自然质感。
二、无需配对数据的自监督学习策略
NOVA最令人印象深刻的技术突破在于完全摆脱了对配对训练数据的依赖。传统的视频编辑模型就像需要"标准答案"才能学习的学生,必须看到大量"原视频-编辑后视频"的对照样本才能掌握编辑技巧。但NOVA采用了一种类似于"无师自通"的学习方式,通过巧妙的数据模拟策略让模型自己学会视频编辑的本领。
这种自监督学习策略包含两个互补的训练流水线。第一个是锚点控制流水线,它的工作原理就像模拟一个不太熟练的视频编辑师的操作过程。系统会从目标视频中选取几个关键帧,然后对这些关键帧进行人为的"劣化"处理——比如在局部区域添加模糊、进行几何变换或引入其他视觉噪声。接着,系统通过线性插值的方式在这些劣化的关键帧之间生成过渡帧,从而创建出一个在运动和外观上都存在不连贯性的"编辑参考视频"。
这种人为劣化的过程看似反常,实际上却模拟了真实编辑场景中经常遇到的问题。当用户手动编辑关键帧时,由于技术水平或工具限制,编辑结果往往会存在各种不完美之处——色彩偏差、几何失真、纹理不匹配等。通过让模型学习从这种"有缺陷"的编辑参考中恢复出高质量的视频,NOVA实际上掌握了处理真实编辑场景的能力。
第二个流水线被称为源保真度流水线,它采用随机剪切粘贴策略来生成伪源视频。这个过程就像制作一个拼图游戏:系统会从其他随机视频中截取一些片段,通过移动的二值掩模将这些外来内容"贴"到目标视频的某些区域上。这样生成的伪源视频在空间上存在明显的不一致性,但正是这种不一致性训练了模型的纹理恢复和空间一致性保持能力。
通过这两个流水线的协同作用,NOVA学会了两项核心技能:从稀疏分支学会理解和应用编辑意图,从密集分支学会保持视频的自然运动和纹理连贯性。这种学习过程完全不需要真实的编辑样本对,却能让模型具备处理各种复杂编辑任务的能力。
三、一致性感知的推理机制
在实际使用NOVA进行视频编辑时,系统采用了一种称为"一致性感知"的推理机制。这种机制的设计理念类似于电影制作中的连续性监督,确保整部影片在视觉风格上保持一致。
当用户想要编辑视频时,首先需要指定几个关键时间点(关键帧),然后提供相应的编辑指令。NOVA不会独立地处理每个关键帧,而是采用一种"以首帧为准"的策略。具体来说,系统会首先根据用户的指令编辑第一个关键帧,这个编辑结果成为整个视频编辑的"风格模板"。对于后续的关键帧,系统在编辑时都会参考这个风格模板,确保所有编辑都在视觉风格上保持一致。
这种做法就像服装设计师在设计系列服装时的工作方式:先确定一个主题色彩和风格方向,然后让系列中的所有单品都围绕这个主题进行变化,既保持个性又维持整体协调。通过这种方式,NOVA有效避免了独立编辑可能导致的风格漂移和视觉不连贯问题。
在获得所有编辑后的关键帧之后,系统会通过线性插值生成一个完整的参考视频序列。这个参考序列虽然在时间上是连续的,但由于是通过插值生成的,在运动细节和纹理表现上可能还不够自然。此时,密集分支就发挥了关键作用:它将原始的未编辑视频作为"运动和纹理词典",为参考序列中的每一帧提供丰富的细节信息。
这个过程类似于高级照片修复的工作原理:修复师会参考同一场景的其他照片来恢复损坏照片中的细节。NOVA的密集分支能够精确地识别原始视频中的运动模式和纹理特征,并将这些信息"移植"到编辑后的视频中,从而在保持编辑效果的同时确保视频的自然性和真实感。
四、突出的性能表现和广泛的应用前景
NOVA在各项评估指标上都展现出了显著优于现有方法的性能。研究团队设计了一套全面的评估体系,不仅包括传统的技术指标,还引入了更贴近实际使用体验的评价标准。
在成功率这一关键指标上,NOVA达到了93%的优异表现,远超其他竞争方法。这个成功率是通过用户研究得出的,参与者需要判断编辑后的视频是否成功地将第一帧的编辑效果传播到了整个序列。这个指标直接反映了方法的实用性——毕竟,一个编辑工具如果不能稳定地完成用户想要的编辑任务,就失去了存在的意义。
在时间一致性方面,NOVA同样表现出色。时间一致性衡量的是编辑后视频在整个时间序列上的语义连贯程度。通过计算生成帧与编辑后第一帧之间的CLIP嵌入相似度,可以量化编辑效果在时间维度上的传播质量。NOVA在这一指标上的优异表现证明了其稀疏控制机制的有效性。
帧一致性指标则评估生成视频与原始视频在非编辑区域的相似程度。这个指标对于局部编辑任务尤为重要,因为用户通常只想修改视频中的特定元素,而希望其他部分保持原样。NOVA的密集合成分支在这一方面发挥了关键作用,确保编辑操作不会对无关区域造成不必要的影响。
背景结构相似性指标专门评估未编辑背景区域的保持质量。通过使用SAM2模型生成精确的对象掩膜,研究团队能够将评估焦点集中在背景区域,更精确地衡量编辑方法对背景一致性的保持能力。NOVA在这一指标上的优异表现再次验证了其架构设计的合理性。
从实际应用案例来看,NOVA能够处理各种复杂的编辑任务。无论是对象移除(如去掉视频中的行人或车辆)、对象添加(如在海滩上增加建筑物)、还是属性修改(如改变物体颜色),NOVA都能在保持视频自然性的同时准确完成编辑任务。特别值得一提的是,NOVA在处理具有复杂运动模式的视频时依然能够保持良好的编辑质量,这在以往的方法中往往是一个难点。
五、技术细节和创新突破的深度分析
NOVA的技术创新不仅体现在整体架构设计上,更体现在诸多精心设计的技术细节中。这些细节的巧妙组合共同构成了NOVA卓越性能的技术基础。
在模型架构方面,NOVA基于WAN 2.1 VACE 1.3B架构进行构建,但引入了全新的密集合成能力。为了高效集成这一新功能,研究团队采用了一种聪明的训练策略:保持基础WAN 2.1 VACE模型的权重不变,只训练新引入的交叉注意力模块。这种做法类似于在已有建筑基础上加建新楼层,既充分利用了现有模型的能力,又大幅降低了训练成本和复杂度。
在训练数据方面,研究团队使用了包含5000个高质量视频片段的数据集,这些数据全部来源于Pexels平台。虽然数据规模相对较小,但通过巧妙的自监督学习策略,NOVA能够从这些数据中学到丰富的视频编辑知识。训练过程使用了AdamW优化器,固定学习率为1×10^-4,训练步数约为8000步。所有视频都被处理为832×480像素分辨率,长度为81帧。
关键帧选择策略也体现了研究团队的深思熟虑。在推理过程中,NOVA使用固定间隔为10帧的关键帧选择策略,即对于81帧长度的视频,关键帧索引为{0, 10, 20, 30, 40, 50, 60, 70, 80}。这种选择既保证了足够的时间采样密度,又避免了计算资源的浪费。更重要的是,消融实验表明NOVA对关键帧间隔的变化具有良好的鲁棒性,即使改变间隔设置,模型性能依然稳定。
在具体的编辑实现上,NOVA使用FLUX.1 Kontext Dev模型来生成编辑后的关键帧。这个选择并非偶然——FLUX.1 Kontext支持参考图像条件化,这正是实现一致性感知编辑的关键技术要求。通过让后续关键帧的编辑都参考第一个编辑结果,系统能够有效避免风格漂移问题。
在损失函数设计上,NOVA采用了标准的去噪损失,这是扩散模型中的经典选择。虽然看似简单,但结合精心设计的训练数据生成策略,这个损失函数能够有效地指导模型学习所需的能力。研究团队通过大量实验验证了这种选择的有效性。
六、深入的消融研究和鲁棒性分析
为了全面验证NOVA各个组件的重要性和整体系统的鲁棒性,研究团队进行了详尽的消融实验和敏感性分析。这些实验就像汽车制造商对每个零部件进行的压力测试,确保最终产品的可靠性和稳定性。
密集分支的重要性通过专门设计的对比实验得到了充分验证。研究团队构建了一个对象添加/移除数据集,利用SAM2模型生成高精度对象掩膜,通过剪切粘贴方法创建地面真值视频对。对比实验结果显示,包含密集分支的完整NOVA模型在帧级CLIP相似度上明显优于移除密集分支的简化版本。更直观的定性分析表明,密集分支对于背景一致性保持具有决定性作用——没有密集分支的模型往往会在非编辑区域产生纹理幻觉和细节失真。
为了进一步探究密集分支的工作机理和鲁棒性,研究团队设计了一个有趣的"降质输入"实验。他们故意向密集分支提供质量降低的输入视频(如模糊处理后的视频),观察模型的响应。实验结果令人惊喜:即使输入视频存在明显降质,密集分支依然能够恢复出比输入更清晰的背景细节。这表明密集分支的功能远不止简单的纹理复制,而是一种更智能的引导式合成过程。
一致性感知关键帧编辑策略的效果通过对比实验得到验证。研究团队比较了两种关键帧编辑方式:独立编辑(每个关键帧都独立进行编辑)和一致性感知编辑(后续关键帧参考第一帧编辑结果)。结果显示,独立编辑容易导致风格不一致问题,比如在窗户添加任务中,不同关键帧可能产生风格差异明显的窗户设计。而一致性感知编辑则能够有效维持整个序列的风格协调性。
关键帧编辑模型的选择敏感性也得到了测试。除了主要使用的FLUX.1 Kontext,研究团队还测试了Qwen-Image-Edit模型的效果。结果表明,虽然不同编辑模型的性能存在差异,但NOVA框架对编辑模型的选择具有良好的适应性。这种模块化的设计让NOVA能够随着图像编辑技术的进步而不断改进。
关键帧间隔的鲁棒性测试揭示了NOVA的另一个重要优势。虽然模型在训练时使用固定的10帧间隔,但在推理时能够适应8帧、16帧甚至20帧的间隔变化。这种灵活性让用户可以根据具体需求调整编辑的精细程度——需要更精确控制时可以减小间隔,需要快速编辑时可以增大间隔。
七、与现有方法的全面对比和优势分析
在与当前主流视频编辑方法的对比中,NOVA展现出了全方位的技术优势。这种优势不仅体现在量化指标上,更体现在实际使用体验和编辑质量的明显提升。
与AnyV2V方法相比,NOVA在成功率上实现了显著提升(93% vs 75%)。AnyV2V虽然不需要per-video微调,但其单帧指导的编辑方式在处理复杂场景时容易出现背景不一致问题。特别是在处理具有大幅度摄像机运动或复杂对象交互的视频时,AnyV2V往往会产生明显的视觉不连贯现象。
与I2VEdit和LoRA-Edit这类需要per-video微调的方法相比,NOVA在保持相当编辑质量的同时大幅降低了计算成本。I2VEdit虽然能够达到83%的成功率,但每个视频都需要专门的微调过程,这在实际应用中是不现实的。LoRA-Edit作为一个14B参数的大型模型,虽然在某些指标上表现不错,但其巨大的计算开销和存储需求限制了实际部署的可能性。
VACE方法作为NOVA的基础,在单独使用时表现有限(成功率仅36%)。但当为VACE提供多关键帧指导时,其性能显著提升至90%,这从侧面验证了多关键帧策略的有效性。然而,即使是多关键帧版本的VACE在背景一致性方面依然不如NOVA,这突出了密集合成分支的重要贡献。
Senorita-2M作为一个基于大规模训练数据的5B参数模型,在某些指标上表现相当,但NOVA以更小的模型规模(1.3B)和更少的训练数据实现了更好的综合性能。这体现了NOVA架构设计和训练策略的高效性。
在具体的编辑任务类型上,NOVA的优势更加明显。对于对象移除任务,传统方法往往会在被移除对象的原位置留下明显的伪影或不自然的纹理填充。NOVA通过密集分支能够更智能地利用周围区域的信息进行无缝修复。对于对象添加任务,NOVA能够更好地保持新增对象与原场景的视觉一致性,避免出现"贴上去"的生硬感。
八、实际应用场景和未来发展前景
NOVA技术的应用前景极为广阔,几乎涵盖了所有需要视频编辑的领域。在内容创作行业,NOVA能够显著降低视频制作的门槛和成本。以往需要专业编辑师花费数小时完成的复杂编辑任务,现在普通用户只需要提供几个关键帧的编辑示例就能实现。这种能力对于社交媒体内容创作者、小型工作室和个人用户来说具有革命性意义。
在电影和电视制作领域,NOVA可以作为强有力的预可视化和概念验证工具。导演和编剧可以快速创建不同版本的场景来探索创意方向,而不需要投入大量资源进行实际拍摄。后期制作团队也可以利用NOVA进行快速原型制作,在确定最终方案之前测试各种编辑效果。
在教育和培训领域,NOVA为创建个性化教学内容提供了新的可能性。教师可以轻松地修改现有教学视频以适应不同的教学情境,比如在讲解历史事件时添加相关的视觉元素,或者在科学实验演示中突出特定的观察重点。
电子商务和营销行业也能从NOVA技术中受益匪浅。商家可以快速为同一产品创建多种展示视频,比如更换背景场景、调整产品颜色或添加使用场景。这种快速定制化能力能够显著提升营销效率和客户体验。
在新闻和纪录片制作方面,NOVA提供了一种安全且高效的内容保护方法。当需要在保护隐私的前提下展示某些场景时,可以利用NOVA技术对敏感信息进行精确的编辑处理,同时保持视频的整体真实性和观看体验。
虽然NOVA已经展现出了强大的能力,但研究团队也诚实地指出了当前版本的一些限制。最主要的限制来自于编辑关键帧的质量依赖性。由于NOVA的编辑效果很大程度上取决于用户提供的关键帧编辑质量,当前的图像编辑模型在处理某些复杂编辑任务时可能需要用户进行多次尝试才能获得满意的结果。
未来的发展方向可能包括集成更先进的图像编辑模型,提升关键帧编辑的自动化程度和质量稳定性。同时,探索更智能的关键帧选择策略,让系统能够自动识别最适合编辑的时间点,进一步降低用户的操作难度。另外,扩展到更长视频和更高分辨率的支持也是重要的发展方向。
说到底,NOVA代表了视频编辑技术发展的一个重要里程碑。它成功地解决了长期困扰该领域的配对数据稀缺问题,通过巧妙的架构设计和训练策略实现了高质量的无监督视频编辑。这项技术不仅在学术上具有重要意义,更在实际应用中展现出了巨大的潜力。随着技术的进一步完善和普及,我们有理由期待视频编辑将变得更加简单、高效和普及,让每个人都能成为优秀的视频内容创作者。对于想要深入了解技术实现细节的读者,强烈建议查阅原始论文arXiv:2603.02802v1,其中包含了更多精彩的技术细节和实验结果。
Q&A
Q1:NOVA是什么,它解决了什么问题?
A:NOVA是南京大学团队开发的视频编辑技术,全称"稀疏控制,密集合成"。它主要解决了传统视频编辑方法需要大量"编辑前后"配对视频数据才能训练的问题。就像以前学画画必须有标准答案对照,现在NOVA可以无师自通,只需要用户提供几个关键帧的编辑示例就能完成整个视频的编辑。
Q2:NOVA的双分支架构是如何工作的?
A:NOVA采用了稀疏分支和密集分支协作的方式。稀疏分支像艺术指导,处理用户提供的关键帧编辑信息,理解编辑意图;密集分支像纹理保管员,分析原始视频的运动和纹理信息,确保编辑后视频保持自然。两个分支通过交叉注意力机制协作,就像两位画家合作完成作品一样。
Q3:NOVA相比其他视频编辑方法有什么优势?
A:NOVA的最大优势是不需要配对训练数据,成功率达到93%,远超其他方法。它能处理复杂的局部编辑任务(如移除物体、添加元素),同时保持背景的一致性和自然性。而且不需要为每个视频单独训练,大大降低了使用成本和技术门槛。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.