中国传媒大学:一个预训练视频生成模型竟能通用处理各种视觉任务|示例|实验|上下文|图像生成基础模型

中国传媒大学:一个预训练视频生成模型竟能通用处理各种视觉任务

2025-10-17 16:56:18　来源: 科技行者

北京举报

分享至

这项由中国传媒大学媒体智能处理团队的陈兰等研究者以及新加坡国立大学Show Lab的顾宇超共同完成的研究于2025年9月发表在arXiv平台（论文编号：arXiv:2509.21760v1），为我们展现了一个令人意外的发现：原本专门用来生成视频的人工智能模型，经过简单调整后竟然能够胜任各种不同的视觉任务。

在人工智能的世界里，通常每个模型都有自己的专长——就像不同职业的工人各司其职。图像识别模型专门认图片，视频生成模型专门制作视频，深度预测模型专门判断距离。但是，这种专业化分工也带来了一个问题：要想建立一个能够处理多种视觉任务的系统，研究人员需要收集大量不同类型的训练数据，这个过程既昂贵又耗时，就像要培养一个全能工匠需要让他学会所有不同工艺的技巧一样困难。

研究团队提出了一个大胆的假设：能否让一个已经训练好的视频生成模型承担起多种视觉任务的责任？他们的灵感来源于大型语言模型的成功经验。我们都知道ChatGPT这样的语言模型能够处理翻译、写作、问答等各种语言任务，那么视频生成模型是否也具备这样的潜力呢？

这个想法看似简单，实际上却蕴含着深刻的洞察。视频本身就是由连续的图像帧组成的，而视频生成模型在训练过程中已经学会了理解图像之间的时间关系和空间关系。研究团队认为，这些已有的能力或许可以被巧妙地转移到其他视觉任务上。

为了验证这个想法，研究团队设计了名为UniVid的框架。这个框架的核心思路是将各种视觉任务都表示成"视觉句子"的形式。什么是视觉句子呢？可以把它想象成一个视觉版的语言句子，只不过每个"词汇"都是一张图片或一段视频片段。

具体来说，每个视觉句子都遵循A→A'→B→B'的模式。在这个结构中，A和A'构成一个示例对，展示了某种特定的视觉变换关系，比如从原始图像到其深度图的转换。B是查询输入，B'则是期望的输出结果。这种结构让模型能够通过观察示例来理解任务要求，然后将同样的变换应用到新的输入上。

研究团队选择了Wan视频生成模型作为他们的实验基础。Wan模型原本是专门用来根据文字描述生成视频的，但现在它要承担起更广泛的责任。为了让这个模型适应新任务，研究团队采用了一种叫做LoRA（Low-Rank Adaptation）的技术进行微调。这种技术的妙处在于它不需要重新训练整个模型，而是只调整模型的一小部分参数，就像给一台通用机器安装不同的工具头来完成不同的工作一样。

在训练过程中，研究团队将视觉句子中的A、A'和B部分作为清晰的上下文信息输入给模型，只对目标输出B'添加噪声。这样，模型就能学会根据前面的上下文来生成正确的输出。这个过程有点像教一个学生做数学题：先给他看几个解题示例，然后让他根据这些示例来解决新的问题。

研究团队设计了六种不同类型的视觉任务来测试UniVid的能力。其中包括生成类任务，比如涂鸦图转换（将简单的线条画转换成详细的图像）、风格转换（将普通照片转换成梵高画风）和相机运动转换（改变视频的拍摄角度或运动方式）。同时还包括理解类任务，比如深度图预测（判断图像中物体的远近距离）、语义分割（识别图像中不同区域分别是什么）和显著物体跟踪（追踪视频中最重要的物体）。

令人惊讶的是，尽管Wan模型在预训练阶段只接触过自然视频数据，从未见过深度图、分割图等标注数据，但经过微调后的UniVid却能够很好地处理这些跨数据源的任务。这就好比一个只在中式厨房工作过的厨师，经过短期学习后竟然能做出地道的法式菜肴。

更有趣的是，UniVid展现出了强大的跨模态适应能力。所谓跨模态，就是指能够同时处理图像和视频的混合输入。传统的视觉模型通常只能处理单一类型的输入，要么是纯图像，要么是纯视频。但UniVid可以理解这样的情况：给它看一张图片和一个视频示例，然后让它根据这个混合示例来处理新的查询。这种能力就像一个翻译员不仅能在两种语言之间互译，还能理解图文并茂的复合信息一样。

研究过程中最令人兴奋的发现之一是，理解任务和生成任务在这个框架下可以轻易互换。只需要调换视觉句子中元素的顺序，一个原本用于理解的任务就可以变成生成任务，反之亦然。比如，原本是"自然视频→显著物体遮罩"的理解任务，调换顺序后就变成了"显著物体遮罩→自然视频"的生成任务。这种对称性表明，在视觉处理的深层次上，理解和生成可能本质上是同一个过程的两个方面。

为了验证UniVid的泛化能力，研究团队进行了大量实验。他们发现，即使每个任务只用20个训练样本进行微调，模型也能取得不错的效果。这说明视频生成模型在预训练阶段学到的知识确实可以有效地迁移到其他视觉任务上。

在混合训练实验中，研究团队尝试同时训练多个任务。结果显示，与分别训练每个任务相比，联合训练的效果往往更好。这进一步证明了不同视觉任务之间存在内在的关联性，它们可以相互促进学习。

研究团队还探索了上下文长度对模型性能的影响。他们测试了4-shot、6-shot和8-shot等不同设置，发现虽然更长的上下文通常能带来更好的效果，但也会增加推理时间。考虑到效率和效果的平衡，他们最终选择了4-shot设置作为标准配置。

在与现有方法的对比实验中，UniVid展现出了强劲的竞争力。尽管它只使用了很少的训练数据，但在多项任务上的表现都超过了需要大量标注数据的传统方法。这个结果特别有意义，因为它表明我们可能无需收集海量的任务特定数据就能构建出高效的视觉系统。

当然，这项研究也存在一些局限性。目前使用的Wan模型受到上下文长度的限制，每个序列最多只能处理81帧。此外，由于生成过程的随机性，在某些需要精确标签一致性的任务（如实例分割）上，模型的表现还不够稳定。

这项研究的意义不仅在于技术突破，更在于它为我们提供了一个新的思路：也许我们不需要从零开始为每个新任务构建专门的模型，而是可以利用已有的强大基础模型，通过巧妙的任务设计和少量的适应性训练来实现多种功能。这种思路可能会显著降低人工智能应用的开发成本和时间。

从更广阔的视角来看，这项研究也呼应了当前人工智能发展的一个重要趋势：从专用模型向通用模型的转变。就像大型语言模型统一了各种文本处理任务一样，视频生成模型可能也具备统一各种视觉任务的潜力。这种统一不仅能简化系统设计，还可能帮助我们更好地理解视觉认知的本质。

展望未来，研究团队计划探索长上下文视频生成架构，以处理更长的视频序列。他们也希望解决理解任务中的标签一致性问题，让模型在处理需要精确分类的任务时表现得更加稳定。

说到底，这项研究告诉我们一个简单而深刻的道理：有时候解决问题的钥匙可能就藏在我们已有的工具箱里，关键在于如何巧妙地使用它们。UniVid的成功表明，通过创造性的任务设计和适当的模型适应，我们可以让一个专门的视频生成模型变身为多面手，承担起各种不同的视觉任务。这不仅为构建更加统一和高效的视觉AI系统开辟了新路径，也为我们理解智能系统的通用性提供了新的视角。对于那些希望深入了解这一创新方法的读者，可以通过论文编号arXiv:2509.21760v1查询完整的技术细节和实验结果。

Q&A

Q1：UniVid是什么？它的核心创新在哪里？

A：UniVid是由中国传媒大学和新加坡国立大学联合开发的统一视觉任务框架。它的核心创新在于让一个原本专门生成视频的AI模型通过简单调整就能处理图像识别、深度预测、物体分割等各种不同的视觉任务，就像把专用工具改造成了多功能工具。

Q2：视频生成模型为什么能处理其他视觉任务？

A：视频生成模型在训练过程中已经学会了理解图像之间的时间和空间关系，这些能力可以迁移到其他视觉任务上。研究团队通过"视觉句子"的方式，让模型通过观察示例来理解任务要求，然后应用到新的输入上，有点像教学生通过例题来解决新问题。

Q3：UniVid相比传统方法有什么优势？

A：UniVid的最大优势是不需要为每个新任务收集大量专门的训练数据。传统方法需要针对每种视觉任务准备海量标注数据，而UniVid只需要每个任务20个样本就能取得不错效果，大大降低了开发成本和时间。同时它还能处理图像和视频的混合输入，适应性更强。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.