网易首页 > 网易号 > 正文 申请入驻

中国传媒大学:一个预训练视频生成模型竟能通用处理各种视觉任务

0
分享至


这项由中国传媒大学媒体智能处理团队的陈兰等研究者以及新加坡国立大学Show Lab的顾宇超共同完成的研究于2025年9月发表在arXiv平台(论文编号:arXiv:2509.21760v1),为我们展现了一个令人意外的发现:原本专门用来生成视频的人工智能模型,经过简单调整后竟然能够胜任各种不同的视觉任务。

在人工智能的世界里,通常每个模型都有自己的专长——就像不同职业的工人各司其职。图像识别模型专门认图片,视频生成模型专门制作视频,深度预测模型专门判断距离。但是,这种专业化分工也带来了一个问题:要想建立一个能够处理多种视觉任务的系统,研究人员需要收集大量不同类型的训练数据,这个过程既昂贵又耗时,就像要培养一个全能工匠需要让他学会所有不同工艺的技巧一样困难。

研究团队提出了一个大胆的假设:能否让一个已经训练好的视频生成模型承担起多种视觉任务的责任?他们的灵感来源于大型语言模型的成功经验。我们都知道ChatGPT这样的语言模型能够处理翻译、写作、问答等各种语言任务,那么视频生成模型是否也具备这样的潜力呢?

这个想法看似简单,实际上却蕴含着深刻的洞察。视频本身就是由连续的图像帧组成的,而视频生成模型在训练过程中已经学会了理解图像之间的时间关系和空间关系。研究团队认为,这些已有的能力或许可以被巧妙地转移到其他视觉任务上。

为了验证这个想法,研究团队设计了名为UniVid的框架。这个框架的核心思路是将各种视觉任务都表示成"视觉句子"的形式。什么是视觉句子呢?可以把它想象成一个视觉版的语言句子,只不过每个"词汇"都是一张图片或一段视频片段。

具体来说,每个视觉句子都遵循A→A'→B→B'的模式。在这个结构中,A和A'构成一个示例对,展示了某种特定的视觉变换关系,比如从原始图像到其深度图的转换。B是查询输入,B'则是期望的输出结果。这种结构让模型能够通过观察示例来理解任务要求,然后将同样的变换应用到新的输入上。

研究团队选择了Wan视频生成模型作为他们的实验基础。Wan模型原本是专门用来根据文字描述生成视频的,但现在它要承担起更广泛的责任。为了让这个模型适应新任务,研究团队采用了一种叫做LoRA(Low-Rank Adaptation)的技术进行微调。这种技术的妙处在于它不需要重新训练整个模型,而是只调整模型的一小部分参数,就像给一台通用机器安装不同的工具头来完成不同的工作一样。

在训练过程中,研究团队将视觉句子中的A、A'和B部分作为清晰的上下文信息输入给模型,只对目标输出B'添加噪声。这样,模型就能学会根据前面的上下文来生成正确的输出。这个过程有点像教一个学生做数学题:先给他看几个解题示例,然后让他根据这些示例来解决新的问题。

研究团队设计了六种不同类型的视觉任务来测试UniVid的能力。其中包括生成类任务,比如涂鸦图转换(将简单的线条画转换成详细的图像)、风格转换(将普通照片转换成梵高画风)和相机运动转换(改变视频的拍摄角度或运动方式)。同时还包括理解类任务,比如深度图预测(判断图像中物体的远近距离)、语义分割(识别图像中不同区域分别是什么)和显著物体跟踪(追踪视频中最重要的物体)。

令人惊讶的是,尽管Wan模型在预训练阶段只接触过自然视频数据,从未见过深度图、分割图等标注数据,但经过微调后的UniVid却能够很好地处理这些跨数据源的任务。这就好比一个只在中式厨房工作过的厨师,经过短期学习后竟然能做出地道的法式菜肴。

更有趣的是,UniVid展现出了强大的跨模态适应能力。所谓跨模态,就是指能够同时处理图像和视频的混合输入。传统的视觉模型通常只能处理单一类型的输入,要么是纯图像,要么是纯视频。但UniVid可以理解这样的情况:给它看一张图片和一个视频示例,然后让它根据这个混合示例来处理新的查询。这种能力就像一个翻译员不仅能在两种语言之间互译,还能理解图文并茂的复合信息一样。

研究过程中最令人兴奋的发现之一是,理解任务和生成任务在这个框架下可以轻易互换。只需要调换视觉句子中元素的顺序,一个原本用于理解的任务就可以变成生成任务,反之亦然。比如,原本是"自然视频→显著物体遮罩"的理解任务,调换顺序后就变成了"显著物体遮罩→自然视频"的生成任务。这种对称性表明,在视觉处理的深层次上,理解和生成可能本质上是同一个过程的两个方面。

为了验证UniVid的泛化能力,研究团队进行了大量实验。他们发现,即使每个任务只用20个训练样本进行微调,模型也能取得不错的效果。这说明视频生成模型在预训练阶段学到的知识确实可以有效地迁移到其他视觉任务上。

在混合训练实验中,研究团队尝试同时训练多个任务。结果显示,与分别训练每个任务相比,联合训练的效果往往更好。这进一步证明了不同视觉任务之间存在内在的关联性,它们可以相互促进学习。

研究团队还探索了上下文长度对模型性能的影响。他们测试了4-shot、6-shot和8-shot等不同设置,发现虽然更长的上下文通常能带来更好的效果,但也会增加推理时间。考虑到效率和效果的平衡,他们最终选择了4-shot设置作为标准配置。

在与现有方法的对比实验中,UniVid展现出了强劲的竞争力。尽管它只使用了很少的训练数据,但在多项任务上的表现都超过了需要大量标注数据的传统方法。这个结果特别有意义,因为它表明我们可能无需收集海量的任务特定数据就能构建出高效的视觉系统。

当然,这项研究也存在一些局限性。目前使用的Wan模型受到上下文长度的限制,每个序列最多只能处理81帧。此外,由于生成过程的随机性,在某些需要精确标签一致性的任务(如实例分割)上,模型的表现还不够稳定。

这项研究的意义不仅在于技术突破,更在于它为我们提供了一个新的思路:也许我们不需要从零开始为每个新任务构建专门的模型,而是可以利用已有的强大基础模型,通过巧妙的任务设计和少量的适应性训练来实现多种功能。这种思路可能会显著降低人工智能应用的开发成本和时间。

从更广阔的视角来看,这项研究也呼应了当前人工智能发展的一个重要趋势:从专用模型向通用模型的转变。就像大型语言模型统一了各种文本处理任务一样,视频生成模型可能也具备统一各种视觉任务的潜力。这种统一不仅能简化系统设计,还可能帮助我们更好地理解视觉认知的本质。

展望未来,研究团队计划探索长上下文视频生成架构,以处理更长的视频序列。他们也希望解决理解任务中的标签一致性问题,让模型在处理需要精确分类的任务时表现得更加稳定。

说到底,这项研究告诉我们一个简单而深刻的道理:有时候解决问题的钥匙可能就藏在我们已有的工具箱里,关键在于如何巧妙地使用它们。UniVid的成功表明,通过创造性的任务设计和适当的模型适应,我们可以让一个专门的视频生成模型变身为多面手,承担起各种不同的视觉任务。这不仅为构建更加统一和高效的视觉AI系统开辟了新路径,也为我们理解智能系统的通用性提供了新的视角。对于那些希望深入了解这一创新方法的读者,可以通过论文编号arXiv:2509.21760v1查询完整的技术细节和实验结果。

Q&A

Q1:UniVid是什么?它的核心创新在哪里?

A:UniVid是由中国传媒大学和新加坡国立大学联合开发的统一视觉任务框架。它的核心创新在于让一个原本专门生成视频的AI模型通过简单调整就能处理图像识别、深度预测、物体分割等各种不同的视觉任务,就像把专用工具改造成了多功能工具。

Q2:视频生成模型为什么能处理其他视觉任务?

A:视频生成模型在训练过程中已经学会了理解图像之间的时间和空间关系,这些能力可以迁移到其他视觉任务上。研究团队通过"视觉句子"的方式,让模型通过观察示例来理解任务要求,然后应用到新的输入上,有点像教学生通过例题来解决新问题。

Q3:UniVid相比传统方法有什么优势?

A:UniVid的最大优势是不需要为每个新任务收集大量专门的训练数据。传统方法需要针对每种视觉任务准备海量标注数据,而UniVid只需要每个任务20个样本就能取得不错效果,大大降低了开发成本和时间。同时它还能处理图像和视频的混合输入,适应性更强。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺
2026-03-26 15:03:26
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
家居
教育
时尚
军事航空

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026湖北高职单招工作启动

皮衣+裙,高级到炸

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版