网易首页 > 网易号 > 正文 申请入驻

滑铁卢大学联合可灵提出UniVideo:视频理解、生成、编辑多模态

0
分享至



统一多模态模型在多模态内容理解与生成方面已展现出良好效果,但目前仍主要局限于图像领域。

滑铁卢大学与快手可灵团队提出 UniVideo,一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。

UniVideo 采用双流架构,将多模态大语言模型(MLLM)的指令理解与推理能力,与多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法,UniVideo 能够理解多模态指令、区分不同任务类型,并在多项基准上取得接近或超过现有最优方法(SoTA)的性能。

更重要的是,UniVideo 无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合。这意味着,视频生成与编辑不必再被拆分为多个孤立模型,统一建模本身就带来了更强的扩展性。

目前,该工作已被 ICLR 2026 接收,代码已开源。



  • 项目主页:https://congwei1230.github.io/UniVideo/
  • 论文地址:https://arxiv.org/abs/2510.08377
  • 开源代码:https://github.com/KlingTeam/UniVideo
  • 开源模型:https://huggingface.co/KwaiVGI/UniVideo

效果展示



模型架构



UniVideo 由两个核心组件组成:多模态大语言模型(MLLM) 和 多模态扩散 Transformer(MM-DiT)。

  • MLLM 负责多模态指令理解与语义推理,能够接受文本、图像和视频输入,并生成高层语义表示或文本响应。
  • MM-DiT 专注于视觉内容生成,在潜空间中进行条件图像 / 视频建模。

UniVideo 从 MLLM 的最后一层隐藏状态中提取多模态语义特征,这些特征编码了丰富的跨模态语义信息。通过可训练的 MLP Connector,将其对齐并注入到 MM-DiT 的理解流(understanding stream)中,用于高层语义条件建模。同时,视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流(generation stream),以保留细粒度的视觉信息。

这种双流设计同时具备强语义基础与高保真视觉重建能力,对于视频编辑以及需要保持身份一致性的上下文生成任务尤为关键。

统一 10 个多模态任务

UniVideo 将多种视频生成与编辑任务统一到单一的多模态指令范式中,并通过 MLLM + MM-DiT 的双流架构实现灵活的任务调度与生成。

  • 多模态理解(Image / Video → Text,I/V2T)

图像或视频输入由 MLLM 直接处理,并生成对应的文本输出。



  • 文本到图像 / 视频生成(Text → Image / Video,T2I / T2V)

文本指令由 MLLM 编码为语义表示,并作为条件输入,引导 MM-DiT 生成图像或视频内容。



  • 图像到视频生成(Image → Video,I2V)

输入图像与文本指令由 MLLM 联合理解并生成语义条件;同时,图像的视觉信息与视频潜变量一同输入 MM-DiT,以约束并引导视频生成过程。



  • 图像 / 视频编辑(Image / Video Editing,I2I / V2V)

输入图像或视频及编辑指令由 MLLM 解析为语义条件,MM-DiT 在保持原始内容结构的基础上完成条件编辑生成



  • 上下文图像 / 视频生成与编辑(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)

在这类任务中,通常存在多个视觉条件(如多张参考图像或参考视频)。所有视觉信号经 VAE 编码后统一填充至相同形状,并沿时间维度拼接,通过自注意力机制进行融合,从而支持 ID 保持和跨上下文生成与编辑。





实验结果

在定量评测中,UniVideo 在各项评测指标上均优于任务特定(task-specific)的基线方法,并在多数实验设置下达到或超过当前最优方法(SoTA)。

下图展示了 UniVideo 在上下文生成与编辑任务上的定量对比结果。





Key Insight:统一模型具备良好的泛化能力

团队从两个方面验证了 UniVideo 统一架构的泛化能力:

(1)对未见视频编辑指令的泛化能力:

尽管 UniVideo 未在 free-form 视频编辑指令数据上进行训练,但通过联合多任务训练,模型成功将图像编辑能力迁移至视频领域,实现了对 free-form 视频编辑指令的泛化。

(2)对新任务组合的泛化能力:

即使在训练阶段未显式包含相关任务组合,UniVideo 仍能够自然泛化到新的任务组合设置,展现出统一多模态框架在组合泛化方面的显著优势。

下图给出了 UniVideo 泛化到视频风格化与环境编辑任务的定性示例:



总结


UniVideo 通过统一的多模态指令范式与双流架构,实现了视频理解、生成与编辑任务的统一建模。实验结果表明,UniVideo 在多项定量评测中优于任务特定的单任务方法,并在多数设置下达到或超过当前最优水平。

更重要的是,UniVideo 可泛化到未见过的视频编辑指令和新的任务组合。这表明,统一多模态建模不仅可行,而且可能是一条更具扩展性的方向。

作者介绍


本文第一作者魏聪,滑铁卢大学博士三年级在读,导师为陈文虎教授。

  • 个人主页:https://congwei1230.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大家断崖式衰老都是在多少岁? 网友的回答很扎心了,满是无奈

大家断崖式衰老都是在多少岁? 网友的回答很扎心了,满是无奈

另子维爱读史
2025-12-26 16:31:13
霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

快科技
2026-03-04 08:36:31
她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

优趣纪史记
2025-12-28 14:47:11
多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

壹月情感
2026-03-03 21:59:20
为啥外国的火腿能直接生吃,我国的火腿却建议做熟再吃?这科学吗

为啥外国的火腿能直接生吃,我国的火腿却建议做熟再吃?这科学吗

向航说
2026-03-03 00:55:03
3K档苹果笔记本真香!MacBook Neo今年预计出货量可达500万台

3K档苹果笔记本真香!MacBook Neo今年预计出货量可达500万台

快科技
2026-03-05 18:36:12
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

银河史记
2026-03-03 17:15:07
全国政协委员建议高考英语由150分降至100分,开历史的倒车吗?

全国政协委员建议高考英语由150分降至100分,开历史的倒车吗?

我心纵横天地间
2026-03-04 22:39:53
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

80后房车生活
2026-03-05 04:10:47
第18轮打击来了,以色列国防部遇袭,超500美军死亡?特朗普难了

第18轮打击来了,以色列国防部遇袭,超500美军死亡?特朗普难了

小小科普员
2026-03-05 18:11:06
“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

粉红小碎花
2026-03-05 15:44:20
“一小时午睡”错了?医生忠告:过了70岁,午睡要尽量做到这3点

“一小时午睡”错了?医生忠告:过了70岁,午睡要尽量做到这3点

读懂世界历史
2026-03-04 10:12:47
“沪七条”落地首周:上海新房二手房齐火爆,长三角客群扎堆入市

“沪七条”落地首周:上海新房二手房齐火爆,长三角客群扎堆入市

界面新闻
2026-03-05 09:43:30
伊朗最高领袖办公室主任被斩首

伊朗最高领袖办公室主任被斩首

老马拉车莫少装
2026-03-02 12:54:08
开战第六天,巴基斯坦或参战,伊朗连炸十国,中美安理会交锋

开战第六天,巴基斯坦或参战,伊朗连炸十国,中美安理会交锋

皇朝冰酷
2026-03-05 17:51:36
父母最大的远见,就是在离开人世前,能给孩子留这六样!

父母最大的远见,就是在离开人世前,能给孩子留这六样!

金哥说新能源车
2026-03-05 18:10:30
喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

老谢谈史
2025-12-30 17:23:53
前国脚高峰现状:54岁很显老,妻子也是运动员,二儿子和继父更亲

前国脚高峰现状:54岁很显老,妻子也是运动员,二儿子和继父更亲

以茶带书
2026-02-25 19:52:54
获“救命钱”后,贾国龙摊牌:累计亏损将超6亿!他终于认清自己

获“救命钱”后,贾国龙摊牌:累计亏损将超6亿!他终于认清自己

社会日日鲜
2026-01-27 13:22:49
2026-03-05 19:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12418文章数 142578关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

俄外长:美以意图将海湾国家拖入对伊朗战争

头条要闻

俄外长:美以意图将海湾国家拖入对伊朗战争

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

小鹏第二代VLA如何破解智驾不敢用的技术困局?

态度原创

亲子
教育
健康
时尚
军事航空

亲子要闻

深度长文:婴儿哭声可能招来野兽,原始人是如何生存下来的?

教育要闻

青岛长沙路小学:以“马”为序,策马奔赴新学期

转头就晕的耳石症,能开车上班吗?

打底衫,条纹的最适合春天!

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版