网易首页 > 网易号 > 正文 申请入驻

告别「偏科」,UniVid实现视频理解与生成一体化

0
分享至



在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体——他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。



这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 + 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。



  • 论文标题:UniVid: The Open-Source Unified Video Model
  • 论文地址:https://arxiv.org/abs/2509.24200

UniVid 想解决什么问题?

UniVid 尝试把视频「理解」与「生成」融合为一体,构建出一个真正通用的统一视频模型(Unified Video Model),一个既能「理解」又能「生成」的视频多模态模型。

核心创新

1.统一结构:Adapter-based Unified Architecture



在传统方案中,理解模型和生成模型是完全分开的系统,训练开销大、互通困难。要把它们融合,需要重新训练一个庞大的联合模型,成本极高。

本文采用适配器(Adapter)插入机制,在已有多模态大语言模型中插入轻量模块,使其具备视频生成能力。这样,理解模块 + 生成模块可以共享大部分参数,只需训练少量新增参数。

优势:

  • 显著降低训练开销与算力成本;
  • 提高模型扩展性:已有理解能力的模型能「平滑地」插入生成能力;
  • 兼顾理解与生成,不牺牲已有强大的视觉 / 语言理解基础。

2. 温控对齐:Temperature Modality Alignment

在跨模态(文本 → 视频)生成中,文本与视觉之间表示尺度、语义强度往往不匹配。若直接融合注意力或特征,很容易出现「提示偏移」(Prompt Drift):生成的视频越偏离最初的文字意图。

本文提出模态温度对齐机制(Temperature Modality Alignment)。在跨模态注意力层中对不同模态(文本 / 视觉特征)引入温度系数(类似 softmax 温度调节),动态调节它们的注意力权重与融合强度。在生成过程的早期阶段,更高权重给文本提示以加强语义引导;在后期阶段,则逐渐让视觉特征主导细节优化。

这能够有效减少提示偏移,提高语义一致性;让模型在「理解 → 生成」过程中过渡更自然;保证最终视频既符合提示,又具备高质量视觉细节。

3. 金字塔反射:Pyramid Reflection



视频是时序数据,理解和建模长时域依赖(远帧之间的关联)成本极高。传统 Transformer 全帧注意力的计算量呈平方级增长,难以扩展。

本文提出金字塔反射机制(Pyramid Reflection):

  • 在理解任务中采用 Reflector 模块,通过动态选择关键帧,并在金字塔层次上进行「反射 / 聚合」操作;
  • 将帧序列映射到不同时间尺度,自底向上或自顶向下反射信息,使模型能在多个尺度上捕捉时序关系。

在视频 QA / 时序理解任务中,PR 模块结合Actor – Evaluator – Reflector 循环结构,让模型能用最少的帧达到准确推理结果。

实验结果:打败 SOTA?

UniVid 在视频生成与理解两大方向上,都达到了同级模型最优表现。

1. 视频生成:VBench 全维度刷新记录

测试基准:VBench-Long,是目前最严格的视频生成综合评测集,涵盖多个维度:

  • 技术质量(Technical Quality)
  • 美学质量(Aesthetic Quality)
  • 语义一致性(Semantic Fidelity)
  • 对象 / 动作 / 场景 / 时序等细粒度指标



UniVid 的成绩不仅在总分上超越所有主流视频生成模型,更在关键维度上超越同级:

  • Temporal Consistency(时序一致性):99.88(几乎满分);
  • Motion Smoothness(运动平滑度):99.25;
  • Semantic Alignment(语义一致性):80.58(领先 EasyAnimate 的 77.01);
  • Imaging Quality(影像质量):73.03(显著高于其他模型)。

UniVid 在生成的同时,极大提升了语义契合度与画面连贯性。



与顶尖视频生成模型的比较

2. 视频理解:多项问答任务登顶

在视频问答(Video Question Answering, Video-QA)任务中,UniVid 同样登顶多个主流基准。



UniVid 在MSVD-QA 和 ActivityNet-QA上均创造新纪录,并在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力。



与顶尖视频生成模型的比较

Demo 展示

为了让大家更直观地理解 UniVid 的能力,研究团队还准备了视频 Demo,涵盖视频生成和视频理解两类任务。

视频生成:


https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw

从左到右的 prompt 分别是:

  • Mouse with large teeth aggressively eating cheese.
  • A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
  • Ten fluffy kittens eat breakfast together in warm sunlight.

视频理解:


https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw

应用价值与意义

1. 视频创作与生成

在影视、广告、短视频等场景中,创作者只需输入文字脚本或图像提示,UniVid 就能自动生成连贯、符合语义逻辑的视频。它能「理解」剧情后再去「创作镜头」,让内容生产更自然、更高效。

2. 视频理解与分析

UniVid 还能看懂视频。无论是体育赛事、监控画面还是教学视频,它都能识别动作、人物、事件逻辑,生成精准摘要或问答结果。让机器不仅看到画面,更「理解故事」。

3. 机器人与具身智能

在机器人导航、自动驾驶或智能体系统中,UniVid 可以理解摄像头输入并生成未来场景预测,帮助智能体进行规划与决策。它让机器人不仅「看得到」,还能「想得出下一步」。

4. 开源生态与科研价值

与闭源视频模型不同,UniVid 的代码开源,任何研究者或开发者都可自由使用、复现、二次开发。它为视频智能研究提供了一个通用底座,也让产业界能以更低成本构建自己的视频生成系统。

作者介绍

罗嘉滨是北京大学软微与微电子学院在读博士生,研究兴趣为多智能体系统、多模态生成、RAG、AI 安全。曾参与多项科研项目,长期致力于构建安全可信的 AGI。

林峻辉是北京师范大学在读本科生,AI Geek 成员,研究兴趣为图像,视频生成与处理。曾参与多项科研项目,积极探索有趣且有用的计算机视觉模型。

张泽宇是 Richard Hartley 教授和 Ian Reid 教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。

唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者,入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金,连续三年入选斯坦福大学全球前 2% 顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究,在国际顶级期刊与会议发表论文 100 余篇,相关成果被引用超过 10000 次。曾获 ACM Multimedia 最佳论文提名奖,现任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 领域主席及多个人工智能会议和期刊审稿人。

  • 更多信息参见个人主页: https://ha0tang.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
投资遭“强行接管”:民企的县城之殇

投资遭“强行接管”:民企的县城之殇

三人成虎V5
2025-10-31 11:51:58
后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

鋭娱之乐
2025-11-03 11:25:29
转岗7个月即被免职,朱东亚主动投案

转岗7个月即被免职,朱东亚主动投案

新京报政事儿
2025-11-03 17:15:02
某东购机实录:粉丝拿下全新iPhone17 Pro Max,安全下车不踩坑!

某东购机实录:粉丝拿下全新iPhone17 Pro Max,安全下车不踩坑!

果粉使用技巧
2025-11-02 19:18:24
A股:今日,让人捧腹大笑,出现两个信号,股市即将进入尾声了?

A股:今日,让人捧腹大笑,出现两个信号,股市即将进入尾声了?

史行途
2025-11-03 12:00:34
阿斯麦向美国承诺:只要解放军攻台,立刻远程瘫痪台积电光刻机

阿斯麦向美国承诺:只要解放军攻台,立刻远程瘫痪台积电光刻机

文史旺旺旺
2025-10-27 19:58:04
华为Mate 80新机接受预定,妥妥的王炸!

华为Mate 80新机接受预定,妥妥的王炸!

科技堡垒
2025-11-02 11:11:47
“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

红星新闻
2025-10-31 21:35:21
台军退役少将蔡忠诚出任国民党桃园市党部主委,曾受韩国瑜器重

台军退役少将蔡忠诚出任国民党桃园市党部主委,曾受韩国瑜器重

海峡导报社
2025-11-03 16:39:06
2025斯诺克国锦赛:丁俊晖6-1横扫霍尔特,晋级32强

2025斯诺克国锦赛:丁俊晖6-1横扫霍尔特,晋级32强

懂球帝
2025-11-03 17:39:01
王家卫好样的,这下全网都知道唐嫣洁身自好了

王家卫好样的,这下全网都知道唐嫣洁身自好了

娱乐故事
2025-11-01 21:36:09
刘嘉玲晒同学50年后合影,面部医美痕迹明显,被吐槽不如同学自然

刘嘉玲晒同学50年后合影,面部医美痕迹明显,被吐槽不如同学自然

青史楼兰
2025-11-02 15:19:35
这是吴石将军牺牲时的真实照片,绳子绕颈,害怕他临刑时大喊口号

这是吴石将军牺牲时的真实照片,绳子绕颈,害怕他临刑时大喊口号

大国纪录
2025-10-30 09:56:59
西安一女护士遭男友杀害案今日开庭 家属称死者生前被多次殴打,诉求判男方死刑

西安一女护士遭男友杀害案今日开庭 家属称死者生前被多次殴打,诉求判男方死刑

红星新闻
2025-11-03 08:37:28
8项联盟第1,火箭崛起剑指总冠军!杜兰特宝刀未老,双核进步神速

8项联盟第1,火箭崛起剑指总冠军!杜兰特宝刀未老,双核进步神速

一将篮球
2025-11-03 18:29:38
00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

素然追光
2025-10-17 02:45:03
广东男篮VS山东!杜锋拒绝爆冷,揭幕战开门红,CCTV5直播

广东男篮VS山东!杜锋拒绝爆冷,揭幕战开门红,CCTV5直播

体坛瞎白话
2025-11-03 08:27:37
黄金税出来之后,电商平台的金条出现大幅度涨价

黄金税出来之后,电商平台的金条出现大幅度涨价

映射生活的身影
2025-11-02 18:32:57
女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

卡西莫多的故事
2025-10-30 11:33:46
爱奇艺借钱逾期一天,市民称收到“威胁”催收短信,爱奇艺:仅提供借款平台;小芽贷:会有温馨提醒短信

爱奇艺借钱逾期一天,市民称收到“威胁”催收短信,爱奇艺:仅提供借款平台;小芽贷:会有温馨提醒短信

中国能源网
2025-11-02 10:49:03
2025-11-03 19:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

时尚
房产
旅游
亲子
家居

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

房产要闻

封关前夕,三亚楼市成交暴涨,这个项目单月成交破百!

旅游要闻

中方决定!恢复中国公民赴加拿大团队游

亲子要闻

与睡觉相比,学习成绩一文不值,孩子身心健康更重要

家居要闻

岁月柔情 现代品质轻奢

无障碍浏览 进入关怀版