网易首页 > 网易号 > 正文 申请入驻

港科大与快手联手:AI视频全能模型实现生成识别控制三合一

0
分享至


这项由香港科技大学的黄介辉、清华大学的贺旭、以及快手公司Kling团队的袁高、岑志、夏斌、周彦、陶鑫、万鹏飞等研究者合作完成的研究发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.07831v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

以往的视频生成AI就像专业厨师,每个人只精通一道菜。有的只会"看图说话"生成视频,有的只会从视频中识别物体和动作,还有的只能按照特定要求控制视频效果。但现实世界是复杂多样的,就像一顿完整的大餐需要各种技能的配合。当AI只擅长单一技能时,它对世界的理解就像只见过厨房一角的学徒,无法真正掌握烹饪的精髓。

研究团队意识到,如果能训练出一个"全能大厨",让AI同时掌握视频生成、物体识别、动作捕捉、深度估计等多种技能,它就能像真正理解世界运作规律的专家一样,生成出更符合物理规律、更具真实感的视频内容。这就是UnityVideo项目的核心理念——通过统一训练让AI成为视频领域的"全才"。

这个想法听起来美好,但实现起来却像同时学会十八般武艺一样困难。不同的视频任务就像不同的语言,有着各自的"语法"和"词汇"。深度信息告诉AI物体的远近关系,光流信息展示物体的运动轨迹,人体姿态信息描述身体各部位的位置,分割信息标识不同物体的边界。如何让AI理解这些不同"语言"之间的联系,并且在学习过程中相互促进而不是相互干扰,成了最大的挑战。

研究团队的解决方案就像设计了一套巧妙的"翻译系统"。他们创建了一个名为UnityVideo的框架,这个框架就像一个超级聪明的学生,能够同时学习多种技能,并且让这些技能彼此增强。当它学习如何生成视频时,对物体运动的理解会帮助它生成更流畅的画面。当它学习识别物体时,对深度关系的掌握会让它的判断更准确。

为了实现这个目标,研究团队设计了三个核心组件。第一个是"动态噪声调度器",就像一个智能的训练教练,会根据学习进度动态调整训练重点。有时让AI专注于生成训练,有时转向识别训练,有时进行综合训练,确保各项技能均衡发展。第二个是"模态自适应开关器",就像给AI配备了多副"眼镜",每副眼镜专门用来处理特定类型的信息,比如深度信息、运动信息或姿态信息。第三个是"上下文学习器",让AI能够理解不同信息类型的含义,就像学会了识别不同工具的用途。

在数据准备方面,研究团队构建了一个名为OpenUni的大型数据集,包含130万个多模态视频样本。这就像为AI准备了一个丰富的"教材库",涵盖了各种场景、动作和物体,让AI能够接触到足够多样化的训练素材。他们还创建了UniBench基准测试集,包含3万个合成视频样本,用来评估AI的学习效果。

训练过程采用了渐进式策略,就像教孩子学习一样,先从简单的内容开始。第一阶段专注于训练AI理解人体相关的各种信息,比如姿态、动作和深度关系。第二阶段则扩展到更广泛的场景,包括多人场景和一般物体的处理。这种循序渐进的方法避免了"消化不良"的问题,让AI能够稳步提升各项能力。

实验结果表明,UnityVideo在多个任务上都表现出色。在视频质量评估中,它生成的视频在背景一致性、美学质量、整体一致性和动态程度等指标上都达到了优秀水平。特别值得一提的是,相比单独训练的模型,统一训练的UnityVideo展现出了明显的性能提升,就像一个全面发展的学生比只擅长单科的学生更有潜力。

在深度估计任务中,UnityVideo的表现也令人印象深刻。它能够准确估计视频中物体的距离关系,生成的深度图像细节丰富、边缘清晰。在视频分割任务中,它能够准确识别和分离不同的物体,即使是复杂场景下的多个人物也能精确区分。

更令人惊喜的是,UnityVideo表现出了强大的泛化能力。尽管主要在人体数据上训练,它却能够成功处理动物动作捕捉、一般物体的深度估计等超出训练范围的任务。这就像一个学会了基本绘画技巧的艺术家,能够举一反三地创作出训练时从未见过的题材。

从技术实现角度来看,UnityVideo基于扩散变换器架构构建,使用了10亿个参数的大型模型。训练分为两个阶段:第一阶段使用50万个以人体为主的视频片段训练1.6万步,第二阶段扩展到130万个多样化视频片段训练4万步。整个训练过程采用了批量大小为32的设置,学习率为5×10^-5。在推理阶段,使用50步DDIM采样,CFG比例设置为7.5。

研究团队还进行了详细的消融实验,验证了各个组件的重要性。实验结果显示,多模态联合训练相比单模态训练能够在所有指标上带来显著提升。特别是在图像质量和整体一致性方面,提升幅度达到了4分以上。多任务训练同样展现出了明显优势,相比单任务训练在时间一致性和运动平滑度方面都有所改善。

架构设计方面的实验证实了上下文学习器和模态自适应开关器的有效性。当两个组件都启用时,模型在所有评估指标上都达到了最佳表现,证明了这种设计的合理性和必要性。

在与现有方法的比较中,UnityVideo在多个维度上都展现出了竞争优势。与商业模型Kling1.6相比,它在动态程度和整体一致性方面表现更佳。与开源模型如OpenSora、Hunyuan-13B等相比,它在美学质量和视频质量方面都有明显优势。在可控生成任务中,相比VACE和Full-DiT等专门方法,UnityVideo在背景一致性和动态程度上都表现出色。

用户研究进一步证实了UnityVideo的优势。在包含70个完整回答的评估中,UnityVideo在物理质量、语义质量和整体偏好等人工评估指标上都获得了最高分,同时在自动评估指标上也表现最佳。这表明该方法不仅在技术指标上领先,在实际用户体验上也更受欢迎。

值得特别关注的是UnityVideo在物理世界理解方面的表现。研究团队设计了多个涉及光学原理的测试场景,比如通过玻璃杯观察液体时的光线折射效果。UnityVideo能够准确模拟这些物理现象,生成的视频中光线折射、液体流动等细节都符合物理规律,而其他模型往往在这些细节上出现错误。

这种对物理世界的深度理解源于多模态联合训练的优势。深度信息帮助AI理解空间关系,光流信息让它掌握运动规律,分割信息教会它区分不同物体,姿态信息让它理解人体结构。当这些信息融合在一起时,AI就像拥有了全方位的"感官",能够更准确地理解和模拟真实世界。

训练效率方面,统一训练相比分别训练各个模型具有明显优势。从训练曲线可以看出,多模态联合训练能够更快收敛到更低的损失值,这意味着相同的计算资源能够获得更好的模型性能。这种效率提升对于大规模模型训练具有重要意义。

模型的可扩展性也得到了验证。当训练数据从三种模态扩展到五种模态时,UnityVideo在所有评估指标上都展现出持续改善,没有出现性能饱和或下降的现象。这表明该框架具有良好的扩展潜力,未来可以继续整合更多类型的视觉信息。

在实际应用方面,UnityVideo展现出了丰富的可能性。它可以用于电影特效制作,生成高质量的背景视频或特殊效果。在教育领域,它能够创建生动的教学视频,帮助学生理解复杂概念。在虚拟现实和游戏开发中,它可以快速生成逼真的环境和角色动画。对于内容创作者来说,它提供了一个强大的视频生成工具,大大降低了视频制作的门槛。

当然,这项技术也面临一些局限性。当前的视频自编码器偶尔会引入重建伪影,影响最终视频质量。这个问题可能需要通过改进自编码器架构或进行专门的微调来解决。此外,随着模态数量的增加,计算复杂度也会相应提升,这对硬件资源提出了更高要求。

另一个需要注意的问题是模态混淆。当处理大量不同类型的信息时,模型偶尔可能会产生错误的输出,比如在要求生成分割掩码时输出人体骨架信息。研究团队通过引入模态特定的输出层在一定程度上缓解了这个问题,但随着模态数量进一步增加,这个挑战可能会变得更加突出。

未来的发展方向包括扩展到更大的模型规模和整合更多视觉模态。研究团队认为,随着计算能力的提升和训练数据的丰富,UnityVideo有潜力发展成为真正理解物理世界的通用视觉模型。这样的模型不仅能够生成逼真的视频内容,还能够进行复杂的场景理解和预测,为人工智能在现实世界的应用奠定重要基础。

从技术创新角度来看,UnityVideo的成功证明了多模态联合训练的巨大潜力。这种方法打破了传统AI模型各自为政的局面,通过统一的框架实现了真正的协同发展。这一思路不仅适用于视频生成领域,也为其他AI应用提供了有价值的参考。

说到底,UnityVideo就像是AI视频领域的一场革命。它证明了"术业有专攻"的传统思维在AI时代需要更新换代。当我们让AI同时掌握多种技能时,这些技能之间产生的化学反应远比简单的相加更加强大。这不仅仅是技术上的突破,更代表了我们对AI能力边界认知的重大转变。对于普通人来说,这意味着未来我们可能拥有更智能、更便捷的视频创作工具,让每个人都能轻松制作出专业级的视频内容。而对于整个AI行业来说,UnityVideo开创的统一训练范式可能会激发更多跨领域的技术创新,推动人工智能向着更加通用、更加智能的方向发展。

Q&A

Q1:UnityVideo与传统的AI视频生成模型有什么不同?

A:传统AI视频模型就像专业厨师,每个只会做一道菜,比如有的只能根据文字生成视频,有的只能识别视频中的物体。而UnityVideo是个"全能大厨",它能同时掌握视频生成、物体识别、深度估计、动作捕捉等多种技能。更重要的是,这些技能在训练过程中相互促进,让AI对真实世界的理解更加深入,生成的视频也更符合物理规律。

Q2:普通人可以用UnityVideo来做什么?

A:UnityVideo为普通用户提供了强大的视频创作可能性。你可以用它根据文字描述生成高质量视频,也可以通过提供深度图、人体姿态等条件来精确控制视频效果。比如拍摄教学视频时,它能帮你生成特定动作的演示画面;制作短视频时,它能根据你的创意快速生成各种场景。最关键的是,它生成的视频在物理真实性方面表现出色,光线折射、物体运动等细节都很逼真。

Q3:UnityVideo是如何实现多技能协同训练的?

A:UnityVideo的核心在于三个巧妙设计:动态噪声调度器像智能教练,会根据学习进度灵活调整训练重点;模态自适应开关器给AI配备了多副"专业眼镜",每副专门处理特定信息类型;上下文学习器让AI理解不同信息的含义。训练时采用渐进式策略,先学简单的人体相关技能,再扩展到复杂场景,避免了"消化不良"。这种设计让AI的各项技能在学习过程中相互增强而不是相互干扰。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

兰姐说故事
2026-01-03 17:40:03
美国扣押俄罗斯油轮

美国扣押俄罗斯油轮

新华社
2026-01-07 22:25:03
冷空气马上到,广东最低-4℃!寒潮帽子这样戴,护好脑血管

冷空气马上到,广东最低-4℃!寒潮帽子这样戴,护好脑血管

城事特搜
2026-01-07 19:25:53
徐静蕾素颜买菜像大妈,黄立行全白头,16年不婚活成赢家

徐静蕾素颜买菜像大妈,黄立行全白头,16年不婚活成赢家

阿废冷眼观察所
2026-01-07 09:31:49
项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

读鬼笔记
2026-01-06 19:42:20
剪短头发并染回黑色,吕焯毅:进入国家队,精神面貌很重要

剪短头发并染回黑色,吕焯毅:进入国家队,精神面貌很重要

懂球帝
2026-01-07 12:56:05
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

小玡说故事
2026-01-06 10:02:21
闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

小徐讲八卦
2026-01-06 08:32:20
美以打击伊朗“铁拳行动”进入倒计时,哈梅内衣欲逃往莫斯科

美以打击伊朗“铁拳行动”进入倒计时,哈梅内衣欲逃往莫斯科

史政先锋
2026-01-06 22:31:31
广东5分险胜深圳引热议!徐杰关键抛投杀死比赛引媒体人狂赞

广东5分险胜深圳引热议!徐杰关键抛投杀死比赛引媒体人狂赞

狼叔评论
2026-01-07 22:30:11
为什么红军到了陕北,就安全了?原因很现实,6个原因

为什么红军到了陕北,就安全了?原因很现实,6个原因

沈言论
2026-01-01 15:40:03
大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所,国台办回应

大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所,国台办回应

界面新闻
2026-01-07 10:59:20
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
又是全球销冠!特斯拉Model Y:他们都不看好你,可你偏偏最争气

又是全球销冠!特斯拉Model Y:他们都不看好你,可你偏偏最争气

邻章
2026-01-05 10:32:05
新年第一瓜,老王的小娇妻留不住了!

新年第一瓜,老王的小娇妻留不住了!

仕道
2026-01-07 10:29:10
3厘米厚的保命门竟敞开!马杜罗最绝望的瞬间,不是美军兵临城下

3厘米厚的保命门竟敞开!马杜罗最绝望的瞬间,不是美军兵临城下

达文西看世界
2026-01-07 16:49:37
文件下发已逾半月,多地观望小贷公司12%“降息”指引,执行节奏将成关键

文件下发已逾半月,多地观望小贷公司12%“降息”指引,执行节奏将成关键

财联社
2026-01-07 21:26:04
风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

消失的电波
2026-01-06 14:11:46
河北被看见了,希望河北不仅仅是被看见

河北被看见了,希望河北不仅仅是被看见

林中木白
2026-01-06 15:16:30
2026-01-08 00:15:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6804文章数 546关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

家居
亲子
教育
旅游
公开课

家居要闻

宁静不单调 恰到好处的美

亲子要闻

用白醋试真假奶粉,靠谱吗?

教育要闻

中等生的“勤奋”,为何毫无回报

旅游要闻

云南迪庆梅里雪山,日照金山最佳观看时间5个月:错过就等一年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版