网易首页 > 网易号 > 正文 申请入驻

清华、字节联手炸场!Sora没解决的难题被终结,这才是我们要的AI视频

0
分享至

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。

清华大学联合字节跳动智能创作实验室搞了个大动作DreamID-Omni,专门用来解决以人为中心的音视频生成可控性问题的统一框架。

这也解决了Sora、Ovi、LTX-2等视频模型非常头疼的多人对话大难题。


即将开源:https://github.com/Guoxu1233/DreamID-Omni

其实你看Sora或其他的知名开源模型,生成的视频确实越来越逼真。但只要一涉及到人,特别是多个人一起说话的场景,问题就来了。

比如你想生成两个人聊天的视频,经常会出现张冠李戴的情况,A的声音配到了B的嘴上,或者两个人的脸糊在一起。

这就很尴尬了,因为目前的模型大多是专机专用,生成视频的只管画面,做动画的只管动嘴,想要把它们统一起来,还得保证人不乱,太难了。

而这次 DreamID-Omni的核心思想是,把参考式生成、视频编辑、还有音频驱动动画这三大任务,全都塞进了一个模型里。以前你需要三个不同的工具才能干完的活,现在这一个框架全包圆了。


DreamID-Omni的基础架构是基于双流扩散 Transformer 做的,简单说就是分了视频和音频两条并行的处理链路。

两条链路之间会通过双向交叉注意力做同步和对齐,保证生成的音视频能完美匹配,不会出现音画不同步的情况。

而这个框架最核心的创新,就是设计了对称条件扩散 Transformer,能把参考图像、人物声音、原视频、驱动音频这些不同类型的控制信号。

全都整合到同一个特征空间里,不用改架构,就能在不同任务之间无缝切换,这一点真的太香了

团队为视频和音频分别构建了专属的条件序列,把人物身份信息和内容结构信息融合在一起。

简单理解,就是把人物的脸和声音这些核心身份特征,跟含噪的视频、音频原始数据拼在一起,让模型能精准提取和保留这些身份信息。

同时把原视频、驱动音频这些结构信息,以加法的方式注入进去,作为内容的基础框架,保证生成的内容在空间和时间上的一致性。

这种设计就像是给模型搭了两个通道,一个专门管保留人物身份,一个专门管控制内容结构,两者互不干扰又能协同工作。

接下来说说我觉得这篇论文最牛的突破,就是解决多人生成时的混淆问题。大家如果试过AI换脸或者让AI生成多人对话,肯定遇到过这种崩溃时刻。

明明给的是A的声音,结果B的嘴在动,或者两张脸长得像双胞胎一样分不清。这就是所谓的身份-音色绑定失效。


研究团队为了治这个毛病,想了一招叫双层次解耦策略。咱们打个比方,信号层面上,他们发明了一种叫Syn-RoPE的技术。

这就好比在开会的时候,给每个人发了一个专属座位牌。不管你怎么移动位置,你的声音和你的脸永远被锁定在这个专属的座位上,别人的信号怎么也窜不过来,彻底杜绝了抢麦的情况。

而在语义层面上,他们搞了个结构化描述。以前咱们写提示词可能比较随意,比如写“两个人在聊天”。现在的AI可不吃这套,它容易晕。

这个新框架强制要求把提示词写得跟剧本似的,谁是主角、谁说了哪句台词、情绪怎么样,标注得清清楚楚。

这样模型就知道,这个专属代号的人,应该说这句词,那个专属代号的人,应该做那个动作。

这一套组合拳下来,多人生成那种乱成一锅粥的情况就再也不会出现了。

当然,要把这么多任务塞到一个模型里训练,也是个技术活。为了解决这个问题,团队设计了一个多任务渐进式训练方案。

简单来说,就是分步走。第一步先练好基本功,学会怎么根据参考生成内容,而且不能是死记硬背的复制粘贴。

第二步再加大难度,让它学会把人和声音分离开来。最后一步,才是把编辑、动画这些高难度的任务加进来。

这种先易后难、循序渐进的培养方式,既保证了模型能听懂人话,又保证了它能干细活。

在和当前最先进的模型对比测试中,DreamID-Omni 的表现可以说是一骑绝尘。在参考式音视频生成任务里,不管是和Wan2.6 这样的商业闭源模型比。

还是和 Qwen-Image 结合 LTX-2、Ovi 的级联管道比,亦或是和 Phantom、VACE 这些视频生成模型比,DreamID-Omni 在各项核心指标上多数都是最优。


尤其是多人物场景的说话人混淆率只有0.08,远低于其他模型,而且是唯一一个能实现人物身份和声音精准绑定的模型。

在视频编辑任务里,对比 VACE、HunyuanCustom 这些 SOTA 模型,DreamID-Omni 在视频相关的指标上全是最优。

还具备其他模型没有的音频生成能力,生成的音频不仅内容准确,还能和人物身份完美匹配,唇形同步度也很高。

除此之外,团队还邀请了 30 名专业的视频创作者做了盲态用户研究,从文本视频对齐、人物身份相似度、视频质量等七个维度给模型打分。


结果 DreamID-Omni 在所有维度都拿到了最高分,尤其是人物身份相似度、文本音频对齐、唇形同步这三个维度,优势特别明显。

专业创作者的评价其实最有说服力,这也证明了 DreamID-Omni 的生成结果在实际应用中具备极高的价值。

想转型AI,不被时代淘汰

CAIE注册人工智能工程师认证

岗位能力 × AI工具 ×转型方向 × 场景落地 = 新AI职业价值

扫码免费领取《AI工程师入门学习指南》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

云上乌托邦
2025-09-04 11:45:33
中国核工业集团,总工程师罗琦,突然从一个极重要位置上被撤下来

中国核工业集团,总工程师罗琦,突然从一个极重要位置上被撤下来

百态人间
2026-02-25 15:36:52
44岁高云翔天津街边摊煎饼,穿着朴素动作生涩,直言找到新工作了

44岁高云翔天津街边摊煎饼,穿着朴素动作生涩,直言找到新工作了

一盅情怀
2026-02-28 17:55:12
万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

Thurman在昆明
2026-03-01 02:27:28
阿娇的瓜又炸了,聊天记录曝光,颠覆想象

阿娇的瓜又炸了,聊天记录曝光,颠覆想象

听风听你
2024-12-25 22:41:20
伊朗称重创美军舰

伊朗称重创美军舰

澎湃新闻
2026-02-28 23:02:34
为什么这次伊朗不升旗了?因为升旗的地方已经被炸了

为什么这次伊朗不升旗了?因为升旗的地方已经被炸了

怪口历史的K先生
2026-02-28 17:12:58
莫耶斯:进入欧战的目标并非不现实;我不认为我是战术天才

莫耶斯:进入欧战的目标并非不现实;我不认为我是战术天才

懂球帝
2026-03-01 04:41:23
上海丨开展气电价格联动调整 3月1日起执行!

上海丨开展气电价格联动调整 3月1日起执行!

新浪财经
2026-02-28 15:06:04
美国以色列偷袭伊朗,意图斩首哈梅内伊!

美国以色列偷袭伊朗,意图斩首哈梅内伊!

胜研集
2026-02-28 15:36:36
当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

老范谈史
2026-02-24 14:51:55
勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

篮球教学论坛
2026-02-28 11:38:21
特朗普和内塔尼亚胡通话

特朗普和内塔尼亚胡通话

界面新闻
2026-03-01 00:29:09
湖人队名宿分享了科比,最后一场打爵士的比赛中砍60分的幕后细节

湖人队名宿分享了科比,最后一场打爵士的比赛中砍60分的幕后细节

好火子
2026-03-01 05:07:51
伊朗足协主席谈美对伊发动军事打击:世界杯的前景不太乐观

伊朗足协主席谈美对伊发动军事打击:世界杯的前景不太乐观

懂球帝
2026-03-01 03:39:05
樊振东落选!世界杯名单公布,王励勤说到做到,温瑞博成最大黑马

樊振东落选!世界杯名单公布,王励勤说到做到,温瑞博成最大黑马

体育就你秀
2026-02-28 12:34:51
上海医院最好的“眼耳鼻喉”科室排名,建议先收藏

上海医院最好的“眼耳鼻喉”科室排名,建议先收藏

华庭讲美食
2026-02-28 19:54:50
美以空袭伊朗搅动全球!中国稳定成锚,香港成资产避险优选

美以空袭伊朗搅动全球!中国稳定成锚,香港成资产避险优选

新浪财经
2026-02-28 17:50:54
一个很奇怪的现象:凡是和睦的家庭,夫妻俩至少有一个是“傻子”

一个很奇怪的现象:凡是和睦的家庭,夫妻俩至少有一个是“傻子”

千秋文化
2026-02-28 19:15:41
“全部门店将关闭,停止运营”!很多人突然收到短信!网友:时代的眼泪

“全部门店将关闭,停止运营”!很多人突然收到短信!网友:时代的眼泪

南方都市报
2026-02-28 17:41:31
2026-03-01 05:20:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
500文章数 7763关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

伊朗媒体公布反击美军军事行动结果

头条要闻

伊朗媒体公布反击美军军事行动结果

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
教育
旅游
亲子
房产

转头就晕的耳石症,能开车上班吗?

教育要闻

劝退:最不建议国内留学生去读的几个专业

旅游要闻

忻州古城×元宵节 | “夯”爆了!看非遗社火解锁忻州古城的超长年味!

亲子要闻

婴儿吃的“洋”辅食,九成靠代工贴牌?涉及上市公司

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

无障碍浏览 进入关怀版