网易首页 > 网易号 > 正文 申请入驻

会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂

0
分享至

想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。

这不再是科幻电影的场景。8 月底,字节跳动数字人团队推出了 OmniHuman-1.5,提出了一种全新的虚拟人生成框架,让虚拟人真正拥有了「思考」和 「表达」的能力。

数月前 OmniHuman-1 上线时,曾引发国内外热潮。相比前作,1.5 版本有了更多突破,不仅可以根据文字指令让虚拟人在对口型之余做出指定动作、表情,还支持在多人场景中控制发言者以外的角色做出具体动作。据悉,新版本很快也将上线即梦 AI。

  • 论文链接: https://arxiv.org/abs/2508.19209
  • 项目主页: https://omnihuman-lab.github.io/v1_5/

一个「会思考」的虚拟人是什么样?

传统虚拟人总感觉差了点「灵魂」,动作机械、重复,而 OmniHuman-1.5 首次将诺贝尔奖得主丹尼尔・卡尼曼的「双系统理论」引入 AI,通过一个由多模态大语言模型(MLLM)驱动的「思考大脑」,让虚拟人学会了深思熟虑。

在深入技术细节之前,先用最直观的方式,感受一下这个框架创造出的虚拟人,究竟有何不同:

超越简单的模仿,模型展现了逻辑推理能力。它能准确理解指令,按顺序拿出红蓝药丸,执行复杂的动作意图。

虚拟人精准地根据语音内容规划动作,实现了「先画眼线,再介绍眼影盘」这样的逻辑序列,展现了对内容的理解。

挑战长视频与多人互动。模型不仅能生成稳定的长时间双人对唱,还能驾驭丰富的运镜效果,同时角色的动作、表情和互动极为多样,告别了单调重复。

虚拟人学会了「倾听」。它可以在对话和倾听状态间自如切换,说话时的情绪与内容匹配。

除了高动态场景,还是需要细腻情感表达的独白,模型都能拿捏,展现出了表演张力。

双系统框架为虚拟人装上「大脑」

近年来,视频虚拟人技术发展迅猛,从最初的口型合成,进化到了半身乃至全身的动画生成。大家的目标也越来越宏大:创造一个与真人无异,既能理性行动又能真实表达情感的「数字生命」。

然而,尽管现有方法(尤其是基于 Diffusion Transformer 的模型)能够生成与音频同步的流畅视频,但它们更像一个出色的「反应机器」。仔细观察你会发现,这些模型捕捉到的仅仅是音频信号与身体动作之间的浅层、直接关联。结果就是,虚拟人能精准地对上口型,做一些简单的、跟随节奏的摆动,但一旦涉及更复杂的、需要理解对话内容的交互,就立刻「露馅」了。它们的行为缺乏长期规划和逻辑一致性,离真正的「以假乱真」还有很长的路要走。

为什么会这样?研究者们从认知科学中找到了答案。人类的行为被认为由两个系统主导:

  • 系统 1(System 1): 快速、无意识、自动化的反应系统。对于虚拟人而言,这就像是驱动嘴部肌肉发出声音,或下意识的身体摇晃。这与当前模型的工作模式非常相似。

  • 系统 2(System 2): 缓慢、有意识、需要努力的分析系统。这对应着根据对话内容,组织一个有意义且契合语境的表情或手势。这是当前模型普遍缺乏的能力。

显然,要让虚拟人「活」起来,就必须为它装上「系统 2」这个深思熟虑的大脑。因此,本文的核心思路应运而生:利用多模态大语言模型(MLLM)强大的推理能力来显式地模拟「系统 2」的决策过程,并将其与模拟「系统 1」的反应式生成模块相结合。

为了实现这一构想,研究者们设计了一个精巧的「双系统模拟框架」。它主要由两部分构成:一个负责规划的「系统 2」大脑,和一个负责渲染的「系统 1」身体。

图注: 框架流程图。左侧为总体流程,展示了「系统 2」如何利用 MLLM 智能体对所有输入(音、图、文)进行推理,生成一个宏观的「行为规划表」(Schedule)。这个规划表随后指导「系统 1」的 MMDiT 网络,后者在其专用的文本、音频和视频分支中融合信息,最终合成视频。右侧是关键模块的细节图。

1. 系统 2:MLLM 智能体进行深思熟虑的规划

这部分是整个框架的「大脑」和「指挥中心」。研究者设计了一个由两个 MLLM 组成的智能体(Agent)推理流程:

  • 分析器(Analyzer): 第一个 MLLM 负责「情景分析」。它接收角色的参考图、音频、以及用户可选的文本提示,然后像一个侦探一样,分析出角色的性格、情绪、意图以及周围环境,并输出结构化的分析结果

  • 规划器(Planner): 第二个 MLLM 接收「分析器」的结论,并基于此制定一个详细的「行动计划」。这个计划被构造成一个镜头序列,为视频的每一小段都定义了角色的表情和动作。

通过这种「分析 - 规划」的协作,模型得以生成一个全局一致、逻辑连贯的行动计划,为虚拟人的行为提供了「顶层设计」。

2. 系统 1:多模态融合网络进行反应式渲染

有了「大脑」的规划,还需要一个强大的「身体」来执行。这部分由一个特殊设计的多模态扩散模型(MMDiT)承担,它负责将「系统 2」的高层文本规划与「系统 1」的底层音频信号(用于口型同步等)完美融合,生成最终视频。

然而,将文本、音频、参考图这几种完全不同的信息(模态)塞进一个模型里,极易引发「模态冲突」,导致模型顾此失彼。为此,研究者提出了两大核心技术创新来解决这个难题。

如何让「大脑」与「身体」高效协作?

1. 重新思考身份维持:「伪最终帧」的设计

传统方法为了让虚拟人保持固定的身份(长相),通常会在模型中输入一张参考图。但研究者敏锐地发现,这会带来一个严重的问题:模型会错误地学习到「生成的视频里必须出现和参考图一模一样的画面」,这极大地限制了角色的动态范围,导致动作僵硬。

图注: 该图解释了为什么需要 “伪最终帧”。右侧揭示了核心困境:当参考图与目标片段内容高度相关时(绿色区域),会限制动作多样性;而当二者不相关时(红色区域),又会导致生成内容与参考图出现预期外的偏差。

为此,他们提出了一个名为伪最终帧(Pseudo Last Frame)的解决方案。

  • 训练时: 完全抛弃参考图。模型只学习根据视频的「第一帧」和「最后一帧」 来进行预测。

  • 推理时: 将用户提供的参考图巧妙地放在「最后一帧」的位置上,并告诉模型这是一个「伪」的最终帧。

这个「伪最终帧」就像一根「挂在驴子眼前的胡萝卜」:它引导着模型朝参考图的身份特征生成,但从不强迫模型必须一模一样地复现它。实验证明,这种方法完美地在「身份一致性」和「动作多样性」之间取得了平衡。

2. 解决模态冲突:「对称融合」与「两阶段预热」

为了让文本(系统 2 规划)和音频(系统 1 信号)更好地协作,研究者为音频信号也设计了一个独立的、与视频和文本分支结构对称的「音频分支」。这三个分支在模型的每一层都通过共享的自注意力机制进行深度融合,确保信息充分对齐。

但新的问题来了:音频信号在时间上非常密集,模型在联合训练时会偷懒,倾向于只依赖音频来做所有预测,从而忽略了文本提供的高层语义指导。这就是「模态冲突」。

研究者的解决方案是「两阶段预热(Two-stage Warm-up)」训练策略:

  • 第一阶段: 先在一个「小模型」上强制让三个分支一起工作。这逼迫模型学会 「分工」:文本和视频分支负责宏观语义,音频分支则专注于自己的核心任务(如口型、语音风格)。

  • 第二阶段: 将预训练好的主模型(文本和视频分支)与第一阶段「预热」过的音频分支组合起来,再进行微调。

通过这种方式,每个分支都带着自己最擅长的「先验知识」进入最终的训练,从而有效避免了模态冲突,让「大脑」的指令和「身体」的反应都能得到忠实执行。

效果对比

除了直观的效果展示,硬核的量化数据和直接的SOTA对比更能说明问题。

1.Agent 推理 + MMDiT 架构的有效性验证

图注: 消融实验(Ablation Study)的结果清晰地证明了框架中两大核心设计的有效性。从数据中可以看到,无论是负责 “思考” 的 Agent 推理模块,还是负责 “执行” 的 MMDiT 架构,都对最终的生成质量,尤其是在逻辑性和语义连贯性上,做出了不可或缺的贡献。

2. 全面超越 SOTA 模型

图注: 在与当前最先进(SOTA)的多个公开模型进行的全方位对比中,本方法在所有关键指标上都取得了显著优势或极具竞争力的表现。

图注: 这张可视化对比图直观地展示了「思考能力」的价值。相比于没有推理能力加持、只会做简单说话和重复性动作的模型方案,OmniHuman-1.5 显示了更高的动态范围和更有逻辑性的动作效果,实现了从「动嘴」到 「表达」的飞跃。

总结与展望

Omnihuman-1.5 为虚拟人领域提供了一个全新的、极具启发性的视角。它通过借鉴认知科学的「双系统理论」,巧妙地利用 MLLM 作为「系统 2」的推理核心,并设计了一套创新的多模态融合架构来解决关键的技术瓶颈,最终实现了虚拟人行为从「反应式」到「思考式」的飞跃。

目前即梦 AI 视频生成中对口型能力的大师模式是基于 Omnihuaman-1.0,依靠一张图 + 一段音频就能生成流畅自然的虚拟人视频。很快 OmniHuman-1.5 也将上线即梦 AI。相比 1.0 版本,Omnihuaman-1.5 不仅可以生成更加真实、灵动的虚拟人,也为人机交互、影视制作、虚拟社交等领域带来新的可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《生化危机9:安魂曲》格蕾丝雕像 黑丝白衣诱惑

《生化危机9:安魂曲》格蕾丝雕像 黑丝白衣诱惑

3DM游戏
2026-04-14 07:08:29
扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

夜深爱杂谈
2026-04-08 17:04:46
韩国为啥给人吃不起肉的感觉?网友:韩国人均吃肉比中国多

韩国为啥给人吃不起肉的感觉?网友:韩国人均吃肉比中国多

带你感受人间冷暖
2026-04-12 00:15:10
波神谈库里把话挑明,梅尔顿坚信一点!勇士想胜快船,3点成关键

波神谈库里把话挑明,梅尔顿坚信一点!勇士想胜快船,3点成关键

鱼崖大话篮球
2026-04-14 09:14:03
几乎都是假货!利润高达2400%,可为何消费者还争相购买?

几乎都是假货!利润高达2400%,可为何消费者还争相购买?

小熊侃史
2026-04-09 09:36:50
终于来了!苹果发布 iOS 26.5 新系统更新

终于来了!苹果发布 iOS 26.5 新系统更新

XCiOS俱乐部
2026-04-14 04:32:27
4月14日|今天最新油价,油价下跌420元/吨,降幅增加15元/吨!

4月14日|今天最新油价,油价下跌420元/吨,降幅增加15元/吨!

猪友巴巴
2026-04-14 09:40:49
中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

混沌录
2026-04-03 17:28:23
不会打仗,战功一般,十大元帅中,三位曾被下属质疑不够格

不会打仗,战功一般,十大元帅中,三位曾被下属质疑不够格

顾秋韵
2026-04-14 02:12:01
今年最惨淡的行业是哪个?理发店店主纳闷:大家剪头不用去网上吧

今年最惨淡的行业是哪个?理发店店主纳闷:大家剪头不用去网上吧

白宸侃片
2026-04-12 17:33:25
特朗普宣布封锁后,伊朗立即打电话求谈判

特朗普宣布封锁后,伊朗立即打电话求谈判

桂系007
2026-04-14 06:08:03
中国股市:如果手中有20万,建议死啃这两条线,几乎吃掉所有利润

中国股市:如果手中有20万,建议死啃这两条线,几乎吃掉所有利润

股经纵横谈
2026-04-08 21:49:55
人挪活!米兰弃将梅开二度拿下曼联,近6场4球2助

人挪活!米兰弃将梅开二度拿下曼联,近6场4球2助

大羽体坛
2026-04-14 10:46:35
印度连056都整不明白?1400吨的小舰,竟搞出了“万国造”

印度连056都整不明白?1400吨的小舰,竟搞出了“万国造”

说历史的老牢
2026-04-13 09:04:09
C罗未进前十!外媒评足坛历史地位,梅西强势登顶,齐达内上榜

C罗未进前十!外媒评足坛历史地位,梅西强势登顶,齐达内上榜

祥谈体育
2026-04-13 20:25:54
41岁男子威胁女邻居发生关系,事后女子为自证清白,让他再来一次

41岁男子威胁女邻居发生关系,事后女子为自证清白,让他再来一次

丫头舫
2026-04-10 21:54:02
这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

潮鹿逐梦
2026-03-02 17:19:02
退休新规:1980年后生的人面临双重压力。

退休新规:1980年后生的人面临双重压力。

岁月有情1314
2026-04-08 08:02:19
通讯|便利跨境往来 助力人文交流——中老铁路国际旅客列车开行三载铺就民心相通路

通讯|便利跨境往来 助力人文交流——中老铁路国际旅客列车开行三载铺就民心相通路

新华社
2026-04-13 14:34:07
撕破脸了!巴西前模特警告特朗普:你们两口子什么样我最清楚

撕破脸了!巴西前模特警告特朗普:你们两口子什么样我最清楚

墨羽怪谈
2026-04-14 09:37:20
2026-04-14 11:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12755文章数 142627关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

艺术
家居
健康
教育
公开课

艺术要闻

这位美女画家的夏天竟如此梦幻

家居要闻

复古风格 自然简约

干细胞抗衰4大误区,90%的人都中招

教育要闻

做有思考、有思路、有思想的校长

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版