MoCha让AI角色演绎电影式对话！数字人真正“动起来”|动画|动作|口型|mocha

MoCha让AI角色演绎电影式对话！数字人真正“动起来”

2025-04-01 21:43:31　来源: 带你学AI

广东举报

分享至

最近，视频生成技术在运动真实感方面取得了令人印象深刻的进展，但它们往往忽视了由角色驱动的故事讲述，这是自动化电影和动画生成中的一项关键任务。因此，Meta提出了“会说话的角色”（Talking Characters），MoCh这是首个能够生成会说话角色的系统，旨在直接根据语音和文本生成会说话的角色动画。与“会说话的头”（Talking Head）不同，Talking Characters的目标是生成一个或多个角色的完整肖像，而不仅限于面部区域。

MoCha设计了带有角色标签的智能提示模板，使得多个角色能够进行轮流对话，并且能够理解对话的上下文。这不仅让AI生成的角色在对话中更加自然、富有情感，而且还能保证对话的连贯性，就像电影中的角色一样有情境意识。MoCha为AI生成的电影叙事树立了新的标杆，在动画的真实感、表现力、可控性和适应性方面表现优异，开创了一个更高水平的生成角色动画技术。（链接在文章底部）

01 技术原理

MoCha是一种端到端的扩散变换器（Diffusion Transformer）模型，通过联合条件化语音和文本生成视频帧，无需依赖任何辅助信号。语音和文本输入都被投影为标记表示，并通过交叉注意力与视频标记进行对齐。

MoCha使用窗口交叉注意力机制并行生成所有视频帧，在这个机制中，每个视频标记都会关注一小段语音标记，以提高对齐精度和口型同步质量。

MoCha设计了一个专门的提示模板：首先指定片段的数量，然后引入角色及其描述和相关标签。每个片段接下来仅通过角色标签进行描述，从而简化了提示，同时保持了清晰度。MoCha通过视频标记之间的自注意力机制，确保角色与环境的一致性。语音的条件信号隐式地引导模型在片段之间进行过渡。

MoCha不仅生成了与输入语音紧密对齐的口型动作，提升了发音的清晰度和自然度，还展现了富有表现力的面部动画和逼真的复杂动作，能够准确地跟随文本提示。相比之下，SadTalker和AniPortrait的头部动作非常有限，口型同步也很差。Hallo3虽然基本上跟随了口型同步，但却出现了发音不准确、头部动作不稳定以及明显的视觉伪影等问题。

02 演示效果

情绪控制：（看起来不是特别强烈）

动作控制：

多角色（画面多角色，但一角色说话和动作，非交互）：

回合制多角色（多角色交互对话，但从演示看没有看到同镜出现的多角色）：

肖像人物（单人演讲、访谈和带货）：

https://arxiv.org/pdf/2503.23307

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.