最近,视频生成技术在运动真实感方面取得了令人印象深刻的进展,但它们往往忽视了由角色驱动的故事讲述,这是自动化电影和动画生成中的一项关键任务。因此,Meta提出了“会说话的角色”(Talking Characters),MoCh这是首个能够生成会说话角色的系统,旨在直接根据语音和文本生成会说话的角色动画。与“会说话的头”(Talking Head)不同,Talking Characters的目标是生成一个或多个角色的完整肖像,而不仅限于面部区域。
MoCha设计了带有角色标签的智能提示模板,使得多个角色能够进行轮流对话,并且能够理解对话的上下文。这不仅让AI生成的角色在对话中更加自然、富有情感,而且还能保证对话的连贯性,就像电影中的角色一样有情境意识。MoCha为AI生成的电影叙事树立了新的标杆,在动画的真实感、表现力、可控性和适应性方面表现优异,开创了一个更高水平的生成角色动画技术。(链接在文章底部)
01 技术原理
MoCha是一种端到端的扩散变换器(Diffusion Transformer)模型,通过联合条件化语音和文本生成视频帧,无需依赖任何辅助信号。语音和文本输入都被投影为标记表示,并通过交叉注意力与视频标记进行对齐。
MoCha使用窗口交叉注意力机制并行生成所有视频帧,在这个机制中,每个视频标记都会关注一小段语音标记,以提高对齐精度和口型同步质量。
MoCha设计了一个专门的提示模板:首先指定片段的数量,然后引入角色及其描述和相关标签。每个片段接下来仅通过角色标签进行描述,从而简化了提示,同时保持了清晰度。MoCha通过视频标记之间的自注意力机制,确保角色与环境的一致性。语音的条件信号隐式地引导模型在片段之间进行过渡。
MoCha不仅生成了与输入语音紧密对齐的口型动作,提升了发音的清晰度和自然度,还展现了富有表现力的面部动画和逼真的复杂动作,能够准确地跟随文本提示。相比之下,SadTalker和AniPortrait的头部动作非常有限,口型同步也很差。Hallo3虽然基本上跟随了口型同步,但却出现了发音不准确、头部动作不稳定以及明显的视觉伪影等问题。
02 演示效果
情绪控制:(看起来不是特别强烈)
动作控制:
多角色(画面多角色,但一角色说话和动作,非交互):
回合制多角色(多角色交互对话,但从演示看没有看到同镜出现的多角色):
肖像人物(单人演讲、访谈和带货):
https://arxiv.org/pdf/2503.23307欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.