Meta发布MoCha模型，AI角色从“呆头鹅”秒变“老戏骨”|演员|动作|meta|mocha

分享至

决定一部电影好坏的最主要因素是什么？

相信每个人都有自己不同的答案，或许是剧本，或许是导演，也或许是演员…

但如果说评价一名演员的主要因素是什么，我相信所有人都是一个答案，那就是演技。

AI视频的发展，从最初的角色换脸，到数字人生成，再到现在的多镜头角色一致性生成，虽然进展飞速，但作品其实还很难称之为电影，无他，AI数字人的演技还不过关。

Meta本月发布的MoCha模型，恰恰就在“演技”上对AI数字人进行了补强，它让AI角色第一次有了“戏感”，大有“呆头鹅”秒变“老戏骨”的感觉

我们可以从几个Demo感受一下。

多镜头下的人物转换

精准的情绪控制

MoCha是Meta在AI视频领域最新的研究成果，只需要输入文本和声音，就能生成电影级别的视频。

MoCha的出现，标志着AI视频正从“技术演示”向“叙事工具”转型，未来，每个人都可能成为自己故事的导演，用AI为自己的创意插上翱翔的翅膀。

目前，Meta 团队已经放出了该项研究的paper，至顶AI实验室做一个简单的分析解读，看看MoCha如何重新定义AI与创意产业的边界。

研究背景：Meta GenAI的叙事野心

MoCha由Meta 的GenAI团队与滑铁卢大学联合完成，论文于2025年4月提交至arXiv平台（编号2503.23307v1）。

Meta公司一直在生成式AI领域保持领先地位，从文本生成的LLaMA系列到图像生成的Emu，再到视频生成技术，都展现了其在多模态AI方面的雄厚实力。MoCha项目可以看作是Meta在视频生成领域的又一次重要突破，特别是在角色动画生成这一细分领域。

该研究的核心目标是解决现有视频生成模型在角色表现力方面的局限性。

尽管目前的视频基础模型如SoRA、Pika等已经能够生成视觉上令人印象深刻的内容，但在生成能够自然说话的角色方面仍然存在明显不足。而专注于语音生成的模型如Loopy、Hallo3等，又局限于面部区域，无法实现全身动作和多角色互动。MoCha正是为了弥补这一技术空白而诞生的。

核心成果：让数字角色学会“演技”

端到端训练无需辅助条件

MoCha模型最大的突破在于它首次实现了从语音和文本直接生成全身角色动画的能力，而且不需要任何如参考图像，关键帧等辅助条件。

传统的说话角色生成方法通常需要依赖外部控制信号，比如参考图像。这就像是给演员提供了详细的动作指导和表情参考，限制了其自由发挥的空间。而MoCha则完全不同，它直接从文本和语音学习生成视频，无需任何辅助条件。

这种设计理念可以类比为：传统方法是在教一个演员按照详细的分镜头脚本表演，而MoCha则是培养了一个能够理解剧本和台词，自然地表演出角色的真正演员。这不仅简化了模型架构，还显著提高了动作的多样性和泛化能力。

举个例子，如果你想生成一个医生在解释医疗知识的视频，传统方法可能需要你提供医生的参考图像、详细的面部表情指导等。而使用MoCha，你只需提供文字描述"一位穿着白大褂的医生正在解释心脏病的症状"和语音内容，它就能生成一个自然表现的医生角色，包括专业的手势和面部表情。

语音-视频窗口注意力机制

为了解决语音与视频同步的问题，GenAI团队提出了一种创新的"语音-视频窗口注意力"机制。这一机制确保了角色的嘴唇动作与语音内容精确同步，大大提高了生成视频的真实感。

这个机制可以类比为人类观看对话时的注意力分配：当我们听一个人说话时，我们会特别关注说话者当前正在发出的音节对应的嘴唇动作，而不是随机关注过去或未来的嘴型。

MoCha模型通过这种机制，让每个视频帧只关注与其时间上相关的语音片段，从而实现了精准的口型同步。

比如当角色说"你好"这个词时，传统模型可能会出现嘴型与音节不匹配的情况，而MoCha则能确保"你"和"好"两个音节分别对应正确的嘴型变化，使观众感受不到任何违和感。

联合语音-文本训练策略

大规模的带语音标注的视频数据集相对稀缺，这一直是限制语音驱动视频生成质量的瓶颈。

MoCha团队创新性地提出了一种联合训练框架，同时利用带语音标注和仅有文本标注的视频数据。

这种策略就像是让模型同时向两类"老师"学习：一类老师教它如何根据语音生成匹配的嘴型和表情，另一类老师则教它如何理解文本描述并生成相应的场景和动作。通过这种双轨学习，MoCha能够在保证口型同步的同时，生成更加多样化和自然的角色动作。

举个生活中的例子，这就像是一个演员既跟配音导师学习如何准确对口型，又跟表演导师学习如何自然地表达情感和动作，最终成为一个全面发展的优秀演员。

多角色对话生成

MoCha最令人惊叹的突破之一是它首次实现了多角色之间的连贯对话生成。这意味着AI现在能够创建包含多个角色的对话场景，每个角色都有自己的外观、表情和动作特征，并能进行轮流对话。

想象一个电影场景：一对夫妻在厨房交谈，妻子一边准备晚餐一边说话，丈夫则靠在厨房灶台上回应。传统的AI视频生成技术难以处理这种复杂场景，但MoCha通过创新的角色标签机制和自注意力机制，成功实现了这一目标。

研究团队设计了一种结构化提示模板，使用固定关键词和角色标签机制，大大简化了多角色场景的描述。例如，不需要每次提到角色时都重复其详细外观描述，而是可以使用简单的标签，如"人物1"、"人物2"来引用已定义的角色。这就像是电影剧本中的角色命名，一旦定义了角色，后续只需使用角色名即可引用，大大提高了提示的清晰度和简洁性。

这一突破为AI生成叙事性内容开辟了新的可能性。例如，教育工作者可以创建包含老师和学生互动的教学视频，营销人员可以生成产品演示对话，创意工作者甚至可以制作简单的戏剧场景。

方法评析：天才设计下的隐忧

技术架构的创新与优势

MoCha模型的核心架构基于扩散变换器（Diffusion Transformer，DiT），这是一种在视频生成领域表现出色的架构。

与传统的基于U-Net的方法不同，MoCha采用了更适合处理时序数据的变换器结构，通过自注意力和交叉注意力机制有效捕捉视频中的时空关系。

这种架构选择就像是从传统的"画家"模型，从一笔一笔地绘制画面转向了"导演"模型，同时需要考虑整个场景的各个元素及其关系。这使得MoCha能够生成更加连贯、自然的视频内容，特别是在处理复杂的人物动作和多角色互动时。

举个例子来说明这种架构的优势：想象一个导演在指导一群演员表演一个场景。传统的U-Net方法就像是导演只能一次指导一个演员，而且每个演员只能看到自己前后的动作，无法感知整个场景中其他演员的表现。而DiT架构则允许所有"演员"同时接收指导，并且能够相互感知，从而创造出更加协调、自然的整体表演效果。

语音-视频窗口注意力机制的深入分析

MoCha模型中最巧妙的设计之一是语音-视频窗口注意力机制。

这一机制解决了视频生成中的一个关键挑战：如何确保生成的嘴唇动作与语音内容精确同步。

在传统的视频生成模型中，存在两个关键问题：一是时间压缩问题，即视频通常会被压缩到较低的时间分辨率，而音频保持原始分辨率，导致同步困难；二是并行生成问题，即模型同时生成所有视频帧，可能导致某一帧错误地关联到不相关时间点的语音。

MoCha的窗口注意力机制巧妙地解决了这些问题。它限制每个视频帧只能关注一个有限的音频窗口，这个窗口包括该帧对应的音频片段及其前后的少量内容。这就像是给演员设定了精确的对口型规则：你只需要关注当前和紧邻的几个音节，而不是整段台词。

这种设计的优势可以通过一个简单的例子来理解：当一个人说"今天天气真好"这句话时，发"今"这个音时的嘴型只需要关注"今"这个音节及其前后的少量内容，而不需要考虑整句话。

MoCha的窗口注意力机制正是模拟了这种自然的注意力分配方式。

实验结果显示，这一机制显著提高了口型同步的准确性。在没有这一机制的情况下，同步相关性指标Sync-C从6.037下降到5.103，同步距离指标Sync-D从8.103上升到8.851，证明了该机制的有效性。

多阶段训练策略的评估

MoCha采用了一种多阶段训练策略，这一策略的设计基于一个重要观察：语音对人类视频生成的影响随着从低级到高级动作的变化而减弱。具体来说，语音对嘴唇动作和面部表情的影响最强，对手势的影响次之，对全身动作的影响最弱。

基于这一观察，研究团队设计了一个从简单到复杂的训练框架：

首先在仅有文本标注的视频数据上预训练模型

然后从特写镜头（语音-视频相关性最强）开始训练

逐步引入更复杂的任务（中特写、中景等），同时减少前一阶段数据的比例

这种策略就像是教一个演员表演的过程：先学习基本的对口型技巧，然后是面部表情，接着是手势配合，最后是全身表演。这种循序渐进的方法使模型能够更好地学习不同层次的动作表现。

联合训练策略的价值

MoCha的另一个关键创新是联合训练策略，即同时使用带语音标注和仅有文本标注的视频数据进行训练。具体来说，模型80%的时间在语音-文本-视频数据上训练，20%的时间在文本-视频数据上训练。

这种策略解决了带语音标注的视频数据集规模有限的问题。通过引入大量仅有文本标注的视频数据，模型能够学习到更加多样化的场景和动作，从而提高泛化能力。

实验结果表明，移除这一联合训练策略会导致同步相关性指标Sync-C从6.037下降到5.659，同步距离指标Sync-D从8.103上升到8.435，证明了该策略的有效性。

局限性分析

尽管MoCha在多个方面取得了突破，但它仍然存在一些局限性。

MoCha基于30B参数的DiT模型，需要大量计算资源进行训练和推理，这限制了其在资源受限环境中的应用。

当前模型设计为生成128帧、约5.3秒的视频片段，对于长内容生成仍有挑战。

尽管采用了联合训练策略，但高质量的语音-视频数据仍然是影响模型表现的关键因素。

当前研究主要关注真实人物的生成，对于卡通、动画等风格的支持可能需要额外的适配。

结论：推开电影工业化的一扇窗

MoCha在多个评估指标上都取得了显著的优势。

人类评估结果显示，MoCha在口型同步质量、面部表情自然度、动作自然度、文本对齐度和视觉质量五个维度上都大幅领先于现有方法。

特别值得注意的是，MoCha在动作自然度方面的得分达到了3.82（满分4分），比第二名高出1.69分，这表明其生成的角色动作已经接近真实人物或电影角色的水平。

这种高度的自然性对于用户体验至关重要，因为不自然的动作会打破沉浸感，降低内容的可信度。

自动评估指标也证实了MoCha的优势。在口型同步相关性指标Sync-C上，MoCha得分为6.037，比第二名高出1.17；在口型同步距离指标Sync-D上，MoCha得分为8.103，比第二名低0.86（越低越好）。

这些客观指标进一步验证了MoCha在口型同步方面的卓越表现。

MoCha模型的出现标志着AI生成内容领域的一个重要里程碑，它不仅推动了技术边界，更为视频内容创作开辟了新的可能性。

这一突破性进展将对多个行业产生深远影响：

电影与动画制作：MoCha为电影预制作阶段提供了强大工具，可以快速生成分镜头和角色测试，大幅降低制作成本和时间。想象一下，导演可以在正式拍摄前，通过简单的文本描述和语音，生成场景预览，测试不同的拍摄角度和对话效果。

游戏开发：游戏中的NPC（非玩家角色）对话场景可以更加自然流畅，开发者只需提供对话文本和语音，就能生成符合角色设定的动画效果。例如，一个开放世界游戏中的村民可以有更加自然的对话表现，而不是机械重复的动作循环。

教育培训：定制化的教学视频制作变得更加简单高效。教育工作者可以创建虚拟讲师，通过自然的表情和手势传达知识点，增强学习体验。比如，一位虚拟物理老师可以一边讲解牛顿定律，一边用手势演示力的作用，使抽象概念更加直观。

数字人客服：企业可以创建更加自然、富有表现力的数字人客服，提升用户体验。这些数字人不仅能准确回答问题，还能通过适当的面部表情和肢体语言传达情感，使交流更加人性化。

社交媒体内容创作：内容创作者可以更轻松地生成角色视频，丰富创作形式。例如，一个单人创作者可以生成多角色对话的短视频，扩展创作边界。

至顶AI实验室洞见

我们认为MoCha的出现，将AI视频生成从"能用"推向了"好用"的阶段，降低了高质量内容创作的门槛。

在过去，制作一个专业的角色对话视频需要演员、摄影师、导演等专业团队，以及昂贵的设备和场地。而现在，一个普通创作者只需一台电脑，就能生成接近专业水准的角色视频。

这种"创作全民化"将释放巨大的创意潜能，特别是对于资源有限的个人、小团队和新兴市场。

当然，像所有新技术一样，MoCha也带来了一些需要关注的问题。例如，如何确保生成内容的版权归属、如何防止技术被滥用于制作虚假内容等。

我们认为，技术发展与伦理规范需要同步推进，研究机构、企业和监管部门应共同建立健全的使用准则和审核机制。

MoCha代表了AI生成内容的新范式，它不仅是技术的进步，更是创意表达方式的革新。我期待看到这项技术在未来如何演进，以及创作者们将如何利用它创造出令人惊叹的新内容形式。

未来，电影不再是专业团队的专利，每个人都可以通过AI讲述自己的故事,每个人都是自己故事的导演。

论文地址：https://arxiv.org/pdf/2503.23307

项目地址：https://congwei1230.github.io/MoCha/

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.