太猛了！终于有人来管管 AI 视频的语音和表演了：GAGA AI 实测|口型|音效|gaga

太猛了！终于有人来管管 AI 视频的语音和表演了：GAGA AI 实测

分享至

提前试了一下曹越（Sand.ai）那边新发布的专注于人物对话表演的模型 GAGA-1（gaga.art）.

应该是目前涉及到人物细微表演对话的最强模型了，在表演这部分甚至可以超过 Sora2。

本来就是随便试一下，没想到他这么猛，先来看一个简要介绍和我测试的混剪：

声音和画面一起生成，即使是侧面的唇形同步都非常到位，语音音效都有
面部表情和声音声调配合的非常好，表演细腻不夸张，提示遵循也很好
支持双人的场景演绎，可以很好的理解提示词中不同人物的语音
支持多语言输出，我测试完之后发现甚至可以多语言混合输出
目前支持免费体验，支持图生、单次生成最长 10 秒，分辨率为 720P，但是细节丰富

首先是一些基础的测试，比如让他介绍一下自己。

先平静微笑，说：“嗨，我在测试 Gaga AI。”再认真一点说：“你觉得它表现怎么样。”

可以看到在说后面那句话的时候，女生的面部表情非常的细腻，尤其是看向镜头的那个眼神、挑眉和说话时候的点头动作，太真实了，这种面部细节我从离开没有在其他模型上见到过。

本来我没抱啥希望的，但是跑完这个测试我就发现不对，这玩意好像有点强，而且这些细微表情你是不太好在提示词里面写的，只能靠模型自己的智能。

然后来个我们常见的顺口溜来看看嘴型和语音的表现。

清晰口型，节奏均匀：“八百标兵奔北坡，炮兵并排北边跑。”（说完轻呼一口气）

这里可以看到语音和整个面部的配合是非常好的，同时手部动作也在摇晃他的扇子，让整个画面不至于太单调。

后面个叹气的处理太好了，再一次体现了这个模型在表演层面已经有了一些泛化的智能，我并没有说叹气的表情，他自己就能推导出来这是表演完了比较轻松的一个状态，所以就表现出来了。

然后来一下看一下环境音和语音的配合。

边说边轻微抬手：“听到杯沿的轻碰声了吗？”（然后轻触杯子，出现细微杯碰声）（停顿）“就像在现场一样。”

这里我故意指定了杯子的声音，以及说话的顺序，他也按照这个顺序表现了出来。

可以看到人物的表情依然非常细腻，而且在说到“就像在现场一样”的时候有惊叹和自豪的表情，这完全是模型自己处理的。

但有个问题是 GAGA-1 是专门为了表演和语音训练的模型，如果可以的话尽量避免复杂精细的手部运动，比如这里手部就有些问题。

从上面的几个测试看，基础的表演和模型智能已经相当好了，然后再试试他多语言的能力。

这块还得指望中国模型，毕竟海外的模型一般不会对中文进行强化。

要不就是用了一些台湾人或者中文不标准的人的语音资料导致听起来和看起来都很别扭 Sora2 有时候就有一些，Veo3 就别说了。GAGA-1 在中文完美的基础上，其他语言的表现也很顶。

提示词：

英语：Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日语：自然礼貌语气“こんにちは。大事な発表です。落ち着いて、聞いてください。”（轻点头）

西班牙语：温暖自信语气“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合：淡定语气：“结论很简单——we’re ready for production.”（停顿0.3秒）“就现在。”

这里我分别试了一下英语、日语、西班牙语和多语言混合的情况，可以看到每个都非常标准，而且唇形同步也都是对的，细微的表情也都非常丰富，可以说不同语言之前的表现没有啥区别，听起来和看起来都像是说母语的人的表现。

接下来就到了最重要的情绪甚至复杂情绪的表现。

羞耻与自责的表情，目光回避、压低声音说：“我作弊了。”然后下颌收紧，用发抖的声音说“对不起，我不该那样做。”

这个真的跑的太好了，我一直认为极端情绪的表现不是考验模型表演能力的关键，关键在于那些不是很极端的场景化的情绪表现。

比如刚开始躲闪的目光、以及与之配合的压低的声音，真的你让我演我真演不出来，GAGA-1 在表演上确实比我们没学过表演的强太多了。

后面收紧下颌的动作也很自然，先是稍微低了一下头，然后才彻底把头低下去，语音上也有一个由弱变强的过程。

绝望与恳求的表情，下大雨的声音，女生呢喃说到：“别走让我至少把话说完。”然后大声说：“我会改的，真的。”

这里这个场景就相对复杂了，女生是站在车外的，而且还是雨天，有车窗隔着，画面和声音的情况要考虑的都多一点。

仔细听的话该有的雨声也是有的，他很好的考虑了镜头在车里的情况，所以雨声没有那么大，而且还自己加上了非常应景的钢琴 BGM，加强了氛围的渲染。

在表情和语音配合上，可以看到刚开始小声说话的时候模型给女生加了一点发抖的情况，这也是人在有剧烈情绪的正常反应，非常形象了。同时先小声说话然后有个思考的停顿然后大声说话的时候情绪的转变也会更自然，它台东表演了。

单人都这么猛了，我们来试试双人。

A（微笑）：“用一句话概括 GAGA-1？”B（平稳）：“声音、口型、表情，同步到位。”A（点头）：“影视级，直出可用？”B（笃定）：“当然。”

我这里加了点难度直接用的 AB 来表示左右的人，然后还用了两个侧脸。

但没想到他依然可以 Get 到提示词的要求，而且在中间的时候把应该 B 一直说的话改成了一人说一句，整个视频生动了不少。

侧脸的唇形同步和面部表情也相当不错，没有崩坏的情况，同时也没有其他模型会出现的音画不同步的情况，唯一小问题是在读 GAGA 的时候有点嘴瓢，感觉要避免大段中文加一两个英文单词的情况。

再来一个场景化的情绪丰富一点的双人测试，办公室吵架。

左边的男性愤怒的说：“预算是谁改的？”右边女性心虚的说：“我……是我，但我别无选择。”左边男性用凌厉的眼神看着短促吸气说：“你有。”

这里的整个情绪非常剧烈，同时模型自己也为了配合情绪加大了人物的动作，知道在质问的时候需要看着对方，同时需要有剧烈的动作，可以看到即使是在非常极限的人脸角度下，面部表情和嘴型也堵维持住了。

这里我还给男性和女性分别指定了情绪和表情，男性是非常强烈的愤怒，女性是相对比较细微的心虚，两者都表现的不错，尤其是最后那个短促吸气说话的感觉，相当到位。

由于时间跟对话有时候不匹配，可能会有一小段时间不动，这个用的时候剪掉就行。

好了这就是这次 GAGA-1 模型测试的主要内容了，这是一个长板很长同时短板很短的模型，Send AI 在训练的时候目标就非常的明确，就是把语音和表演表现拉满，他们也确实做到了。

我探索下来，这个模型的几个使用要点有：

a.提示词上可以先说情绪变化，然后再说说话的语气和内容，如果需要停顿的话，可以直接写，也可以用波折号或者省略号表达。
b.双人的表现不错，用左右或者男女去指定说话的人他都能理解，甚至 A、B 都行，但是超过双人的表现会有一定的下降，优先用双人。
c.如果图生的话尽量不要有太多的肢体或者全身漏在外面，也需要少些复杂动作提示词，可能会崩。
d.如果字数少的话比如十个字以内可以选择 5 秒的生成时长，如果是长对话可以选 10秒。
e.目前只支持 16:9 的横屏比例，过段时间会支持竖屏的 9:16 比例。

随着视频模型的发展，我们渐渐不太满足于复杂动态和物理表现、提示词遵循这种最基本的要求，因为这些 AI 视频模型可以生成的内容只占正常内容制作的一小部分。

从 GAGA-1、Sora2、Veo3 等模型我们可以发现，现在的 AI 视频模型发展已经到了下一个阶段：

我们需要更加关注情绪表达和表演、音效和语音，模型开始朝着端到端的多模态一体化输出。
同时需要关注模型本身的世界知识和智能程度，不仅可以理解画面内容进行视觉推理，同时自己有编排分镜脚本和剪辑的能力。

原来很多人认为这部分需要 Agent 来完成，现在看来也被模型内化了，Agent 制作的朋友需要将模型的进步考虑的更加激进一些才行。

本来看到 Veo3 和 Sora 2 之后觉得国内的模型有点难了，但看到 GAGA-1 后发现还是有明白人的。

目前 GAGA-1 可以免费试用，感兴趣可以去试试。

如果觉得藏师傅的内容不错的话，可以帮我点个赞或者喜欢，也可以转发✈️给你需要的朋友，感谢。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.