网易首页 > 网易号 > 正文 申请入驻

太猛了!终于有人来管管 AI 视频的语音和表演了:GAGA AI 实测

0
分享至

提前试了一下曹越(Sand.ai)那边新发布的专注于人物对话表演的模型 GAGA-1(gaga.art).

应该是目前涉及到人物细微表演对话的最强模型了,在表演这部分甚至可以超过 Sora2。

本来就是随便试一下,没想到他这么猛,先来看一个简要介绍和我测试的混剪:

  • 声音和画面一起生成,即使是侧面的唇形同步都非常到位,语音音效都有
  • 面部表情和声音声调配合的非常好,表演细腻不夸张,提示遵循也很好
  • 支持双人的场景演绎,可以很好的理解提示词中不同人物的语音
  • 支持多语言输出,我测试完之后发现甚至可以多语言混合输出
  • 目前支持免费体验,支持图生、单次生成最长 10 秒,分辨率为 720P,但是细节丰富

首先是一些基础的测试,比如让他介绍一下自己。

先平静微笑,说:“嗨,我在测试 Gaga AI。”再认真一点说:“你觉得它表现怎么样。”

可以看到在说后面那句话的时候,女生的面部表情非常的细腻,尤其是看向镜头的那个眼神、挑眉和说话时候的点头动作,太真实了,这种面部细节我从离开没有在其他模型上见到过。

本来我没抱啥希望的,但是跑完这个测试我就发现不对,这玩意好像有点强,而且这些细微表情你是不太好在提示词里面写的,只能靠模型自己的智能。

然后来个我们常见的顺口溜来看看嘴型和语音的表现。

清晰口型,节奏均匀:“八百标兵奔北坡,炮兵并排北边跑。”(说完轻呼一口气)

这里可以看到语音和整个面部的配合是非常好的,同时手部动作也在摇晃他的扇子,让整个画面不至于太单调。

后面个叹气的处理太好了,再一次体现了这个模型在表演层面已经有了一些泛化的智能,我并没有说叹气的表情,他自己就能推导出来这是表演完了比较轻松的一个状态,所以就表现出来了。

然后来一下看一下环境音和语音的配合。

边说边轻微抬手:“听到杯沿的轻碰声了吗?”(然后轻触杯子,出现细微杯碰声)(停顿)“就像在现场一样。”

这里我故意指定了杯子的声音,以及说话的顺序,他也按照这个顺序表现了出来。

可以看到人物的表情依然非常细腻,而且在说到“就像在现场一样”的时候有惊叹和自豪的表情,这完全是模型自己处理的。

但有个问题是 GAGA-1 是专门为了表演和语音训练的模型,如果可以的话尽量避免复杂精细的手部运动,比如这里手部就有些问题。

从上面的几个测试看,基础的表演和模型智能已经相当好了,然后再试试他多语言的能力。

这块还得指望中国模型,毕竟海外的模型一般不会对中文进行强化。

要不就是用了一些台湾人或者中文不标准的人的语音资料导致听起来和看起来都很别扭 Sora2 有时候就有一些,Veo3 就别说了。GAGA-1 在中文完美的基础上,其他语言的表现也很顶。

提示词:

英语:Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日语:自然礼貌语气“こんにちは。大事な発表です。落ち着いて、聞いてください。”(轻点头)

西班牙语:温暖自信语气“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合:淡定语气:“结论很简单——we’re ready for production.”(停顿0.3秒)“就现在。”

这里我分别试了一下英语、日语、西班牙语和多语言混合的情况,可以看到每个都非常标准,而且唇形同步也都是对的,细微的表情也都非常丰富,可以说不同语言之前的表现没有啥区别,听起来和看起来都像是说母语的人的表现。

接下来就到了最重要的情绪甚至复杂情绪的表现。

羞耻与自责的表情,目光回避、压低声音说:“我作弊了。”然后下颌收紧,用发抖的声音说“对不起,我不该那样做。”

这个真的跑的太好了,我一直认为极端情绪的表现不是考验模型表演能力的关键,关键在于那些不是很极端的场景化的情绪表现。

比如刚开始躲闪的目光、以及与之配合的压低的声音,真的你让我演我真演不出来,GAGA-1 在表演上确实比我们没学过表演的强太多了。

后面收紧下颌的动作也很自然,先是稍微低了一下头,然后才彻底把头低下去,语音上也有一个由弱变强的过程。

绝望与恳求的表情,下大雨的声音,女生呢喃说到:“别走让我至少把话说完。”然后大声说:“我会改的,真的。”

这里这个场景就相对复杂了,女生是站在车外的,而且还是雨天,有车窗隔着,画面和声音的情况要考虑的都多一点。

仔细听的话该有的雨声也是有的,他很好的考虑了镜头在车里的情况,所以雨声没有那么大,而且还自己加上了非常应景的钢琴 BGM,加强了氛围的渲染。

在表情和语音配合上,可以看到刚开始小声说话的时候模型给女生加了一点发抖的情况,这也是人在有剧烈情绪的正常反应,非常形象了。同时先小声说话然后有个思考的停顿然后大声说话的时候情绪的转变也会更自然,它台东表演了。

单人都这么猛了,我们来试试双人。

A(微笑):“用一句话概括 GAGA-1?”B(平稳):“声音、口型、表情,同步到位。”A(点头):“影视级,直出可用?”B(笃定):“当然。”

我这里加了点难度直接用的 AB 来表示左右的人,然后还用了两个侧脸。

但没想到他依然可以 Get 到提示词的要求,而且在中间的时候把应该 B 一直说的话改成了一人说一句,整个视频生动了不少。

侧脸的唇形同步和面部表情也相当不错,没有崩坏的情况,同时也没有其他模型会出现的音画不同步的情况,唯一小问题是在读 GAGA 的时候有点嘴瓢,感觉要避免大段中文加一两个英文单词的情况。

再来一个场景化的情绪丰富一点的双人测试,办公室吵架。

左边的男性愤怒的说:“预算是谁改的?”右边女性心虚的说:“我……是我,但我别无选择。”左边男性用凌厉的眼神看着短促吸气说:“你有。”

这里的整个情绪非常剧烈,同时模型自己也为了配合情绪加大了人物的动作,知道在质问的时候需要看着对方,同时需要有剧烈的动作,可以看到即使是在非常极限的人脸角度下,面部表情和嘴型也堵维持住了。

这里我还给男性和女性分别指定了情绪和表情,男性是非常强烈的愤怒,女性是相对比较细微的心虚,两者都表现的不错,尤其是最后那个短促吸气说话的感觉,相当到位。

由于时间跟对话有时候不匹配,可能会有一小段时间不动,这个用的时候剪掉就行。

好了这就是这次 GAGA-1 模型测试的主要内容了,这是一个长板很长同时短板很短的模型,Send AI 在训练的时候目标就非常的明确,就是把语音和表演表现拉满,他们也确实做到了。

我探索下来,这个模型的几个使用要点有:

  1. a.提示词上可以先说情绪变化,然后再说说话的语气和内容,如果需要停顿的话,可以直接写,也可以用波折号或者省略号表达。
  2. b.双人的表现不错,用左右或者男女去指定说话的人他都能理解,甚至 A、B 都行,但是超过双人的表现会有一定的下降,优先用双人。
  3. c.如果图生的话尽量不要有太多的肢体或者全身漏在外面,也需要少些复杂动作提示词,可能会崩。
  4. d.如果字数少的话比如十个字以内可以选择 5 秒的生成时长,如果是长对话可以选 10秒。
  5. e.目前只支持 16:9 的横屏比例,过段时间会支持竖屏的 9:16 比例。

随着视频模型的发展,我们渐渐不太满足于复杂动态和物理表现、提示词遵循这种最基本的要求,因为这些 AI 视频模型可以生成的内容只占正常内容制作的一小部分。

从 GAGA-1、Sora2、Veo3 等模型我们可以发现,现在的 AI 视频模型发展已经到了下一个阶段:


  • 我们需要更加关注情绪表达和表演、音效和语音,模型开始朝着端到端的多模态一体化输出。
  • 同时需要关注模型本身的世界知识和智能程度,不仅可以理解画面内容进行视觉推理,同时自己有编排分镜脚本和剪辑的能力。

原来很多人认为这部分需要 Agent 来完成,现在看来也被模型内化了,Agent 制作的朋友需要将模型的进步考虑的更加激进一些才行。

本来看到 Veo3 和 Sora 2 之后觉得国内的模型有点难了,但看到 GAGA-1 后发现还是有明白人的。

目前 GAGA-1 可以免费试用,感兴趣可以去试试。

如果觉得藏师傅的内容不错的话,可以帮我点个赞或者喜欢,也可以转发✈️给你需要的朋友,感谢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扛住压力了!马刺替补中锋为文班亚马争取到了10分钟的出场时间?

扛住压力了!马刺替补中锋为文班亚马争取到了10分钟的出场时间?

稻谷与小麦
2026-05-13 23:58:11
加速糖尿病恶化的行为:甜食排第7,第1名很多人都没意识到

加速糖尿病恶化的行为:甜食排第7,第1名很多人都没意识到

冷眼看世界728
2026-05-13 21:26:22
李讷左手拉着大孙女右手抱着小孙女,儿子王效芝儿媳王伟围在身边

李讷左手拉着大孙女右手抱着小孙女,儿子王效芝儿媳王伟围在身边

大江
2026-05-12 11:09:07
世乒赛尘埃落定!国乒宿敌锐评孙颖莎,字字诛心扎透张本美和心底

世乒赛尘埃落定!国乒宿敌锐评孙颖莎,字字诛心扎透张本美和心底

深海的秘密
2026-05-14 01:45:51
才5月中旬就热成这样,今年夏天会更难熬吗

才5月中旬就热成这样,今年夏天会更难熬吗

扬子晚报
2026-05-13 23:25:47
突传噩耗!香港知名商人在家中烧炭身亡,公司面临巨大财政压力

突传噩耗!香港知名商人在家中烧炭身亡,公司面临巨大财政压力

情感大头说说
2026-05-13 17:16:43
山东女孩放学回家路上失踪,连续5天给母亲托梦:我就在锅里

山东女孩放学回家路上失踪,连续5天给母亲托梦:我就在锅里

纸鸢奇谭
2025-01-26 17:18:28
马斯克、黄仁勋排面拉满,与特朗普同机抵达,会有哪些愿望清单?

马斯克、黄仁勋排面拉满,与特朗普同机抵达,会有哪些愿望清单?

光电科技君
2026-05-14 00:00:20
《爱情没有神话》大结局:两人入狱一人破产,蔡掌珠逆袭成大神

《爱情没有神话》大结局:两人入狱一人破产,蔡掌珠逆袭成大神

时尚的弄潮
2026-05-13 16:35:47
江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

坠入二次元的海洋
2026-05-13 11:57:56
为啥现在没人买枇杷了?不是大家不爱吃,是这4个现实原因劝退

为啥现在没人买枇杷了?不是大家不爱吃,是这4个现实原因劝退

椰青美食分享
2026-05-13 00:55:06
台积电曾明说:只要是在日本和美国制造的芯片,涨价10-30%很正常

台积电曾明说:只要是在日本和美国制造的芯片,涨价10-30%很正常

生活新鲜市
2026-05-14 00:51:30
伊朗没料到,打了一仗,没灭掉以色列,反在自家门口造出个更狠的

伊朗没料到,打了一仗,没灭掉以色列,反在自家门口造出个更狠的

共工之锚
2026-05-14 00:06:08
多特旧友重聚,贝林厄姆晒和哈兰德、桑乔合影

多特旧友重聚,贝林厄姆晒和哈兰德、桑乔合影

懂球帝
2026-05-14 02:53:39
中国国民党主席郑丽文预计6月1日访美,国台办回应

中国国民党主席郑丽文预计6月1日访美,国台办回应

界面新闻
2026-05-13 14:20:43
吴宜泽西安理发,这款发型普通人别乱剪

吴宜泽西安理发,这款发型普通人别乱剪

阿废冷眼观察所
2026-05-13 15:52:29
钾是香蕉18倍的“护肝菜”!隔天吃一次,腿脚有劲,肝脏更年轻

钾是香蕉18倍的“护肝菜”!隔天吃一次,腿脚有劲,肝脏更年轻

马蹄烫嘴说美食
2026-05-13 21:42:58
星舰第12飞不早于5月20日

星舰第12飞不早于5月20日

NASA爱好者
2026-05-13 02:28:08
迈威尔科技逆市拉升 现涨超10%

迈威尔科技逆市拉升 现涨超10%

每日经济新闻
2026-05-13 22:02:35
两个国家部委领导班子调整

两个国家部委领导班子调整

上观新闻
2026-05-13 12:38:09
2026-05-14 03:40:49
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
关注人工智能、LLM 、 AI 图像视频和设计
299文章数 52关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
健康
游戏
旅游
手机

家居要闻

内在自叙,无域有方

干细胞能让人“返老还童”吗

LOL迎来史诗级改动,GEN被削废T1获利!GEN老板:为谁改的版本?

旅游要闻

四大入口协同发力 让外国游客“丝滑”逛北京

手机要闻

iPhone18Pro配色敲定+iOS 27功能曝光!今年9月的苹果,料有点多

无障碍浏览 进入关怀版