最近的AI视频模型,几乎都能做音画同步了。
给它一段台词,人物开口说话,嘴型能对上,背景里还有环境声,连语气都能带点情绪。
以前的制作流程都是先把画面生成出来,然后再用语音合成模型合成配音,做音乐,最后再对口型和剪辑成片。
AI视频自己就能搞定声音的话,语音合成是不是可以被优化了?问题是现在的AI视频是片段式的生成,一次性支持生成 15 秒,在展现一段比较长的戏时,受到时长限制,整个表演的情绪是断掉的,也比较容易衔接不上。
我做了一个年初二拜年被七大姑八大姨催婚的经典片段来对比看看,
这段视频里,AI视频是分段做出来的,有的片段要在十几秒的内容里塞入大量的对话,这会导致AI说话语速超快,偶尔也会因为时长不够,导致话没说完就被切断的情况。仔细听AI出的音色,在不同的片段中,其实还是会有些不太一样。
但如果我们转个思路,用音频来驱动画面生成的话,就不会出现这种情况了。
在成熟的AI视频短片的制作角度上来看,对于对话片段或者是以语言表达为主的画面,可以先生成音频,直到产出比较满意的情绪,然后再使用这段音频去驱动同等时长的人物说话镜头。
![]()
像Minimax最近推出了新版本Speech-2.8。
minimaxi.com/audio
这个版本跟之前不太一样的地方就是,新增了在一整段音频中添加不同的情绪、可以在句子中间,词组之间增加停顿,可以直接在括号里面加入一些语气词(比如轻笑、吸鼻子、清嗓子等等)等功能。
![]()
就上面图中这个提示语,我们先来听听效果,
从整个音频的这一段话中,能够感觉到情绪是从开心到难过,到有点释然,再到有一点点难过的转变过程。这个放到AI视频里,可能就是需要抽卡了。
MiniMax Speech-2.8现在可以在句子中间加入吸气、叹气等换气方式。这种模拟真人说话的细节非常灵活,可以根据我们自己的需求,把这些语气加入进去。
我又尝试了一下更明显的情绪转变,像是讲一个冷笑话的感觉,从原本恐惧的情绪突然转变为开心的情绪,讲述自己实际上看到的并不是恐怖的东西,这有一种突然放松的感觉。
![]()
我们能加入的这些非语言性的语气词,其实就是在辅助情绪的表达,让整个 AI 生成的语音更加符合人受惊吓时的本能,让整段声音表演的情绪转化更自然。
或者我们在给一些影片进行风格化的旁白配音的时候,也可以使用 MiniMax。
以前用AI生成语音,其实很难做到自然的换气。你会发现 AI 往往会一口气说出很长的一段话,让人有一种喘不上气的感觉。但在 MiniMax Speech-2.8 里,是可以在一句话的中间加入「正常换气」这个语气词。
![]()
甚至现在还有一些更有意思的东西。比如在语气词里加入哼唱,我们在制作一些比较调皮、可爱的角色时,可以在他说话的前面加上一段哼唱,这样表现出来的效果就会更加生动。
而且我这里发现了一个小tips,如果你想要它连续哼唱出来一段旋律,可以连续多添加几个「哼唱」的语气词,将这些语气词叠在一起,它就可以输出一段用你选中的音色哼唱出来的旋律,听起来更活泼。
![]()
或者,在表达某些感受的时候,其实也可以用上这些语气词。就比如说在表达很疼、很痛的时候,可以用这个「嘶嘶声」。这能很好地表现出人物被碰到伤口时那种撕拉的疼痛感,非常有现场感。而且我发现只要你叠的语气词数量越多,它呈现的语气程度就会越重,越明显。
![]()
而且 MiniMax 已经内置了非常丰富的音色选择,适配非常多的角色。但如果你觉得这些预设音色都不太适合自己的角色,还可以用提示语自己设计一个专属音色。
![]()
然后返回语音合成页面,写好你在这个语音中需要的文本,以及上面我们介绍过的那些语气词和情绪。最后在右面选择你刚刚生成的音色,就能得到一段完全自定义的音频了。
![]()
后续你还可以一直使用这个音色进行持续不断的生成,相当于自己创建了一个声优角色。
而且现在还是进去就有10000积分可以直接用,已经够生成很多很多音频片段了。
这一圈体验下来,我已经想好什么时候用音画同步,什么时候用语音参考生成视频了。
AI视频模型的音画同出,解决的是效率问题,它让普通人也能快速产出基本完整的视听内容。
但MiniMax Speech-2.8解决的是完成度的问题。
对于成熟的漫剧,短剧,甚至电影制作来说,
画面和声音,通常都需要被分开打磨。
你需要一个独立的配音棚,去保证所有角色音色的统一,去补录那些不够完美的表演,去为一个关键镜头,反复调整演员说话的口气和节奏。
这就是我们平时在看影视剧的时候会发现,
除了拍摄影视剧的总导演之外,
实际上经常会有一个声效导演的职位,
他的职责就是去把控整部影片的声音问题,
让影片的声效在配合高质量画面的同时,也能够给大家带来听觉上的冲击。
所以即便是有了演员的现场录音,但可能因为表演时的情绪或者是口音问题,还是会让演员在后期对自己的表演进行重新配音。
MiniMax Audio让我们也可以低成本即可实现专业配音效果,
按照我们的想法去调整音色,语速,语气词,
让一句话中拥有不同的情感层次。
毕竟,让画面拥有生命力的,是表演。
而让表演拥有灵魂的,
往往是声音。
@ 作者 / 卡尔 & 阿汤
最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论
如果想要第一时间收到推送,不妨给我个星标
如果你有更有趣的玩法,欢迎在评论区聊聊
更多的内容正在不断填坑中……
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.