让 AI 视频学会配音，学术界花了十年｜Vidu Q3 发布的背后|gaga|vidu

让 AI 视频学会配音，学术界花了十年｜Vidu Q3 发布的背后

2026-02-03 23:22:44　来源: 赛博禅心

北京举报

分享至

先看这个，一起背背单词，Ambition，俺必胜

俺必胜 = Ambition

prompt

趣味单词助记视频，中国古代战争大片风格（类似《三国演义》），千军万马的战场，阴沉的天空，战旗飘扬

一位身穿重甲、满脸胡渣的将军缓缓拔出宝剑，举剑指天，眼神狂热，嘶吼：「俺！必！胜！！」

天空一道闪电劈下，画面骤暗。黑幕中金色火焰字体燃烧而出：AMBITION，下方浮现中文「雄心」。浑厚男声旁白同步朗读：「Ambition，雄心」

Vidu 刚刚发布了 Q3，支持上了声画同出、文字渲染、自动切镜，

官网在这：https://www.vidu.cn/

开发者平台在这：https://platform.vidu.cn/

而谐音记单词，也是把 Vidu Q3 的能力全用上了，再来一个

拍死它 = Pest

prompt

趣味单词助记视频，4K高清美食纪录片风格，极度清晰的微距镜头，明亮的米其林餐厅后厨 ，古典音乐舒缓

苍蝇嗡嗡声渐近，音乐戛然而止，苍蝇飞入画面降落在食物最顶端，大厨举起巴掌，用中文大吼：「拍死它！」 手掌即将拍下瞬间，画面定格震动

红色印章风格猛然盖上：PEST，下方显示中文「害虫」

清脆女声同步朗读：「Pest，害虫」

Vidu Q3 是生数科技 1 月 30 日发布的视频生成模型，全球首个支持 16 秒音视频直出

在 Artificial Analysis 最新榜单中，Vidu Q3 排名中国第一，全球第二，超过 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2

AA text to video 榜单：2月3日截图拍短剧视角

以前用 AI 做短剧的流程是这样的：生成画面，配音，配音效，剪辑

Q3 把这几步合成一步：一次生成出视频 + 对话 + 音效 + 背景音乐，口型自动对上

让我们先来看看这个搞砸了的厨师

搞砸了的厨师

prompt


Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
Baker (whispering dramatically): “Today… I achieve perfection.”
He leans even closer, nose nearly touching the glass.
“Golden edges. Soft center...”
Baker: “Wait—”
(beat)
“Did I… forget the chocolate chips?”
Cut to side view — coworker pops into frame, chewing casually.
Coworker (mouth full): “Nope. You forgot the sugar.”
Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
pixar style acting and timing

Pixar 风格，烤箱内视角，两个人一来一回的对话，表情、节奏、喜剧 timing 全在里面

一次生成，装下一个完整的戏剧冲突

再看这个父子棒球场的案例，4 个镜头自动切换

父子棒球场

prompt

Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

全景、中景、特写、双人镜头，一段提示词搞定

图生音视频

不只文生视频，图生也能声画同出

上传一张图，写上提示词，完整视频就有了，嘴型对得上，语气也对，还有运镜

比如，让我们先看看下面的这个

所给到的参考图，就是下面这个

台词、动作、特效、运镜、配乐，一次出完

说到配乐...没错，Vidu 是支持让人物唱出来的，比如下面这个，把非洲老哥的照片丢进去，让他 Rap....

就真特么成了

还可以玩点更花里胡哨的，比如：多张分镜图输入，一段完整视频输出，就像下面这个一样

下面这个就是成品

分镜变视频

prompt


节奏：由慢到快；
1. [极特写] 黑色背景中，大块可可豆被金属磨盘碾碎，粉尘飞舞。
2. [慢动作特写] 浓稠的黑巧克力浆像丝绸一样倒入搅拌碗。
3. [特写] 搅拌器高速旋转，带起巧克力漩涡。
4. [中景加速] 蛋糕在烤箱中快速膨胀（Time-lapse 延时摄影感）。
5. [特写] 刚出炉的蛋糕表面撒上一层细密的糖粉。
6. [极特写] 银色勺子挖开蛋糕，内部热气腾腾的巧克力岩浆流出，填满画面。```

我觉得，最牛逼的还是这个，Q3 还支持中、英、日三语对话。同一段内容，换个语言标签就能出不同语种版本

然后...人物的神态，真的就分别像中国人、美国人、日本人

特么的绝了...要知道，说不同语言的时候，面部肌肉到动作是不一样的，这里竟然能仿到很真

吃或不吃，三语版

prompt

中文：少女保持姿势不变，略带疑惑地对着镜头说：吃，或者不吃。这是个很严肃的问题

英文：The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

日文：少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った

文字渲染

Q3 可以在视频中生成精准的中、英、日文字，不会变形

prompt


水下第一视角，鱼眼镜头，阳光从水面斜斜射下，一道道光柱在幽蓝水体中漂浮。五彩斑斓的鱼群从四周聚拢，在正前方排成一排，银光闪烁地拼出漂浮的字母：“DEEP BLUE”。字母轻轻晃动，仿佛悬在水中发光。下方的珊瑚泛着荧光，沙地上焦散光影在流动中扭曲。

还记得开头的「谐音记单词」么？这是相同的原因：画面里的 AMBITION 和 PEST 都是模型直接渲染出来的

声画同出

视频生成模型能配音这件事，学术界研究了快十年

2016 年 MIT 做了个实验：给模型看敲击不同材质物体的视频，让它预测敲击声音。这是视觉引导音频生成的起点

2017 年牛津 VGG 团队提出了一个任务：给一段视频和一段音频，判断它们是不是来自同一来源。听起来简单，但这个自监督目标成了后续大量研究的基础

2020 年，扩散模型开始崛起。DDPM 提出通过逐步去噪从随机噪声生成高质量图像，这个框架很快被扩展到音频领域

2022 年 12 月，MM-Diffusion 论文发布，学术界第一个联合音视频扩散框架。核心思路是让音频和视频分支共享去噪过程，同时保持各自的特征提取。这篇论文证明了一件事：音视频可以在同一个扩散过程中同时生成，效果比先生成视频再配音频的级联方法更好

但学术模型有个问题：只能生成 4 秒、256×256 分辨率的短视频。商业产品追求高分辨率和长时长，音频生成暂时搁置

2025 年 5 月，Google Veo 3 发布，首个商用原生音视频模型。Google 把数百万小时的配对音视频数据和扩散 Transformer 架构结合，学术和工业之间的鸿沟被跨越

然后各家快速跟进：

时间

模型

时长

Google Veo 3

8 秒

Gaga-1

10 秒

OpenAI Sora 2

15 秒

快手 Kling 2.6

10 秒

字节 Seedance 1.5 Pro

12 秒

Runway Gen-4.5

10 秒

生数 Vidu Q3

16 秒

补充说明 OpenAI 在启用 StoryBoard 的时候，视频可以最长 25 秒，不过那属于工程优化，暂时不算在这个列表里

9 个月，原生音频从突破性创新变成竞争标配。Q3 的 16 秒是目前最长的单次生成时长

技术路线上有两种：联合生成，或者级联生成

联合生成：跑一次，音频视频同时出来，二者共享潜空间，完美时间对齐，但计算成本高

级联生成：跑两次，先出视频，再出音频，可以用单模态最好的模型，但可能产生微妙的不对齐

现在的竞争焦点是：单次生成时长、对话质量、多语言支持、唇形同步准确度、多人场景处理能力

最后

收束下全文，这次 Vidu 发布了 Q3，支持文生视频、图生视频，最长 16 秒，声画同出，为剧而生

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.