网易首页 > 网易号 > 正文 申请入驻

让 AI 视频学会配音,学术界花了十年|Vidu Q3 发布的背后

0
分享至

先看这个,一起背背单词,Ambition,俺必胜

俺必胜 = Ambition

prompt

趣味单词助记视频,中国古代战争大片风格(类似《三国演义》),千军万马的战场,阴沉的天空,战旗飘扬

一位身穿重甲、满脸胡渣的将军缓缓拔出宝剑,举剑指天,眼神狂热,嘶吼:「俺!必!胜!!」

天空一道闪电劈下,画面骤暗。黑幕中金色火焰字体燃烧而出:AMBITION,下方浮现中文「雄心」。浑厚男声旁白同步朗读:「Ambition,雄心」

Vidu 刚刚发布了 Q3,支持上了声画同出文字渲染自动切镜

官网在这:https://www.vidu.cn/

开发者平台在这:https://platform.vidu.cn/


而谐音记单词,也是把 Vidu Q3 的能力全用上了,再来一个

拍死它 = Pest

prompt

趣味单词助记视频,4K高清美食纪录片风格,极度清晰的微距镜头,明亮的米其林餐厅后厨 ,古典音乐舒缓

苍蝇嗡嗡声渐近,音乐戛然而止,苍蝇飞入画面降落在食物最顶端,大厨举起巴掌,用中文大吼:「拍死它!」 手掌即将拍下瞬间,画面定格震动

红色印章风格猛然盖上:PEST,下方显示中文「害虫」

清脆女声同步朗读:「Pest,害虫」

Vidu Q3 是生数科技 1 月 30 日发布的视频生成模型,全球首个支持 16 秒音视频直出

在 Artificial Analysis 最新榜单中,Vidu Q3 排名中国第一,全球第二,超过 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2


AA text to video 榜单:2月3日截图 拍短剧视角

以前用 AI 做短剧的流程是这样的:生成画面,配音,配音效,剪辑

Q3 把这几步合成一步:一次生成出视频 + 对话 + 音效 + 背景音乐,口型自动对上

让我们先来看看这个搞砸了的厨师

搞砸了的厨师

prompt


Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
Baker (whispering dramatically): “Today… I achieve perfection.”
He leans even closer, nose nearly touching the glass.
“Golden edges. Soft center...”
Baker: “Wait—”
(beat)
“Did I… forget the chocolate chips?”
Cut to side view — coworker pops into frame, chewing casually.
Coworker (mouth full): “Nope. You forgot the sugar.”
Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
pixar style acting and timing

Pixar 风格,烤箱内视角,两个人一来一回的对话,表情、节奏、喜剧 timing 全在里面

一次生成,装下一个完整的戏剧冲突

再看这个父子棒球场的案例,4 个镜头自动切换

父子棒球场

prompt

Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

全景、中景、特写、双人镜头,一段提示词搞定

图生音视频

不只文生视频,图生也能声画同出

上传一张图,写上提示词,完整视频就有了,嘴型对得上,语气也对,还有运镜

比如,让我们先看看下面的这个

所给到的参考图,就是下面这个


台词、动作、特效、运镜、配乐,一次出完

说到配乐...没错,Vidu 是支持让人物唱出来的,比如下面这个,把非洲老哥的照片丢进去,让他 Rap....


就真特么成了

还可以玩点更花里胡哨的,比如:多张分镜图输入,一段完整视频输出,就像下面这个一样


下面这个就是成品

分镜变视频

prompt


节奏:由慢到快;
1. [极特写] 黑色背景中,大块可可豆被金属磨盘碾碎,粉尘飞舞。
2. [慢动作特写] 浓稠的黑巧克力浆像丝绸一样倒入搅拌碗。
3. [特写] 搅拌器高速旋转,带起巧克力漩涡。
4. [中景加速] 蛋糕在烤箱中快速膨胀(Time-lapse 延时摄影感)。
5. [特写] 刚出炉的蛋糕表面撒上一层细密的糖粉。
6. [极特写] 银色勺子挖开蛋糕,内部热气腾腾的巧克力岩浆流出,填满画面。```

我觉得,最牛逼的还是这个,Q3 还支持中、英、日三语对话。同一段内容,换个语言标签就能出不同语种版本

然后...人物的神态,真的就分别像中国人、美国人、日本人

特么的绝了...要知道,说不同语言的时候,面部肌肉到动作是不一样的,这里竟然能仿到很真

吃或不吃,三语版

prompt

中文:少女保持姿势不变,略带疑惑地对着镜头说:吃,或者不吃。这是个很严肃的问题

英文:The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

日文:少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った
文字渲染

Q3 可以在视频中生成精准的中、英、日文字,不会变形

prompt


水下第一视角,鱼眼镜头,阳光从水面斜斜射下,一道道光柱在幽蓝水体中漂浮。五彩斑斓的鱼群从四周聚拢,在正前方排成一排,银光闪烁地拼出漂浮的字母:“DEEP BLUE”。字母轻轻晃动,仿佛悬在水中发光。下方的珊瑚泛着荧光,沙地上焦散光影在流动中扭曲。

还记得开头的「谐音记单词」么?这是相同的原因:画面里的 AMBITION 和 PEST 都是模型直接渲染出来的

声画同出

视频生成模型能配音这件事,学术界研究了快十年


2016 年 MIT 做了个实验:给模型看敲击不同材质物体的视频,让它预测敲击声音。这是视觉引导音频生成的起点

2017 年牛津 VGG 团队提出了一个任务:给一段视频和一段音频,判断它们是不是来自同一来源。听起来简单,但这个自监督目标成了后续大量研究的基础

2020 年,扩散模型开始崛起。DDPM 提出通过逐步去噪从随机噪声生成高质量图像,这个框架很快被扩展到音频领域


2022 年 12 月,MM-Diffusion 论文发布,学术界第一个联合音视频扩散框架。核心思路是让音频和视频分支共享去噪过程,同时保持各自的特征提取。这篇论文证明了一件事:音视频可以在同一个扩散过程中同时生成,效果比先生成视频再配音频的级联方法更好

但学术模型有个问题:只能生成 4 秒、256×256 分辨率的短视频。商业产品追求高分辨率和长时长,音频生成暂时搁置

2025 年 5 月,Google Veo 3 发布,首个商用原生音视频模型。Google 把数百万小时的配对音视频数据和扩散 Transformer 架构结合,学术和工业之间的鸿沟被跨越

然后各家快速跟进:

时间

模型

时长

Google Veo 3

8 秒

Gaga-1

10 秒

OpenAI Sora 2

15 秒

快手 Kling 2.6

10 秒

字节 Seedance 1.5 Pro

12 秒

Runway Gen-4.5

10 秒

生数 Vidu Q3

16 秒

补充说明 OpenAI 在启用 StoryBoard 的时候,视频可以最长 25 秒,不过那属于工程优化,暂时不算在这个列表里

9 个月,原生音频从突破性创新变成竞争标配。Q3 的 16 秒是目前最长的单次生成时长

技术路线上有两种:联合生成,或者级联生成

联合生成:跑一次,音频视频同时出来,二者共享潜空间,完美时间对齐,但计算成本高

级联生成:跑两次,先出视频,再出音频,可以用单模态最好的模型,但可能产生微妙的不对齐


现在的竞争焦点是:单次生成时长、对话质量、多语言支持、唇形同步准确度、多人场景处理能力

最后

收束下全文,这次 Vidu 发布了 Q3,支持文生视频、图生视频,最长 16 秒,声画同出,为剧而生


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

妍妍教育日记
2026-02-04 18:29:23
爱泼斯坦案档案公布,回看30年8.2万中国儿童被美收养,细思极恐

爱泼斯坦案档案公布,回看30年8.2万中国儿童被美收养,细思极恐

今朝牛马
2026-02-04 17:34:09
爱泼斯坦死前48小时,签信托文件豪掷遗产,最后一通电话打给女友

爱泼斯坦死前48小时,签信托文件豪掷遗产,最后一通电话打给女友

红星新闻
2026-02-04 16:21:41
特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

流苏晚晴
2026-02-04 20:12:30
“天下银楼”1205万元无人拍,1.75吨纯银就值5000多万元!背后公司负债1个亿,创始人:它不是可以拆卖的“银疙瘩”,代表的是本地文化

“天下银楼”1205万元无人拍,1.75吨纯银就值5000多万元!背后公司负债1个亿,创始人:它不是可以拆卖的“银疙瘩”,代表的是本地文化

每日经济新闻
2026-02-04 21:19:07
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
当不成首相了?高市被送进医院,日本27人身亡,俄向日本发去通牒

当不成首相了?高市被送进医院,日本27人身亡,俄向日本发去通牒

壹知眠羊
2026-02-03 16:39:13
爱泼斯坦到底死了没有?美网友晒出证据,在监狱上演狸猫换太子?

爱泼斯坦到底死了没有?美网友晒出证据,在监狱上演狸猫换太子?

社会酱
2026-02-04 15:52:45
深夜美联储释放利空!黄金暴跌10%,白银暴跌12%,黄金白银崩盘

深夜美联储释放利空!黄金暴跌10%,白银暴跌12%,黄金白银崩盘

鹏哥投研
2026-02-04 09:25:20
网络不是法外之地,官谣谁来买单

网络不是法外之地,官谣谁来买单

涛哥锐评
2026-02-04 11:48:46
随着赵心童5-3胜希金斯,小特+墨菲出局,大奖赛16强出炉中国9席

随着赵心童5-3胜希金斯,小特+墨菲出局,大奖赛16强出炉中国9席

球场没跑道
2026-02-04 22:25:07
知名军事博主“听风的蚕”单日掉粉千万,多账号无法关注,平台称其因违规被处理

知名军事博主“听风的蚕”单日掉粉千万,多账号无法关注,平台称其因违规被处理

齐鲁壹点
2026-02-04 14:32:53
一游客称花200元幸运独享一架客机从九寨沟飞成都,起飞前还接到客服电话“早点到随到随走”,川航客服回应

一游客称花200元幸运独享一架客机从九寨沟飞成都,起飞前还接到客服电话“早点到随到随走”,川航客服回应

极目新闻
2026-02-04 20:11:54
金价创下2009年以来最大单日涨幅

金价创下2009年以来最大单日涨幅

看看新闻Knews
2026-02-04 11:27:02
爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

红星新闻
2026-02-04 13:50:19
破坏民族团结!中国男篮队长已涉嫌违法 官媒怒斥:必须追究责任

破坏民族团结!中国男篮队长已涉嫌违法 官媒怒斥:必须追究责任

念洲
2026-02-04 07:01:08
生吃解毒,熟吃润肺!正大量上市,10元5斤,每天吃一点,作用大

生吃解毒,熟吃润肺!正大量上市,10元5斤,每天吃一点,作用大

阿龙美食记
2026-02-02 22:44:49
浓眉交易尘埃落定!独行侠管理层病急乱投医,再次成为联盟笑话

浓眉交易尘埃落定!独行侠管理层病急乱投医,再次成为联盟笑话

移动挡拆
2026-02-05 04:15:25
两女生称花90多元入住成都一民宿,在空调管道内发现摄像头,警方:两男子借入住之机安装,已被采取刑事强制措施

两女生称花90多元入住成都一民宿,在空调管道内发现摄像头,警方:两男子借入住之机安装,已被采取刑事强制措施

极目新闻
2026-02-04 12:36:16
刘虎老师事件,最后的絮叨

刘虎老师事件,最后的絮叨

林中木白
2026-02-04 10:50:41
2026-02-05 04:36:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
281文章数 31关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

家居
游戏
房产
本地
公开课

家居要闻

灰白意境 光影奏鸣曲

游戏动力×ATK 联动福利红包封面随机掉落!

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版