网易首页 > 网易号 > 正文 申请入驻

超越 Sora2,Vidu Q3 以 16 秒声画同出开创视频创作新范式

0
分享至


从「抽卡」到「导演」。


作者|连冉

编辑|郑玄

如果不特意说明,大多数人可能会把下面这段视频,当成是某部美剧的片段。

画面中,柔和的侧窗光打在两位中年人的脸上,皮肤的纹理、眼角的细纹清晰可见。空气中弥漫着一种压抑感。

女士直视着对方,声音平静却难掩失望:「I told you the life I wanted… but you always ignore me.(我告诉过你我想要的生活……但你总是无视我。)」

紧接着是几秒钟令人不安的沉默。男士先是回避了眼神,随后抬起头,声音低沉、防御却又疲惫地回应:「I didn』t ignore you. I just thought what I was giving was enough.(我没有无视你。我只是以为我给的已经够多了。)」

在 10 秒的长镜头里,从女人的质问,到中间尴尬的留白,再到男人的辩解,没有 AI 常见的「崩坏」。还有情绪的流动——男人眼神的躲闪、呼吸的微弱起伏,以及两人对话之间那段精准的「气口」,都像极了真实的人类演员博弈。

如果放在不久之前,要生成这样一段视频,至少需要分别生成两个人的特写,再生成空镜,剪辑拼接,最后寻找配音并对齐口型——即便如此,也很难做成这种双人互动的即时反应感。

在今天,这段完整的、带有叙事张力的对话视频被 Vidu Q3 一次性「跑」了出来。

所以,当 AI 可以一次生成这样一段完整、有声、有节奏的视频时,它在视频创作中的角色,是否已经发生了变化?

01

16 秒,AI 视频的「有声叙事」突围:

不止同步,更是完整叙事

长期以来,视频生成模型的表现虽然已经持续提升,但目前的视频生成模型大多处于「视觉生成」阶段,虽然画面精美,但往往需要后期配音,且时长通常较短,难以承载复杂的剧情。这种割裂感让 AI 视频还不足以支撑起叙事载体。

Vidu Q3 的出现,恰恰是在这两个维度的破局。

首先是感官维度的补全。Vidu Q3 的核心亮点之一在于「声画同出」。它不仅仅是生成视频,而是同时生成与之匹配的物理世界声音——包括角色的对白、环境的音效、以及烘托氛围的背景音乐。

这种「同出」并非简单的音画叠加,而是基于对物理世界的理解。

这是一个雨后的都市街头场景,两个女孩手持咖啡站在潮湿的路面上。Vidu Q3 生成的不仅仅是光影反射的画面,还有沉浸感的听觉空间:能听到远处车辆掠过湿滑地面的白噪音、城市夜晚特有的低频嗡鸣,甚至能听到女孩叹息时那一声轻微的气流声。

这些声音是模型根据画面中的「雨夜」、「街道」、「距离」自动推演出的物理反馈。它让对话不再悬浮于真空之中,而是被包裹在真实的氛围里,使视频在输出的那一刻,就具备了完整的视听结构与情绪厚度。

其次是时间维度的延展,这其中重点在于「16 秒」这个参数的实际意义。

在影视语言中,4 秒也许只够一个空镜或一个简单的动作,但 16 秒足以承载什么?它足以容纳一段一来一回的完整对话,铺陈一个带有反转情节的小故事,或者完成一个意味深长的长镜头叙事。

Vidu Q3 做到了一次生成 16 秒且声画同出。这意味着,创作者可以直接生成「可直接商业化应用的视听片段」,而非一堆需要拼接的破碎素材。

这标志着创作的最小单位开始发生变化:我们正在从生成「单个画面」,过渡到生成「一段具备情绪起伏的完整表达」。当 AI 能够在一个连贯的时空里讲完一个小故事,它才真正拥有了成为「导演」的资格。

02

把「摄像机」交给模型,

创作流程随之改变

如果说时长和声音解决了「能用」的问题,那么对镜头的掌控则决定了工具是否「好用」。

Vidu Q3 的核心进化之一,在于它把「摄像机」真正交到了创作者手中。

它所引入的「镜头控制,自由切换」的能力,不仅仅是简单的推拉摇移,而是允许创作者像导演一样,精准调度叙事的节奏。

这种切镜能力展现出了一种对视频内容的深刻理解:它既可以根据提示词中明确的分镜指令进行切换,也能基于对视频内容的理解自动生成切镜。这意味着,即便没有导演专业背景的创作者,也能通过 AI 实现专业的镜头语言,让画面叙事更具戏剧性。

这种能力在处理复杂的叙事调度时表现得尤为明显。比如下面这个视频,就是给 Vidu Q3 输入了包含 4 个特定分镜的写实拍摄指令,试图还原一场棒球赛现场的父子温情时刻。

Prompt 里构建了一套行云流水的运镜逻辑:视频前几秒是开阔的建立镜头,在嘈杂的欢呼声中交代出热烈的棒球场环境,营造出真实的临场感;紧接着,镜头平滑切至看台中景,聚焦于父亲凑近儿子的亲密互动;随后,镜头迅速推进至儿子的面部特写,精准捕捉他认真作答时的微表情;最后视角拉回温馨的双人镜头,在喧闹的背景中定格父亲微笑点头的默契瞬间。

Vidu Q3 并没有把这些理解为割裂的画面,而是理解了一整套导播逻辑——从全景的铺垫(环境),到中景的交互(关系),再到特写的聚焦(情绪)。这种过去需要分别拍摄三个机位再进行剪辑的工序,现在可以在一个 Prompt 中一次成型,且镜头切换的逻辑完全服务于叙事流。

而这一切控制力的核心价值,最终指向了所有专业创作者最在意的指标——「一致性」。

在多镜头切换中,最难的莫过于保持人物长相和环境逻辑的不变。Vidu Q3 展现了「一致性的胜利」:无论是父亲在侧面和正面不同角度下的五官特征,还是儿子在远景和特写中的衣着细节,都保持了高度的统一。

这种高度的一致性,是让 AI 视频进入专业生产流的前提。它让创作者终于可以结束「为了修补画面崩坏而不断重绘」的补救式工作流,将注意力重新放回角色塑造、剧本结构和情绪表达本身。

03

为「剧」而生

当 AI 可以直接生成具备节奏、对白和情绪的视听片段,它介入的不再只是某个制作环节,而是创作方式本身。

Vidu Q3 提出了「为剧而生」的 Slogan,这其实也体现了产品路径的选择,它不只是为了生成炫酷的 demo,而是为了服务于短剧、漫剧、影视剧等高频、强叙事的内容形态。

在评测中,Vidu Q3 表现亮眼。在国际权威 AI 基准测试机构 Artificial Analysis 最新发布的榜单中,Vidu Q3 斩获中国第一、全球第二的佳绩,实力对标马斯克 xAI Grok,同时超越 Runway Gen-4.5、Google Veo3.1 与 OpenAI Sora 2。凭借硬核技术实力,Vidu 以亮眼表现诠释「中国速度」,领跑视频生成赛道下半场。


在实际应用中,这种能力正在释放巨大的生产力。

对于影视制作人,Vidu Q3 意味着成本的指数级下降。以前需要实地封路拍摄或后期耗费大量工时进行拟音和混音的场景,现在可以通过 Prompt 快速预演。

例如在前面提到的雨后都市街头的案例中,Vidu Q3 生成的不仅仅是光影反射的画面,还有沉浸感的听觉空间:能听到远处车辆掠过湿滑地面的白噪音、城市夜晚特有的低频嗡鸣。

这种基于「雨夜」、「街道」、「距离」自动推演出的物理反馈,让创作者无需调动庞大的摄制组,就能在提案阶段精准呈现出影片想要传达的视听结构与情绪厚度。

在商业广告领域,效率就是生命。为了验证 Vidu Q3 在实际商用中的潜力,笔者选取了两个跨度极大的场景进行测试:一段是不仅要求口型对齐、更要求肢体自然的「女主播智能手表口播」;另一段则是极度考验画面流转能力的「FPV 视角城市与深海穿越」。

结果令人印象深刻——Vidu Q3 都在极短时间内交付出了高质量的创意方案。这意味着,广告人不再需要花费高昂成本去实拍样片,在提案阶段就能直出产品营销素材,极大地降低了创意落地的试错成本。

音乐人也可以利用它制作 MV。比如仅需输入一张吉他手在红砖墙前的静态图片,辅以一句简单的指令「男人用唱歌的形式唱:welcome to vidu Q3 model」,就能生成一段媲美专业水准的演出片段。画面中,男歌手在复古灯光下深情弹唱,不仅光影质感从容,歌声与口型的匹配度更是达到了专业级水准。

对于当下处于爆发期的短剧行业而言,Vidu Q3 这种「文/图生音视频」的一站式能力,可能将大幅降低制作门槛。它压缩了冗长的拍摄、灯光、配音链条,让创作者可以更专注于故事内核的打磨。

从某种意义上说,Vidu Q3 推动了行业从单纯的「演技生成」向更复杂的「视听生成」跨越。未来,随着模型能力的迭代,AI 不再只是辅助工具,它可能成为独立的「制片厂」,让「创想无界」 真正成为现实。

一场关于内容创作范式的转移,正在发生。

*头图来源:Vidu ( https://www.vidu.cn )

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待Vidu Q3 对行业发展的推动?

用户真正想要的并不是 coding,而是成为 solo builder。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

以茶带书
2026-04-01 12:20:29
李若彤带货翻车!假洋牌'优思益'被央视实锤,小龙女道歉

李若彤带货翻车!假洋牌'优思益'被央视实锤,小龙女道歉

仙味少女心
2026-04-02 23:46:49
刚从韩国回来,说点不中听的:韩国的真实面目,可能让你很意外

刚从韩国回来,说点不中听的:韩国的真实面目,可能让你很意外

复转这些年
2026-04-03 14:03:28
天龙三号运载火箭发射失利

天龙三号运载火箭发射失利

财联社
2026-04-03 13:05:08
价格断崖式下跌!商家疯狂抛售!深圳网友:等等党赢麻了

价格断崖式下跌!商家疯狂抛售!深圳网友:等等党赢麻了

南方都市报
2026-04-01 15:16:38
美国,被伊朗拉下了神坛

美国,被伊朗拉下了神坛

清沐执笔
2026-04-03 16:54:47
张雪机车刚夺冠就遭商标抢注!无锡公司玩阴的,结局大快人心

张雪机车刚夺冠就遭商标抢注!无锡公司玩阴的,结局大快人心

商悟社
2026-04-03 08:28:14
一觉醒来伊朗最大桥梁被炸!特朗普再发通牒,伊朗:打到美以投降

一觉醒来伊朗最大桥梁被炸!特朗普再发通牒,伊朗:打到美以投降

近史博览
2026-04-03 13:53:14
伊朗议长发文嘲讽美国战机被击落

伊朗议长发文嘲讽美国战机被击落

财联社
2026-04-04 01:28:19
美众议员:如果美国民众了解到情报机构有关外星生命报告,他们将“夜不能寐”

美众议员:如果美国民众了解到情报机构有关外星生命报告,他们将“夜不能寐”

环球网资讯
2026-04-03 16:27:08
郑丽文将访问大陆,朱立伦终于表态,马英九却不吭一声,不简单

郑丽文将访问大陆,朱立伦终于表态,马英九却不吭一声,不简单

DS北风
2026-04-03 15:46:14
再见瓜迪奥拉!正式退休!不再指教任何俱乐部,巴萨计划失败

再见瓜迪奥拉!正式退休!不再指教任何俱乐部,巴萨计划失败

阿泰希特
2026-04-03 13:53:01
伊朗:击落美军先进战机,飞行员在伊境内跳伞被悬赏,或已被俘!美方曾出动“黑鹰”等试图营救但失败,被迫逃离现场

伊朗:击落美军先进战机,飞行员在伊境内跳伞被悬赏,或已被俘!美方曾出动“黑鹰”等试图营救但失败,被迫逃离现场

每日经济新闻
2026-04-03 20:48:04
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
为营救2名F-15飞行员,美军特种兵冒死突入伊朗,地面战激烈交火

为营救2名F-15飞行员,美军特种兵冒死突入伊朗,地面战激烈交火

共工之锚
2026-04-04 00:05:37
重重封锁之下,中国三艘船只过航霍尔木兹海峡,中方当众表示感谢

重重封锁之下,中国三艘船只过航霍尔木兹海峡,中方当众表示感谢

浪子阿邴聊体育
2026-04-01 21:18:34
广东女车主眼睁睁看着摇中的“3333”号牌逾期作废 原因是买的吉利星愿公告过期无法上牌

广东女车主眼睁睁看着摇中的“3333”号牌逾期作废 原因是买的吉利星愿公告过期无法上牌

信网
2026-04-03 14:01:04
伊朗确认:雷扎伊身亡

伊朗确认:雷扎伊身亡

第一财经资讯
2026-04-03 19:42:25
中央批准:林涛任福建省委常委和厦门市委书记

中央批准:林涛任福建省委常委和厦门市委书记

新浪财经
2026-04-03 17:54:42
研究首次绘制出完整的阴蒂神经网络

研究首次绘制出完整的阴蒂神经网络

生物学霸
2026-04-03 17:24:20
2026-04-04 01:55:00
极客公园
极客公园
让最棒的创新成为头条
11935文章数 78866关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

游戏
房产
时尚
亲子
数码

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

冬奥双金夫妻:爱与荣耀,顶峰相见

亲子要闻

两个孩子棒 父母也棒

数码要闻

消息称三星显示器部门面临巨大危机,最坏结果将退出中国大陆市场

无障碍浏览 进入关怀版