网易首页 > 网易号 > 正文 申请入驻

灭霸带着复联放烟花!16秒,让手搓 AI 视频拥有大片即视感

0
分享至


超越 Sora 2,Vidu Q3 位居全球第二、中国第一。

作者丨王晓然

编辑丨马晓宁


快过春节了,来整一个花活儿,想看灭霸和复仇者联盟成员一起放烟花。

这段视频是在 Vidu Q3 中,仅用一段 Prompt 一次生成得来,不仅能够声画同步,高清直出,而且还能转换多个镜头,完成一个场景叙事。

Sora 之后,AI 视频生成在拼命卷时长。Sora 刚发布的时候,只能生成 5 秒左右的视频,而 Vidu 最近发布了全球首个支持音视频直出的模型 Vidu Q3 ,能实现16秒声画同出,并且叙事能力更强,在镜头控制、文字渲染、多国语言上都有所突破。

在国际权威AI基准测试机构Artificial Analysis最新公布的榜单中,生数科技的 Vidu Q3 凭借其在一致性、叙事性和音画同步上的极致表现,位居全球第二、中国第一。它不仅在评分上硬刚马斯克的 xAI Grok,更是超越了 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2,成为了领跑视频生成下半场的关键变量。


在生数科技的产品生态中,Vidu Q3 聚焦于漫剧、短剧、影视剧行业,其生成能力到底水平如何,我们用几个 Prompt 试试就知道。

01
16s,完成宫斗剧中的一次诀别

过去,AI 视频生成由于压缩能力导致的一大深层痛点在于叙事断裂,一次只能生成5-8 秒的时长,这使得生成内容更像是毫无灵魂的“素材碎片”而非逻辑完整的“叙事内容”。

基于此,创作者为了拼凑出一段30秒的剧情,不得不频繁开盲盒式地生成多个素材,再面对不同批次间光影失真、人物走形、逻辑错乱等致命伤进行后期“缝补”。

而 Vidu 不仅将单次生成时长拓展至 16 秒,更关键的是通过底层架构的革新,保证了这 16 秒内角色、场景、光影、声音、画面与叙事逻辑的高度一致性。

16 秒,在影视语言中已足以构建一个完整的叙事单元,比如一个角色从疑惑到恍然大悟的表情转变、一次从平静到冲突的对话交锋,或是一个关键道具被揭示并引发悬念的经典桥段。

为了验证 Vidu Q3 「16s音视频直出」的功力,我们重点考察它在复杂场景中能否把画面情绪、角色对白、环境音效这几股线自然地结合在一起。

拿最经典的宫斗场景为例,宫斗剧对古装场景画面、人物情绪、固定时间内的叙事节奏要求都比较高,因此输入的 prompt 了包含特写、对白和具体环境音的提示词:


生成的结果还算到位,女子眼眶泛红、声音凄厉颤抖的质问,与脸上滑落的泪珠完全同步,情绪是顶上去的。

背景里,窗外的风声和远方的丧钟声不是简单的铺底,而是随着她话音落下才隐隐浮现,把悲凉又压抑的氛围烘托了出来。对面男子冰冷的回答,其声音等语调和画面里他漠然的表情严丝合缝。

光有剧情还不够,我们想知道它在更写实、信息更嘈杂的环境里会如何表现。

因此,第二个场景来到「雨夜的伦敦火车站」,这里要求的声音元素多且密:清晰的英语对白、突出的火车汽笛、零碎的雨打顶棚声、还有作为背景模糊处理的广播。


生成效果可以说是没有瑕疵,西装男焦急的脚步声始终保持在最前面且十分清晰,而汽笛声随着火车驶进站内开始由远及近响起,淅淅沥沥的雨声很轻没有抢戏。并且其中London 站牌的名字居然都拼对了,这个也是 Vidu Q3 的重要能力,具体测评渲染能力的案例稍后展示。

这一条视频的细节可以说是令人惊喜的,可以见得,Vidu Q3 的声音分层与空间感构建能力、主次音源处理能力、模拟出的真实环境混响能力都很顶。

对于节奏极快、音画切换频繁的现代音乐内容,我们采用图生视频的方式测试纽约街头的说唱。


结果生成的视频让人很有代入感,rapper 激昂的说唱嘴型与鼓点、贝斯的节奏卡得非常准,每个重音都砸在了剪辑点上。镜头在手势、表情和面部特写间的快速切换,也完美踩在了音乐的律动上。

02
大师级运镜,短剧中巴掌扇得更丝滑

AI视频生成中,最常遇到的一个穿帮点就是镜头语言。

许多模型能生成一段几秒的稳定画面,但一旦涉及镜头切换、视角转换、景别变化,问题就会出现。可能在运镜过程中出现画面主体扭曲、场景撕裂,更常见的是,多镜头之间缺乏叙事节奏和情绪连贯性,看起来像几段独立视频的生硬拼接。

可以说,「多镜头运镜」是区分「会动的画」和「有叙事感的视频」的核心能力,它考验的是模型对空间连续性、时间逻辑和视觉叙事语法的综合理解。

先测试看一个快节奏短剧中的镜头切换,选用短剧中常见的咖啡厅决裂戏码:


这个片段最惊艳的地方在于节奏感抓得很准很舒服。特写镜头里戒指的反光细节很真实,切到近景时,男士说话的口型跟台词对得很严,女士站起来后的头发的飘动很自然,扇巴掌的动作、声音也足够丝滑。

接下来测试最考验节奏感的动作场景。提示词明确要求了“特写→远景→中景”的快速切换。


整个片段可以说是一气呵成了。特写镜头中惊恐的双眼和汗珠极具张力;切至远景时,黑影在巷尾的闪动自然且位置连贯;切回中景时,主角朝向镜头的奔跑与之前的空间关系完全吻合。

更出色的是,音效与镜头实现了精准配合:特写时喘息声很近,切远景时声音随之拉远并突出脚步回声,切回中景时喘息声再次迫近。

第二个场景侧重视角转换,第一人称→全景→特写,也伴随氛围变化的运镜。


从实际表现来看,切换到镜头二的全景时,人物与石门的巨大比例对比震撼,且视角转换无比自然,没有出现「跳帧」或场景重置;镜头三对石门图腾的特写,可以看作是全景镜头的自然推进与聚焦。

03
渲染能力出色,漫剧轻松拿捏

对于生成式 AI 视频而言,能否稳定、精准地生成与画面风格融合的文字,往往是其能否胜任“专业级制作”的硬性门槛。

过往很多模型在渲染文字时,容易出现笔画错乱、字符闪烁、风格撕裂,或者与画面光影严重不符的情况,这使得生成的内容很难直接用于对细节有要求的商业短片、漫剧或剧情向内容。

Vidu Q3 具有较强的文字渲染能力,可精准渲染中、英、日三种文字。先从一个相对静态但要求极高的场景开始:产品展示,要求生成一架无人机,机翼上需清晰呈现具有金属蚀刻感的英文「Vidu Q3」。


效果表现中,无人机的极简设计感十足,而机翼侧面的“Vidu Q3”字样并非简单“贴”上去,而是真正模拟出了金属蚀刻的质感和深度。随着无人机缓缓旋转,文字表面的反光与外壳一同折射出细腻的夕阳余晖,光影变化自然统一。

接下来,挑战一下风格化与动态渲染:一个热血日漫风格的场景,包含动态的日语喊话。


这个案例综合展示了 Vidu Q3 的综合能力,一是对特定艺术风格(日漫)的精准把握,二是在极限动态场景中,保持画面、音效超高同步性与表现力。

最后测试一个充满张力的古装武侠场景,包含中文对白和激烈的动作戏。


Vidu Q3 的这个画面美感是超出预期。在激烈的武打动作中,能够很好地保持画面的稳定和连贯,证明了其对中文对白字幕的专业化处理能力,并且在这一效果中,字幕成为了增强叙事沉浸感的一部分,而非后期生硬的添加。这种生成程度已经可以应用于短剧、漫剧制作等场景中了。

04
结语

2024 年,AI 视频生成行业崭露头角,经过两年时间的发展,整个行业则会向更成熟的方向发展。

Vidu Q3 的意义不仅仅在于“16秒的音视频直出”和“中国第一”,也许其更广泛的意义在于,在降低视频制作门槛的同时还增加了精准的控制程度。

「控制」二字似乎从未远离过影视制作行业,从演员对神态、语言的控制,到导演对画面、风格的控制,再到到摄影师对镜头、画面的控制,这是贯穿视频制作始终的二字。

而要实现内容的完美呈现和控制,过去这需要包括导演、摄影师、后期特效等一个专业团队反复打磨才能精准实现。

现在来看,Vidu Q3 能让专业的内容创作者直接“调度”角色姿态、运镜方式、场景细节乃至情绪氛围,实现精细化的“导演级”控制,脑海中抽象的创意可以快速、精准地转化为高质量的视频片段。

除此之外,影视行业中常常受限于实拍成本、演员档期、特效预算或特殊场地。这些传统的问题也能被有效弥合,Vidu Q3 极大地降低了高质量视觉内容的制作门槛,作者可以无成本地生成现实中难以拍摄或造价高昂的场景。

不仅如此,Vidu Q3 让普通的门外汉,也能制作出有审美、有品味的大片。回想当时抖音的出现,降低了人们进行内容表达的门槛,让即使受教育程度不高的人,只需点一下「录制」的圆形按钮,就能自由地使用视频这种去表达自己的观点和内容。

而如今的Vidu Q3正在做着类似的事情。 Vidu Q3 不再是束之高阁的AI玩具,而是有能力真正深入到了漫剧、短剧、影视剧的制作核心。

Vidu Q3体验地址:https://www.vidu.cn

Vidu API地址:https://platform.vidu.cn

登陆 Vidu.cn 注册,使用 AI 科技评论邀请码:AIKJPL,即可获得500积分。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
麻将、关系、性生活是县城的底色!

麻将、关系、性生活是县城的底色!

黯泉
2026-03-28 15:09:09
最后一天取消访华,不到72小时,韩国政府宣布:对中国加税

最后一天取消访华,不到72小时,韩国政府宣布:对中国加税

环球Talk
2026-03-28 12:55:12
41岁单亲妈妈因“涉黑”被羁押821天后无罪释放,申请国家赔偿仅13天就被叫停,法院认定无罪警方又以骗贷为由再立案,检察院回应

41岁单亲妈妈因“涉黑”被羁押821天后无罪释放,申请国家赔偿仅13天就被叫停,法院认定无罪警方又以骗贷为由再立案,检察院回应

大风新闻
2026-03-28 12:10:12
张雪峰为什么配享太庙

张雪峰为什么配享太庙

黔有虎
2026-03-28 17:25:42
百度和高德地图对比怎样?网友的评论真是让我有了选择

百度和高德地图对比怎样?网友的评论真是让我有了选择

侃神评故事
2026-02-22 11:45:03
张雪峰穷人思维很严重?身家5亿骑电驴,吃外卖,400元自助餐嫌贵

张雪峰穷人思维很严重?身家5亿骑电驴,吃外卖,400元自助餐嫌贵

魔都姐姐杂谈
2026-03-28 13:06:09
供应“告急”!100多家化工厂暂停报价!

供应“告急”!100多家化工厂暂停报价!

北方农资周刊
2026-03-28 09:07:32
特斯拉全新SUV曝光!

特斯拉全新SUV曝光!

电动知家
2026-03-28 18:35:20
现实版钢铁侠:乌克兰战斗机器人独守阵地45天,毙敌43人

现实版钢铁侠:乌克兰战斗机器人独守阵地45天,毙敌43人

史政先锋
2026-03-28 15:09:53
马斯克赌对了?全球首个数字生命问世,人类或将脱离肉体实现永生

马斯克赌对了?全球首个数字生命问世,人类或将脱离肉体实现永生

思思夜话
2026-03-27 13:26:40
以军参谋长说以军常规部队已崩溃

以军参谋长说以军常规部队已崩溃

财联社
2026-03-28 21:44:13
太原闹市区一高层建筑突发大火26死伤:可怕画面曝出,目击者发声

太原闹市区一高层建筑突发大火26死伤:可怕画面曝出,目击者发声

博士观察
2026-03-28 22:50:47
打!赔光1770亿也要打!以色列最新民调:75%民众要求打到底

打!赔光1770亿也要打!以色列最新民调:75%民众要求打到底

砚底沉香
2026-03-28 15:45:02
伊朗武装部队发言人:伊朗正在制定战争结束条件

伊朗武装部队发言人:伊朗正在制定战争结束条件

财联社
2026-03-28 04:50:19
“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

新京报评论
2026-03-28 19:40:57
崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

黯泉
2026-03-28 20:41:06
“华人神探”李昌钰辞世:去年确诊脑瘤,去世前两天刚完成新书初稿

“华人神探”李昌钰辞世:去年确诊脑瘤,去世前两天刚完成新书初稿

大风新闻
2026-03-28 15:20:15
好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

阿纂看事
2026-03-28 18:44:03
广东:坚决拥护党中央决定

广东:坚决拥护党中央决定

新京报政事儿
2026-03-27 22:17:04
老登们别再玩命运动了!日本人不跑马拉松、少去健身房,却活成全球最长寿

老登们别再玩命运动了!日本人不跑马拉松、少去健身房,却活成全球最长寿

日本物语
2026-03-27 21:09:48
2026-03-29 02:36:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7154文章数 20742关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

游戏
艺术
数码
本地
公开课

《异替》现已登陆Steam

艺术要闻

不可思议的芭蕾之美,竟让人屏息凝视!

数码要闻

苹果或重启与长江存储合作 国行机型拟采用国产NAND

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版