![]()
编辑|+0
话不多说,先来看一段短片。
![]()
大家觉得效果如何?以上短片的视听内容几乎都由生数科技最新发布的视频大模型 Vidu Q3 生成。
4 月 13 日,Vidu Q3 正式上线了「参考生视频」。值得注意的是,在全球首个参考生榜单 SuperClue 榜单上,Vidu Q3 断层登顶!多图/单图参考任务双榜第一。
![]()
过去一个月,如果你刷过短视频平台,大概率已经见过一种越来越「怪」的内容:剧情很抓人、更新很快,但仔细一看,演员不太对劲。
有新闻热议未来可能有短剧除了主角,配角全部由 AI 生成;有的公司,甚至已经开始「签约 AI 演员」,批量生产内容;还有最近爆火的「AI 漫剧」,用极低成本实现日更甚至多更,播放量动辄破百万。
![]()
红果漫剧界面。
一边是效率狂飙,一边是争议不断。
有人觉得这是内容工业化的下一步,把演员、场景、镜头全部模块化,内容可以像流水线一样生产;也有人批评,这样的作品「没有灵魂」,甚至在侵蚀创作者和演员的空间。
但不管立场如何,有一个变化已经很明确:AI 正在从「帮你做一段视频」,变成「替你完成一整段内容」。
而这,恰恰也是视频大模型这半年最关键的一次转向,行业不再只关心「生成得像不像」,而开始关心一件更现实的事:这些内容,能不能直接拿去用?
在这个背景下,Vidu Q3 的这次升级,是一次顺势而为的迭代。它并没有停留在单镜头质量的优化上,而是把重点放在了更长时间跨度里的稳定性,包括画面的一致性、逻辑的连贯性,以及多镜头之间的衔接。
这些能力,正好对应的是内容生产里最「难自动化」的那一段。
也因此,这次发布传递的信息很明确:Vidu Q3 不再只是一个「生成视频」的工具,而是开始试图嵌入到完整的内容生产流程中。
某种程度上,它正在从「素材生成器」,变成「最小化的剧组单元」。这种深度的生产力进化,正是 Vidu Q3 「为剧而生」的终极奥义。
从「生成视频」到「万物可参,声画同出」,
Vidu Q3 在改什么?
如果把生成式视频的发展过程拆开来看,本质上是在做一件事:把人类的视觉语言和叙事逻辑,一点点拆解出来,再变成可以被模型调用的能力。
放到 Vidu 的演进路径里,这个过程也很清晰,可以大致分成三个阶段:
- Q1:重新定义叙事(生成能力建立)
这是打基础的一步。模型完成了从「图像」到「视频」的跨越,开始具备对时间维度的基本理解。换句话说,它第一次能把「动起来」这件事做对。
- Q2:看 AI 演戏(演技生成出现)
在「能动」的基础上,重点开始转向「怎么动更像人」。人物的表情、肢体、情绪变化被进一步刻画,早期那种明显的僵硬感被大幅削弱,也让「看 AI 演戏」这件事第一次变得有点成立。 但问题也在这里:会演戏,并不等于能拍一整段戏。
- Q3:为剧而生(进入内容生产阶段)
到了这一阶段,目标不再是单个片段,而是「能不能讲完整一段内容」。模型开始同时处理时长、连贯性和镜头之间的关系,输出的不再只是素材,而是已经具备基本叙事结构的片段,可以直接进入实际制作流程。
具体到这次 Q3 的更新,可以把它理解为两个方向上的进一步推进:
「参考生成」从功能点变成生产方式
在实际内容制作中,一个长期存在的问题是:同一个人、同一个场景,能不能一直长得一样。
Vidu Q3 在这里做的,不只是「优化一致性」,而是把「参考生成」这件事,往更接近生产流程的方向推进了一步。
现在,人物、场景、服装这些元素,可以被当作「参考锚点」固定下来。创作者不需要每次都从头生成,而是可以把这些形象当作可复用的「资产」,在不同镜头、不同动作里反复调用。
更关键的是,这种「参考」正在被进一步泛化,从「参考一个角色」,扩展为「参考一切可被复用的内容要素」。人物可以参、场景可以参、镜头构图可以参,甚至连一段情绪、一种风格,都可以被抽象成可调用的「生产条件」。
换句话说,Vidu Q3 想做的,不只是「让画面一致」,而是把「万物可参」变成一种新的内容生产范式。
这背后带来的变化是:AI 视频不再是一次性的随机产出,而开始具备稳定复现、持续迭代的「可控生产」能力。
从「画面」走向「视听场」的整体升级
前一阶段回答的是「谁在演」,接下来要解决的,是「怎么拍、怎么听,像不像一段完整内容」。如果说前者实现了「万物可参」,那么这一阶段,真正落地的是「声画同出」
这一轮升级的核心,是把「画面 + 声音 + 镜头调度」打包成一个统一的视听系统。
特效层面,更贴近物理逻辑:不只是好看,而是开始考虑水流、碰撞、光影这些变化如何和画面节奏对上,让特效不再是「贴上去」的,而是在时序上与动作同步、在逻辑上自然地融入画面。
音效层面,更接近同步生成:声音不再完全依赖后期补充,环境音、动作音、氛围音可以和画面一起生成,甚至能做到基本的唇形对齐,让「画面完成但声音缺席」的割裂感明显减少,减少了后期制作的负担。
场景层面,更贴近实际制作习惯:针对短剧、广告等常见场景,模型内置了一些接近「导播逻辑」的处理方式,比如镜头切换和机位调度,让生成结果更容易直接进入剪辑流程。
如果放在整个制作流程中来看,这意味着模型开始接管一部分原本属于「后期 + 导演调度」的工作,而不只是生成素材本身。
实测:用 Vidu Q3
导一出好戏,总共分几步?
回到刚刚的短片,这段视频具体是如何做出来的呢?
我们选择了一个最近比较热门的话题:大厂们纷纷将 token 用量作为员工的工作评价指标之一,以及随着人形机器人的发展,甚嚣尘上的关于「打工人被替代」的担忧。基于此,我们构思了这出赛博短片来调侃一下。
首先,我们根据设定的剧情框架,生成了主要角色的设定图。
![]()
![]()
然后,把这几张设定图直接放进 Vidu 的「主体库」中,同时可以给角色选择专属的音色。这也是 Vidu 「参考生」的核心功能之一,它能保证后续画面的高度一致性。这直接解决了业内最头疼的问题之一:同一个人能不能一直长得一样?
![]()
准备就绪,我们来到第一个画面:主角因为 token 使用量不达标被大厂开除。在这里,我们使用「参考生视频」功能,直接选择刚刚入库的主角作为主体,然后输入提示词。
![]()
来看实际效果:
![]()
可以看到,画面整体不仅与我们预设的美术画风完全一致,高度贴合了提示词中的动作内容,并且还自带了平滑的运镜。也就是说,人物一致性、基础运镜自动化都不再是问题。
这就引出了我们的第二个问题:同一个场景能不能一直长得一样?
以两段画面的衔接为例,这里我们使用了 Vidu Q3 的「图生视频」功能。直接选取上一段画面的最后一帧,以及下一段画面的首帧,将它们作为首尾参考帧,然后输入提示词。
![]()
出来的效果非常丝滑,场景的空间结构也十分稳定:
![]()
在这里,跨镜头的空间一致性也得到保证。
当然,除了参考主体,我们还可以直接参考设定的环境。
![]()
在这个画面里,Vidu Q3 「视听场」的整体升级得到了全面体现。不只是画面的稳定,包括环境中其他背景人物的活动、主人公的脚步声、推门而入的开门声等环境音效,都匹配得非常准确,直接省去了大量后期拟音的工作。
![]()
下面这个镜头难度升级:画面中同时存在两个角色主体,并且还指定了「镜头上摇」这样的复杂运镜,Vidu Q3 参考生表现如何呢?
![]()
实测证明,这对 Vidu Q3 来说也不在话下。两个角色的特征依然清晰没有混淆,机位运动也精准执行了指令:
![]()
开头的整支短片,都是按照上述步骤一步步制作完成的。下面的操作就不多赘述了,从实际体验来看,整个工作流的操作非常简单,且易用性很高。
当然,除了制作这类动漫短片,Vidu Q3 在其他商业内容赛道上的表现同样亮眼。我们看下面这段短片:
![]()
在广告与电商营销方面:品牌方可以将核心产品或模特固化在「主体库」中,快速生成适配不同背景、不同创意的多版本营销短片。不仅人物与风格统一可控,还能极大提升 A/B 测试素材的跑量效率。
而在真人短剧方面:
![]()
Vidu Q3 内置的导播逻辑能很好地适应剧集高频机位切换的需求。基于多镜头连贯生成能力,它能帮助制作团队大幅降低拍摄成本,将更新周期从「月更」极限压缩至「日更」,真正实现 AI 驱动的内容工业化生产。
更实在的是,目前如果与 Vidu 企业合作 AI 真人剧,团队还有机会获得积分投资及共同宣发等生态权益,相当于直接从工具层帮创作者打通了商业闭环。某种程度上,它正在从工具,延伸到内容生产生态的一部分。
另外,此次 Q3 在视听能力上的系统性升级,也贯穿了整个生成过程。
基于内建的6 大特效引擎(粒子、流体、动力学、运镜、转场、光影)与 5 大音效矩阵(环境、动态、氛围、拟音、情绪),模型能够更自然地表达情绪变化与剧情推进。
![]()
结语
综合来看,Vidu Q3 的这轮升级,并不只是参数或效果层面的提升,而是一次更关键的位置迁移:大模型,正在从内容生产的「灵感工具」,走向真正进入生产链路的「工业工具」。
这种变化,已经在多个内容赛道中变得非常具体:
正如我们在前面的实测与场景演示中所看到的,无论是短剧的高频迭代,还是广告的批量规模化产出,这种变化已经可以用实实在在的「算账」来衡量商业价值。而更深远的影响在于,Vidu Q3 正在把影视内容工业里最昂贵的「试错成本」无限前置。
以传统影视制作为例,文本剧本现在可以被快速、低成本地转化为高视听表现力的动态分镜。导演和主创团队能够在正式砸下重金开机之前,就对光影基调、镜头语言与场景氛围形成直观判断,这不仅大幅降低了后期的返工成本,也在重塑跨部门协作的沟通标准。
为了让这些能力真正做到「即插即用」,生数科技这次不仅升级了模型,更直接端出了「Q3 全家桶」。
Vidu Q3 已完整覆盖文生、图生与参考生三大能力,以 Q3 模型为核心底座,Vidu SaaS(Vidu Agent、Vidu Claw)、Vidu MaaS(Vidu AI 开放平台,Vidu.API)全面接入核心能力,形成了一个覆盖多场景创作、生产与交付的一体化服务体系。Vidu MaaS 服务具备 0 门槛接入、极致性价比、切镜自然合理、生成速度快等优势,同时支持提示词调优、工作流适配及专项培训服务,在高峰期也能保持稳定流畅的使用体验。无论你是想快速做个创意验证,还是直接投入工业化制作,都可以在这套统一的能力底座上获得更完整、更高效的使用体验。
视频大模型正在逐渐褪去「玩具」属性,向着具备高确定性的生产基础设施迈进。而那个「参考生之王」 Vidu,显然已经做好了全面落地的准备。
目前,最新的 Q3 参考生功能已正式上线。欢迎登陆 Vidu.cn 或通过 Vidu.API 快速体验(注册时可输入邀请码:JQZXN3,即可获得 500 积分),开启你的「为剧而生」之旅。
文中视频链接:https://mp.weixin.qq.com/s/H7X6TGLLiBUFenEsC_lPzA
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.