网易首页 > 网易号 > 正文 申请入驻

实测可灵2.6:给AI视频上了一堂声音课

0
分享至


中文视频AI迈入“有声之年”。

作者|景行

编辑|杨舟

不得不感叹AI大模型的进步速度。

12月,可灵AI先是发布统一多模态视频大模型可灵O1,紧接着闪电发布可灵2.6、数字人2.0。

可灵2.6的发布,则让困扰视频工作者已久的声画不同步问题得到解决,其核心功能就是音画同出,简单理解,一次生成,能同时做出视频和音频,而且二者实时同步。

其中,可选的音频效果不仅涵盖人声对话、独白,还提供环境音、效果音、乐器演奏乃至说唱等完整的音频生态。

在此之前,部分海外视频模型已经在音画同出领域做出探索,如Google Veo 3.1和OpenAI Sora 2,二者均能实现从口型到动作、声音的同步生成,并与画面完成匹配。

但这些模型同样存在弱点,如音频控制力不足,同角色的不同片段声音、语气统一效果一般,对中文语音的理解不足导致腔调怪异,用户调整困难等等。

在可灵2.6发布后,「市象」也在第一时间试用了产品。在一系列测试后,可以确认的是,AI视频模型,要对过去的创作流程彻底重构了。

01从哑剧到声临其境

AI视频的音画同出,并非最新功能,此前已有多模型能做到。

“Sora 2是视频生成领域的 GPT-3.5时刻。”

这一表述来自今年9月,OpenAI的官方博客。伴随新一代视频生成模型Sora2发布,OpenAI公开表示,新模型的性能已经超越历代模型,不仅在物理效果上更加精确,同时还配备了同步音频功能。

例如,在生成视频时,能完成复杂的运动动作,或模拟真实运动场的物理表现,同时生成背景音、语音和音效,并将其融入到视频当中。

但面对Sora2、Veo3.1这样的海外一线模型时,不少海外博主,表现出对可灵2.6的认可。

“这比Veo3好多了!相比Veo3,它最大的优势在于:原生支持1080p,这在画质上带来了巨大的提升。”

这一表述来自海外视频博主Simon Meyers,在分享中,他使用可灵2.6制作了一则预告片,并用各种复杂的提示词来测试模型功能:

“我尝试了各种声音和对话,没有发现任何明显的限制——音效、人声,甚至歌声都能完美呈现!当然,和所有视频模型一样,你仍然需要进行一些迭代,但这完全可以接受。语音听起来很逼真,语调也十分精准,总的来说,这是一个巨大的飞跃。”


在这段不到一分钟时长的作品中,观众可以直观感受到可灵2.6对音画生成的理解:

单人独白、背景歌曲、视频氛围音效、吉他弹奏声(甚至有远景和近景下,两种吉他音的不同表现)、歌唱声、打击乐器声、气球、搅拌器、电钻、无人机、甚至结尾字幕配合的女声吟唱,多种复杂音频出现在同一作品中,互不干扰,并与画面完美融合。

另一视频博主Curious Refuge选择用新的方式测试可灵2.6——用四组画面和生成词,分别交给Veo3.1和可灵2.6,分别是俯拍镜头,两位骑士骑马穿越森林;推镜头,食客在面馆吃拉面;特写镜头,男子在帆船上独白;固定中景镜头,男子吃掉饼干,并与宠物狗交流。

结论是,可灵2.6的表现令人意外。


在各项对比中,可灵2.6在多个测试成绩上要超过Veo3.1,如场景生成、相机运动更符合生成词等等。尽管在Veo 3.1的输出结果中,也有部分表现出色,如音频更为洪亮,但该博主的结论是,在这一轮测试中,可灵2.6略占上风。

事实上,除音画协同外,可灵2.6还重点强化了音频质量和语义理解。前者会让各类音效层次更丰富、接近真实世界的声音效果;后者则让AI对复杂剧情的理解能力更强,理解作者意图。

更多音频元素的融入,则让AI视频效果直逼现实。除了单人讲话外,可灵2.6支持多人多白、不同风格歌声、环境音、物理音效,乃至多种音频组合的混合音效。

这意味着,创作者只需要通过文本描述,就能还原一个物理世界多重环境音的层次感与空间感,获得一个无需后期修改的完整作品。

02重构工作流

过去的AI视频模型,创作者的工序大概是这样几步:

创作者思考创意,确定文字脚本、画面分镜等方向——由AI生成文、图等素材——进一步通过素材生成视频——后期生成配音和音效,并校对完成。

其中,后期制作是最为耗时的环节之一。对剪辑从业者来说,无论是语音、效果音的制作和筛选,还是视频的后期对轴,将音效与画面逐帧对齐,这一工作对视频质量的影响极大,不仅依赖经验,且过程繁琐,需要在视频工具、音频工具中反复切换,

这让可灵2.6的新功能重要性更为突出。在创作时,用户只需输入画面、动作、声音的三要素精确描述,就能获得一段高质量的AI视频。

这意味着,无论用户是否有AI视频创作经验,都能在可灵2.6模型中体验无门槛的创作流程。

具体方法十分简单,在Web端可灵页面中选择视频生成,文生视频、图生视频均可选择,在下方勾选“音画同出”,并选择品质模式、画面比例和产出条数,输入生成词或参考图即可。


需要注意的是,要生成一条满意的AI音画直出视频,用户最好能对视频画面、动作、声音三要素进行精确描述,如画面细节,人物情绪、语速等。

「市象」选择文生视频的方式,首先测试可灵2.6对歌曲、乐器的理解能力,生成词如下:

光线明亮的演播室,歌手正在一边弹奏吉他,发出悠扬的吉他音乐声,一边用温柔的声音演唱中文歌曲。

可以看到,视频中歌手不仅通过自弹自唱方式演唱了一段原创歌曲,且口型、弹奏动作画面与声音形成契合。整个视频不仅能实现画面流畅、光影自然,在音频层面则能做到旋律清晰,吉他演奏声与人声演唱层次分明,互不干扰。

再如这段生成词:中景,慢速推镜头,雨声比较大的阴雨天,有短促的闪电,满脸泥泞的消防员在雨中说,很高兴,我们成功扑灭了大火。

从视频效果看,可灵按要求还原了雨天场景,同时表现出了雨水落在帽子上的物理效果,人物的独白声则与背景的雨声独立开来,形成有层次的混合音效体验。

03当AI学会说话

在与罗永浩的播客对谈中,影视飓风创始人TIM曾有这样一番表述:在AI面前,创作者10年的努力都没有价值。最多两年,AI就能替换掉一个非常优秀的剪辑师。

从产业场景来看,视频AI正以闪电速度,从自媒体创意辅助者向全能的视频生产力工具转变。特别是可灵2.6将视频模型音画协同能力大幅提升后,一些过去依赖人工完成的创作工作,在AI面前将失去性价比优势。

例如在电商场景下,人工解说的效率将难以匹敌AI。

未来的电商市场,一款产品的商品图片,可以由商家自主拍摄上传,商品卖点的口播,则可以由AI解说完成,具体到使用场景,AI可以帮助商家轻易搭建任何高成本、电影级质感的视频背景,并清晰传递出产品优势。如果凭借人力完成,其成本无疑将是天文数字。

在广告场景下,视频AI则有更大的发挥空间。

以可灵2.6的演示视频为例,模型可高质量完成镜头调度、分镜设计、音频设计、配乐设计、动作设计、音画结合等创作者近乎全方位的意图。

在过去,一条一分钟左右的广告宣传片制作周期可能要花费数周,策划、摄影、剪辑、配音、后期等工种则需要全程跟进,确保最终产出符合创意规划。

如今借助AI模型,创作者只需将创意交给AI来跑,借助文本生成、图片生成等方式产出多个音画协同的视频作品并加以筛选,一些涉及到虚拟形象、特效等后期工作的效果,则能通过AI在几分钟内实现。

比如文本描述“生成一些精灵,用手举起目标产品”“让商品跨出国门,飞向世界各地”等,这不仅效率大幅提高,更降去了大部分成本。

可以说,只要一个行业存在视频内容的产出需求,类似的改变就将持续发生。如自媒体创作、直播、播音传媒、音乐MV、影视制作等等。

一个肉眼可见的改变是,在短视频平台,部分经史人文类博主已经率先应用AI生成视频素材,以节约创作时间。随着可灵2.6发布,中文视频模型音画协同技术成熟,留给博主的创作空间还将进一步拓展。

对所有相关从业者而言,这场声音革命都迫使人思考,当长周期重投入的生产模式变成即时批量生产,当AI学会自己发声,人应该掌握的,应当是把握创意和审美,教AI讲好故事。

本文为《市象》原创文章

未经授权不得转载或建立镜像

转载、交流、合作请添加微信:MingFei_99

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
读卫校时去同学家玩,对他姐姐一见钟情,3年后我成了同学的姐夫

读卫校时去同学家玩,对他姐姐一见钟情,3年后我成了同学的姐夫

农村情感故事
2025-04-12 08:00:16
伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

小樾说历史
2026-04-20 14:52:25
讨好大佬陪睡上位?遭央视“开除”?曾是央视女主持谣言有多荒诞

讨好大佬陪睡上位?遭央视“开除”?曾是央视女主持谣言有多荒诞

小椰的奶奶
2026-04-22 00:11:24
岛内风向变了?台当局喊话大陆:若时机成熟,愿主动与大陆协商

岛内风向变了?台当局喊话大陆:若时机成熟,愿主动与大陆协商

兰妮搞笑分享
2026-04-21 20:50:18
三路齐发,我国连航母都出动了!日本这次真惹错人了!

三路齐发,我国连航母都出动了!日本这次真惹错人了!

阿龙聊军事
2026-04-21 05:48:33
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

十点读书
2026-04-18 18:36:15
被婆婆赶出家门那年,我带着行李箱净身出户,三年后她主动登门

被婆婆赶出家门那年,我带着行李箱净身出户,三年后她主动登门

老红点评社
2026-04-21 09:57:17
计划得逞后马筱梅终于笑了!自爆搬到大别墅,百日宴会办得很盛大

计划得逞后马筱梅终于笑了!自爆搬到大别墅,百日宴会办得很盛大

小娱乐悠悠
2026-04-21 14:53:36
记者在横店见到他时,他在角落吃凉透的盒饭

记者在横店见到他时,他在角落吃凉透的盒饭

澎湃新闻
2026-04-15 11:31:12
埃安-AION S Plus价格再下探!最高5万优惠,网友:就它了

埃安-AION S Plus价格再下探!最高5万优惠,网友:就它了

汽车网评
2026-04-21 23:03:26
郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

米果说识
2026-04-21 16:58:00
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明一个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明一个问题

大熊欢乐坊
2026-04-19 12:07:22
铁丝、死蛙、放狗吓鸟,网友称广州多个公园出现“诱拍装置”,园方回应

铁丝、死蛙、放狗吓鸟,网友称广州多个公园出现“诱拍装置”,园方回应

环球网资讯
2026-04-21 15:13:44
消息人士称伊朗不会参加22日的美伊谈判

消息人士称伊朗不会参加22日的美伊谈判

财联社
2026-04-22 03:48:16
2012年二炮军官沈星逾期未归,部队急电查实,四岁女儿接通电话后的答复刺痛无数人

2012年二炮军官沈星逾期未归,部队急电查实,四岁女儿接通电话后的答复刺痛无数人

寄史言志
2026-04-14 21:07:15
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

人间颂
2026-04-20 10:16:00
谢杏芳没想到,林丹出轨9年后,竟会因这一举动,实现口碑逆转

谢杏芳没想到,林丹出轨9年后,竟会因这一举动,实现口碑逆转

科学发掘
2026-04-21 12:50:46
马斯克也压抑了?转发《GTA》大雷美女视频!

马斯克也压抑了?转发《GTA》大雷美女视频!

游民星空
2026-04-21 17:19:29
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
伊朗之后特朗普真会对古巴动手吗?多重制约下动武可能性不大

伊朗之后特朗普真会对古巴动手吗?多重制约下动武可能性不大

澎湃新闻
2026-04-21 14:14:39
2026-04-22 04:31:00
市象 incentive-icons
市象
研究真问题,书写真洞察。
445文章数 25关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

健康
旅游
教育
家居
手机

干细胞抗衰4大误区,90%的人都中招

旅游要闻

京城今春“滨水+”玩法迭代

教育要闻

对不起,我有点“抠”

家居要闻

诗意光影 窥见自然之境

手机要闻

iOS 26.5 Beta 3新版体验:改进解锁流畅度,信号也变好了?

无障碍浏览 进入关怀版