网易首页 > 网易号 > 正文 申请入驻

实测可灵2.6:给AI视频上了一堂声音课

0
分享至


中文视频AI迈入“有声之年”。

作者|景行

编辑|杨舟

不得不感叹AI大模型的进步速度。

12月,可灵AI先是发布统一多模态视频大模型可灵O1,紧接着闪电发布可灵2.6、数字人2.0。

可灵2.6的发布,则让困扰视频工作者已久的声画不同步问题得到解决,其核心功能就是音画同出,简单理解,一次生成,能同时做出视频和音频,而且二者实时同步。

其中,可选的音频效果不仅涵盖人声对话、独白,还提供环境音、效果音、乐器演奏乃至说唱等完整的音频生态。

在此之前,部分海外视频模型已经在音画同出领域做出探索,如Google Veo 3.1和OpenAI Sora 2,二者均能实现从口型到动作、声音的同步生成,并与画面完成匹配。

但这些模型同样存在弱点,如音频控制力不足,同角色的不同片段声音、语气统一效果一般,对中文语音的理解不足导致腔调怪异,用户调整困难等等。

在可灵2.6发布后,「市象」也在第一时间试用了产品。在一系列测试后,可以确认的是,AI视频模型,要对过去的创作流程彻底重构了。

01从哑剧到声临其境

AI视频的音画同出,并非最新功能,此前已有多模型能做到。

“Sora 2是视频生成领域的 GPT-3.5时刻。”

这一表述来自今年9月,OpenAI的官方博客。伴随新一代视频生成模型Sora2发布,OpenAI公开表示,新模型的性能已经超越历代模型,不仅在物理效果上更加精确,同时还配备了同步音频功能。

例如,在生成视频时,能完成复杂的运动动作,或模拟真实运动场的物理表现,同时生成背景音、语音和音效,并将其融入到视频当中。

但面对Sora2、Veo3.1这样的海外一线模型时,不少海外博主,表现出对可灵2.6的认可。

“这比Veo3好多了!相比Veo3,它最大的优势在于:原生支持1080p,这在画质上带来了巨大的提升。”

这一表述来自海外视频博主Simon Meyers,在分享中,他使用可灵2.6制作了一则预告片,并用各种复杂的提示词来测试模型功能:

“我尝试了各种声音和对话,没有发现任何明显的限制——音效、人声,甚至歌声都能完美呈现!当然,和所有视频模型一样,你仍然需要进行一些迭代,但这完全可以接受。语音听起来很逼真,语调也十分精准,总的来说,这是一个巨大的飞跃。”


在这段不到一分钟时长的作品中,观众可以直观感受到可灵2.6对音画生成的理解:

单人独白、背景歌曲、视频氛围音效、吉他弹奏声(甚至有远景和近景下,两种吉他音的不同表现)、歌唱声、打击乐器声、气球、搅拌器、电钻、无人机、甚至结尾字幕配合的女声吟唱,多种复杂音频出现在同一作品中,互不干扰,并与画面完美融合。

另一视频博主Curious Refuge选择用新的方式测试可灵2.6——用四组画面和生成词,分别交给Veo3.1和可灵2.6,分别是俯拍镜头,两位骑士骑马穿越森林;推镜头,食客在面馆吃拉面;特写镜头,男子在帆船上独白;固定中景镜头,男子吃掉饼干,并与宠物狗交流。

结论是,可灵2.6的表现令人意外。


在各项对比中,可灵2.6在多个测试成绩上要超过Veo3.1,如场景生成、相机运动更符合生成词等等。尽管在Veo 3.1的输出结果中,也有部分表现出色,如音频更为洪亮,但该博主的结论是,在这一轮测试中,可灵2.6略占上风。

事实上,除音画协同外,可灵2.6还重点强化了音频质量和语义理解。前者会让各类音效层次更丰富、接近真实世界的声音效果;后者则让AI对复杂剧情的理解能力更强,理解作者意图。

更多音频元素的融入,则让AI视频效果直逼现实。除了单人讲话外,可灵2.6支持多人多白、不同风格歌声、环境音、物理音效,乃至多种音频组合的混合音效。

这意味着,创作者只需要通过文本描述,就能还原一个物理世界多重环境音的层次感与空间感,获得一个无需后期修改的完整作品。

02重构工作流

过去的AI视频模型,创作者的工序大概是这样几步:

创作者思考创意,确定文字脚本、画面分镜等方向——由AI生成文、图等素材——进一步通过素材生成视频——后期生成配音和音效,并校对完成。

其中,后期制作是最为耗时的环节之一。对剪辑从业者来说,无论是语音、效果音的制作和筛选,还是视频的后期对轴,将音效与画面逐帧对齐,这一工作对视频质量的影响极大,不仅依赖经验,且过程繁琐,需要在视频工具、音频工具中反复切换,

这让可灵2.6的新功能重要性更为突出。在创作时,用户只需输入画面、动作、声音的三要素精确描述,就能获得一段高质量的AI视频。

这意味着,无论用户是否有AI视频创作经验,都能在可灵2.6模型中体验无门槛的创作流程。

具体方法十分简单,在Web端可灵页面中选择视频生成,文生视频、图生视频均可选择,在下方勾选“音画同出”,并选择品质模式、画面比例和产出条数,输入生成词或参考图即可。


需要注意的是,要生成一条满意的AI音画直出视频,用户最好能对视频画面、动作、声音三要素进行精确描述,如画面细节,人物情绪、语速等。

「市象」选择文生视频的方式,首先测试可灵2.6对歌曲、乐器的理解能力,生成词如下:

光线明亮的演播室,歌手正在一边弹奏吉他,发出悠扬的吉他音乐声,一边用温柔的声音演唱中文歌曲。

可以看到,视频中歌手不仅通过自弹自唱方式演唱了一段原创歌曲,且口型、弹奏动作画面与声音形成契合。整个视频不仅能实现画面流畅、光影自然,在音频层面则能做到旋律清晰,吉他演奏声与人声演唱层次分明,互不干扰。

再如这段生成词:中景,慢速推镜头,雨声比较大的阴雨天,有短促的闪电,满脸泥泞的消防员在雨中说,很高兴,我们成功扑灭了大火。

从视频效果看,可灵按要求还原了雨天场景,同时表现出了雨水落在帽子上的物理效果,人物的独白声则与背景的雨声独立开来,形成有层次的混合音效体验。

03当AI学会说话

在与罗永浩的播客对谈中,影视飓风创始人TIM曾有这样一番表述:在AI面前,创作者10年的努力都没有价值。最多两年,AI就能替换掉一个非常优秀的剪辑师。

从产业场景来看,视频AI正以闪电速度,从自媒体创意辅助者向全能的视频生产力工具转变。特别是可灵2.6将视频模型音画协同能力大幅提升后,一些过去依赖人工完成的创作工作,在AI面前将失去性价比优势。

例如在电商场景下,人工解说的效率将难以匹敌AI。

未来的电商市场,一款产品的商品图片,可以由商家自主拍摄上传,商品卖点的口播,则可以由AI解说完成,具体到使用场景,AI可以帮助商家轻易搭建任何高成本、电影级质感的视频背景,并清晰传递出产品优势。如果凭借人力完成,其成本无疑将是天文数字。

在广告场景下,视频AI则有更大的发挥空间。

以可灵2.6的演示视频为例,模型可高质量完成镜头调度、分镜设计、音频设计、配乐设计、动作设计、音画结合等创作者近乎全方位的意图。

在过去,一条一分钟左右的广告宣传片制作周期可能要花费数周,策划、摄影、剪辑、配音、后期等工种则需要全程跟进,确保最终产出符合创意规划。

如今借助AI模型,创作者只需将创意交给AI来跑,借助文本生成、图片生成等方式产出多个音画协同的视频作品并加以筛选,一些涉及到虚拟形象、特效等后期工作的效果,则能通过AI在几分钟内实现。

比如文本描述“生成一些精灵,用手举起目标产品”“让商品跨出国门,飞向世界各地”等,这不仅效率大幅提高,更降去了大部分成本。

可以说,只要一个行业存在视频内容的产出需求,类似的改变就将持续发生。如自媒体创作、直播、播音传媒、音乐MV、影视制作等等。

一个肉眼可见的改变是,在短视频平台,部分经史人文类博主已经率先应用AI生成视频素材,以节约创作时间。随着可灵2.6发布,中文视频模型音画协同技术成熟,留给博主的创作空间还将进一步拓展。

对所有相关从业者而言,这场声音革命都迫使人思考,当长周期重投入的生产模式变成即时批量生产,当AI学会自己发声,人应该掌握的,应当是把握创意和审美,教AI讲好故事。

本文为《市象》原创文章

未经授权不得转载或建立镜像

转载、交流、合作请添加微信:MingFei_99

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马VS贝蒂斯:法国兽腰坐镇 居莱尔+贝林厄姆领衔 皇马太子冲锋

皇马VS贝蒂斯:法国兽腰坐镇 居莱尔+贝林厄姆领衔 皇马太子冲锋

零度眼看球
2026-01-04 08:43:28
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

民间平哥
2025-12-25 14:54:58
俄罗斯武器形同虚设,两名俄军高级军官在委内瑞拉遭美军击毙

俄罗斯武器形同虚设,两名俄军高级军官在委内瑞拉遭美军击毙

娱宙观
2026-01-03 23:23:58
美国抓捕马杜罗,带来三个问题

美国抓捕马杜罗,带来三个问题

慢歌轻步谣
2026-01-04 04:19:35
扛不住了!又一波小区物业费降了,上海…

扛不住了!又一波小区物业费降了,上海…

新浪财经
2026-01-03 20:07:22
重磅!你好,第一中锋!快船2换1交易方案...

重磅!你好,第一中锋!快船2换1交易方案...

技巧君侃球
2026-01-03 14:40:52
“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

李云飞Afey
2026-01-01 12:52:31
知名网红“表哥”覃进展破产,曝原因惹争议,已搬到农村

知名网红“表哥”覃进展破产,曝原因惹争议,已搬到农村

揽星河的笔记
2025-12-27 14:20:24
陈佩斯元旦与妹妹陈丽达一家聚餐,妹夫张山也在,一大家子好热闹

陈佩斯元旦与妹妹陈丽达一家聚餐,妹夫张山也在,一大家子好热闹

好贤观史记
2026-01-03 10:13:38
原来他已经去世8年,45岁就英年早逝,王宝强张译在他葬礼上痛哭

原来他已经去世8年,45岁就英年早逝,王宝强张译在他葬礼上痛哭

LULU生活家
2026-01-03 18:03:44
越南谈79年中越战争:虽然得知中国出兵时间,但没想到势头如此猛

越南谈79年中越战争:虽然得知中国出兵时间,但没想到势头如此猛

历史龙元阁
2026-01-03 13:35:06
99后清纯女神!19岁出道即爆红,颜值让人过目难忘

99后清纯女神!19岁出道即爆红,颜值让人过目难忘

素然追光
2026-01-04 00:27:06
4499 元, 2026 年苹果首款新iPhone 来了!

4499 元, 2026 年苹果首款新iPhone 来了!

科技堡垒
2026-01-03 11:50:36
中国动“真格”了!中方霸气警告:90天内不给358亿赔偿金

中国动“真格”了!中方霸气警告:90天内不给358亿赔偿金

趣生活
2025-12-31 20:59:47
尼日尔赖掉4亿美元,驱逐中企高管,中方暗藏底牌漂亮反击

尼日尔赖掉4亿美元,驱逐中企高管,中方暗藏底牌漂亮反击

南冥那只猫
2025-05-11 10:33:43
委内瑞拉总统宣布国家紧急状态

委内瑞拉总统宣布国家紧急状态

每日经济新闻
2026-01-03 16:40:39
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
妻子在家偷情58次,丈夫拍下视频称“爽死”,简直堪比大片!

妻子在家偷情58次,丈夫拍下视频称“爽死”,简直堪比大片!

小飞爱生活1987
2025-12-30 19:08:45
香港只认这23所内地大学!17所985集体出局,分数高也没用

香港只认这23所内地大学!17所985集体出局,分数高也没用

Delete丨CC
2026-01-02 21:12:43
马杜罗夫妇熟睡中被拖出卧室!特朗普:观看了抓捕过程,美军撞开大门几秒钟把人带出!俄呼吁美释放马杜罗

马杜罗夫妇熟睡中被拖出卧室!特朗普:观看了抓捕过程,美军撞开大门几秒钟把人带出!俄呼吁美释放马杜罗

每日经济新闻
2026-01-03 23:52:12
2026-01-04 09:20:49
市象 incentive-icons
市象
研究真问题,书写真洞察。
375文章数 20关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

委内瑞拉致函联合国 提出四项具体要求

头条要闻

委内瑞拉致函联合国 提出四项具体要求

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

数码
本地
手机
公开课
军事航空

数码要闻

映众5060 Ti超级冰龙显卡采用8-Pin供电,预留12V-2×6焊盘

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

手机要闻

真我Neo8真机偷跑:觉醒光环+金属中框 辨识度拉满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普公布马杜罗被捕后照片

无障碍浏览 进入关怀版