网易首页 > 网易号 > 正文 申请入驻

AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费

0
分享至

文 | 乌鸦智能说

这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。

目前最顶尖的工具如Sora生成的视频都是没有声音的,而声音是让AI视频变得更为真实的重要一步。如果AI能完成从脚本/图片-视频-配音的工作流,那才是真的完美。

昨日凌晨,谷歌DeepMind悄悄发布了V2A(Video-to-Audio)系统。这个系统能根据画面内容或者手动输入的提示词直接为视频配音。

没过几小时,另一个AI音频克隆“扛把子”ElevenLabs就发布了文字到音频模型的API,并基于这一API做了一个Demo应用。这是当前唯一一个全自动将视频与音频相结合的AI工具,且完全开源、免费在线使用。

花开两朵,各表一枝。由于谷歌并不打算向公众开放V2A系统,那我们就先试用一下ElevenLabs的这个版本~

看懂+对齐,生成全自动,但不能理解复杂画面

AI视频告别无声,ElevenLabs为“徒手”制作大片的AI工作流补上最后一笔,我已经迫不及待,马上就要为前几天做出来的AI生产视频加上配音了。(工具体验:https://www.videotosoundeffects.com/)

▲ElevenLabs生成配音视频step1→step2

我将luma生成的着火meme视频、OpenAI成员暴走视频、电影《闪灵》视频等,以及Gen-3的示例视频都投喂给了ElevenLabs,看看它会为这些画面配上什么声音。

效果还不错呀!其中,“某个歌手在独唱”、“一个女人奔向正在发射的火箭”、“白头发女人大笑”等等配音跟场景很契合,“水下呼吸的女人”、“一个男人身后燃起大火”的视频配音逼真细腻,非常有大片感。

经过约20个视频的试炼,ElevenLabs能自动生成与视频内容同步的音轨,而且生成配音基本已覆盖影视配音的全部类型:

- 环境声,例如水下呼吸声、燃烧声、滚轮声、爆竹声、乐器演奏、白噪音、嘈杂人声等;

- 人声,哭声/笑声、对白/独白和歌声等,但不能生成旁白;

- 音乐,比如马戏团插画的欢乐音乐、闪灵双胞胎镜头的恐怖音乐等;

- 音效,例如枪声、喜剧效果的搓碟声、“OpneAI成员打架”时的机械崩坏声等。

对比其他AI配音工具,ElevenLabs是第一个做到全自动为视频结合生成式配音的工具,无需人工输入提示词也可以为视频配音,且使用AI创建4个音轨供选择,无需人工对齐音频与视频。

ElevenLabs能理解视频的画面,读懂里面的元素,知道画面里正在发生什么,应该出现什么声音,自动匹配上环境音、人声、音乐和音效,在口型同步上表现也不错。

再从声音本身来说,乌鸦君发现ElevenLabs在声音保真度方面表现不错,水下呼吸声、燃烧声、滚轮声、爆竹声,甚至白噪音、嘈杂人声等声音都非常逼真,且音源丰富、音质尚可

令人最想吐槽的一点是,ElevenLabs的音轨选择较少(只有4条),我用同一个视频多次投喂给ElevenLabs,始终只能得到相同的4个音轨。

音轨选择少意味着使用者的控制范围小、创作灵活度低,这使得ElevenLabs在一致性和运动性方面不稳定的缺陷被暴露无疑。理解简单的画面对ElevenLabs来说不是难题,但一旦画面元素有了动态,配音时常出现节奏韵律不对、不能贴合画面内容的情况,例如脚步声不能符合人物走动的节奏等。

不过,这还只是ElevenLabs做视频配音的一个Demo程序,期待它后续增加可选择的音轨条数,提高理解复杂画面的能力。

完全开源,理解画面能力弱于V2A

不到一天,ElevenLabs研究人员说这是他们的视频到声音应用的开发用时。这个敢直接硬刚谷歌的AI语音公司由前Google机器学习工程师Piotr Dabkowski和前Palantir策略分析师Staniszewski于2022年1月共同创立,自2022年以来一直从事生成AI语音。

对比谷歌V2A示例视频和ElevenLabs的生成视频,我们发现后者要逊色前者不少,这可能是由于二者的工作原理存在的本质的差别。Demo是基于公司在5月底发布的文字到音频模型打造的,工作原理如下:

- 以1秒钟的间隔从视频中提取4帧图像(全部在客户端提取)

- 将帧和提示发送到 GPT-4o,以创建自定义的文本音效提示

- 使用 ElevenLabs 文本转声音特效API创建提示音效

- 在客户端使用 ffmpeg.wasm 将视频和音频合并为一个文件供下载

- 托管于vercel

ElevenLabs并不能直接实现画面到音频的转换,而是利用了GPT-4o将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。而DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素,这意味着ElevenLabs理解视频的能力可能会弱于V2A

另外,在API使用过程中,Elevenlabs按每次生成100个字符收费,在设置持续时间时按每秒生成25个字符收费。

结语:视频生成带飞音频生成,深度伪造技术带来自检挑战

一方面,OpenAI不断推出高品质AI视频生成模型Sora的新演示,另一方面目前这项技术对公众仍然不可见,包括谷歌V2A。然而为了解决视频配音这个问题,竞争对手Pika研究名叫“Lip Sync”的对口型功能。

AI视频赛道在“百团大战”的同时,AI音频生成企业也正在扶摇直上。

ElevenLabs今年2月获得了8000万美元的B轮融资,估值超过10亿美元,跻身独角兽行列,估值在半年多的时间暴增10倍,包括像网易等游戏开发商、《华盛顿邮报》等传统媒体,都已经在大量使用ElevenLabs的文生语音技术。

声音是影视作品给人以身临其境之感的元素,未来,AI音频生成可能会细化到人声模拟、对口型、方言等各个部分,无限逼近真实世界。

与此同时,企业需要研究更多类似生物指纹嵌入应用的技术,来防范Deepfake(深度伪造)技术被用作不法用途。ElevenLabs曾表示将会推出新的措施,克隆声音仅供付费用户使用,禁止多次违反平台协议的用户使用这种功能,将会推出一种新的AI检测工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演都不演了!田朴珺承认嫌王石烦,她给所有的老夫少妻都提了个醒

演都不演了!田朴珺承认嫌王石烦,她给所有的老夫少妻都提了个醒

涵豆说娱
2026-01-04 18:40:14
朝鲜的铁矿石储量第一,怎么至今不见对外开放?只让中国开采!

朝鲜的铁矿石储量第一,怎么至今不见对外开放?只让中国开采!

小莜读史
2025-12-24 21:21:34
闫学晶哭穷风波不断发酵:代言产品法务部介入调查,或将其解约

闫学晶哭穷风波不断发酵:代言产品法务部介入调查,或将其解约

娱文速递
2026-01-05 20:01:16
讽刺拉满、搞笑至极!韩国电影可真是会拍呀!

讽刺拉满、搞笑至极!韩国电影可真是会拍呀!

仙味少女心
2026-01-05 14:48:06
中国家长通病:舍得花5万补数学,却不舍得花1分钱给孩子修“心”

中国家长通病:舍得花5万补数学,却不舍得花1分钱给孩子修“心”

星轨智算
2026-01-05 16:29:00
女排联赛第七轮今日打响,具体对阵出炉,央视直播一场焦点战

女排联赛第七轮今日打响,具体对阵出炉,央视直播一场焦点战

老高说体育
2026-01-06 10:53:07
广东传来3大隐患和3好消息!排名没掉,强援将复出,杜锋更有底了

广东传来3大隐患和3好消息!排名没掉,强援将复出,杜锋更有底了

后仰大风车
2026-01-06 07:10:05
行业陋习!雷军确认小字营销要改 小米改用大字注释

行业陋习!雷军确认小字营销要改 小米改用大字注释

3DM游戏
2026-01-04 10:19:04
第一批“年终奖”到账了,+299706.04元

第一批“年终奖”到账了,+299706.04元

蚂蚁大喇叭
2026-01-05 11:31:39
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
钢铁贱卖屡遭反倾销,如今限供全球慌了!中国这次不再妥协

钢铁贱卖屡遭反倾销,如今限供全球慌了!中国这次不再妥协

百科密码
2026-01-04 15:14:37
广厦为何大比分落败?比赛开始前有人突然退赛,王博措手不及

广厦为何大比分落败?比赛开始前有人突然退赛,王博措手不及

篮球看比赛
2026-01-06 12:36:55
420枚ATACMS导弹、82套海马斯系统,一票装船,直指东南沿海。

420枚ATACMS导弹、82套海马斯系统,一票装船,直指东南沿海。

安安说
2026-01-05 15:27:24
特朗普公告全球,地面打击已开始,委内瑞拉:中国有能力应对美国

特朗普公告全球,地面打击已开始,委内瑞拉:中国有能力应对美国

文史旺旺旺
2026-01-05 14:45:07
彭总养大的儿子,22岁当上师长,毛泽东说他必反,彭总不信

彭总养大的儿子,22岁当上师长,毛泽东说他必反,彭总不信

鹤羽说个事
2026-01-06 11:11:19
停业风波后,保时捷中国宣布终止郑州中原店经销授权,车主购买的“4S店自营套餐”面临失效

停业风波后,保时捷中国宣布终止郑州中原店经销授权,车主购买的“4S店自营套餐”面临失效

极目新闻
2026-01-05 17:20:57
小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

IT之家
2026-01-06 10:21:10
陕西一医院院长被骗上车勒死,3天后凶手落网,身份让人意想不到

陕西一医院院长被骗上车勒死,3天后凶手落网,身份让人意想不到

凯裕说故事
2024-09-13 11:36:38
中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

文雅笔墨
2026-01-01 05:32:43
莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

北极星心理
2025-12-31 06:50:45
2026-01-06 17:16:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
128507文章数 861587关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

美高官:委官员已私下保证 将满足美提出的条件和要求

头条要闻

美高官:委官员已私下保证 将满足美提出的条件和要求

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

房产
家居
艺术
手机
军事航空

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

家居要闻

引光之宅 地下室也有生机

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

手机要闻

苹果马年微信红包封面/壁纸来了:免费领!

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版