网易首页 > 网易号 > 正文 申请入驻

AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费

0
分享至

文 | 乌鸦智能说

这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。

目前最顶尖的工具如Sora生成的视频都是没有声音的,而声音是让AI视频变得更为真实的重要一步。如果AI能完成从脚本/图片-视频-配音的工作流,那才是真的完美。

昨日凌晨,谷歌DeepMind悄悄发布了V2A(Video-to-Audio)系统。这个系统能根据画面内容或者手动输入的提示词直接为视频配音。

没过几小时,另一个AI音频克隆“扛把子”ElevenLabs就发布了文字到音频模型的API,并基于这一API做了一个Demo应用。这是当前唯一一个全自动将视频与音频相结合的AI工具,且完全开源、免费在线使用。

花开两朵,各表一枝。由于谷歌并不打算向公众开放V2A系统,那我们就先试用一下ElevenLabs的这个版本~

看懂+对齐,生成全自动,但不能理解复杂画面

AI视频告别无声,ElevenLabs为“徒手”制作大片的AI工作流补上最后一笔,我已经迫不及待,马上就要为前几天做出来的AI生产视频加上配音了。(工具体验:https://www.videotosoundeffects.com/)

▲ElevenLabs生成配音视频step1→step2

我将luma生成的着火meme视频、OpenAI成员暴走视频、电影《闪灵》视频等,以及Gen-3的示例视频都投喂给了ElevenLabs,看看它会为这些画面配上什么声音。

效果还不错呀!其中,“某个歌手在独唱”、“一个女人奔向正在发射的火箭”、“白头发女人大笑”等等配音跟场景很契合,“水下呼吸的女人”、“一个男人身后燃起大火”的视频配音逼真细腻,非常有大片感。

经过约20个视频的试炼,ElevenLabs能自动生成与视频内容同步的音轨,而且生成配音基本已覆盖影视配音的全部类型:

- 环境声,例如水下呼吸声、燃烧声、滚轮声、爆竹声、乐器演奏、白噪音、嘈杂人声等;

- 人声,哭声/笑声、对白/独白和歌声等,但不能生成旁白;

- 音乐,比如马戏团插画的欢乐音乐、闪灵双胞胎镜头的恐怖音乐等;

- 音效,例如枪声、喜剧效果的搓碟声、“OpneAI成员打架”时的机械崩坏声等。

对比其他AI配音工具,ElevenLabs是第一个做到全自动为视频结合生成式配音的工具,无需人工输入提示词也可以为视频配音,且使用AI创建4个音轨供选择,无需人工对齐音频与视频。

ElevenLabs能理解视频的画面,读懂里面的元素,知道画面里正在发生什么,应该出现什么声音,自动匹配上环境音、人声、音乐和音效,在口型同步上表现也不错。

再从声音本身来说,乌鸦君发现ElevenLabs在声音保真度方面表现不错,水下呼吸声、燃烧声、滚轮声、爆竹声,甚至白噪音、嘈杂人声等声音都非常逼真,且音源丰富、音质尚可

令人最想吐槽的一点是,ElevenLabs的音轨选择较少(只有4条),我用同一个视频多次投喂给ElevenLabs,始终只能得到相同的4个音轨。

音轨选择少意味着使用者的控制范围小、创作灵活度低,这使得ElevenLabs在一致性和运动性方面不稳定的缺陷被暴露无疑。理解简单的画面对ElevenLabs来说不是难题,但一旦画面元素有了动态,配音时常出现节奏韵律不对、不能贴合画面内容的情况,例如脚步声不能符合人物走动的节奏等。

不过,这还只是ElevenLabs做视频配音的一个Demo程序,期待它后续增加可选择的音轨条数,提高理解复杂画面的能力。

完全开源,理解画面能力弱于V2A

不到一天,ElevenLabs研究人员说这是他们的视频到声音应用的开发用时。这个敢直接硬刚谷歌的AI语音公司由前Google机器学习工程师Piotr Dabkowski和前Palantir策略分析师Staniszewski于2022年1月共同创立,自2022年以来一直从事生成AI语音。

对比谷歌V2A示例视频和ElevenLabs的生成视频,我们发现后者要逊色前者不少,这可能是由于二者的工作原理存在的本质的差别。Demo是基于公司在5月底发布的文字到音频模型打造的,工作原理如下:

- 以1秒钟的间隔从视频中提取4帧图像(全部在客户端提取)

- 将帧和提示发送到 GPT-4o,以创建自定义的文本音效提示

- 使用 ElevenLabs 文本转声音特效API创建提示音效

- 在客户端使用 ffmpeg.wasm 将视频和音频合并为一个文件供下载

- 托管于vercel

ElevenLabs并不能直接实现画面到音频的转换,而是利用了GPT-4o将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。而DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素,这意味着ElevenLabs理解视频的能力可能会弱于V2A

另外,在API使用过程中,Elevenlabs按每次生成100个字符收费,在设置持续时间时按每秒生成25个字符收费。

结语:视频生成带飞音频生成,深度伪造技术带来自检挑战

一方面,OpenAI不断推出高品质AI视频生成模型Sora的新演示,另一方面目前这项技术对公众仍然不可见,包括谷歌V2A。然而为了解决视频配音这个问题,竞争对手Pika研究名叫“Lip Sync”的对口型功能。

AI视频赛道在“百团大战”的同时,AI音频生成企业也正在扶摇直上。

ElevenLabs今年2月获得了8000万美元的B轮融资,估值超过10亿美元,跻身独角兽行列,估值在半年多的时间暴增10倍,包括像网易等游戏开发商、《华盛顿邮报》等传统媒体,都已经在大量使用ElevenLabs的文生语音技术。

声音是影视作品给人以身临其境之感的元素,未来,AI音频生成可能会细化到人声模拟、对口型、方言等各个部分,无限逼近真实世界。

与此同时,企业需要研究更多类似生物指纹嵌入应用的技术,来防范Deepfake(深度伪造)技术被用作不法用途。ElevenLabs曾表示将会推出新的措施,克隆声音仅供付费用户使用,禁止多次违反平台协议的用户使用这种功能,将会推出一种新的AI检测工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
91岁老人把儿子告上法庭:900多万元毕生积蓄被儿子儿媳挪用,儿媳去世后其姐姐继承300万元,法院判了

91岁老人把儿子告上法庭:900多万元毕生积蓄被儿子儿媳挪用,儿媳去世后其姐姐继承300万元,法院判了

环球网资讯
2026-02-07 07:54:38
当年风靡一时的十大综艺都停播了,有几个都太可惜了

当年风靡一时的十大综艺都停播了,有几个都太可惜了

小Q侃电影
2026-01-26 13:06:56
两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

匹夫来搞笑
2026-01-22 12:05:40
爱泼斯坦案影像流出,场面不堪入目,像极了《西游记》里的吃小孩

爱泼斯坦案影像流出,场面不堪入目,像极了《西游记》里的吃小孩

文史达观
2026-02-06 13:47:45
深圳一男子打球时突然倒地,多方协力施救“抢”回性命

深圳一男子打球时突然倒地,多方协力施救“抢”回性命

南方都市报
2026-02-07 21:08:39
北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

历来都很现实
2024-06-07 23:50:40
岛国成人VA内幕,那些被逼着拍片儿的女孩

岛国成人VA内幕,那些被逼着拍片儿的女孩

年代回忆
2026-02-02 20:24:54
明朝大将蓝玉领大军把北元打得屁滚尿流,瞧见俘虏里有个异域美人

明朝大将蓝玉领大军把北元打得屁滚尿流,瞧见俘虏里有个异域美人

南权先生
2026-02-06 15:53:43
希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

老范谈史
2026-01-07 14:53:22
我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

白宸侃片
2026-02-01 19:13:01
拒绝进口!华为昇腾中标大单

拒绝进口!华为昇腾中标大单

EETOP半导体社区
2026-02-07 11:19:56
刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

我心纵横天地间
2026-02-03 22:44:27
明明位置都还回来了,肖战为什么还是不入座?

明明位置都还回来了,肖战为什么还是不入座?

东方不败然多多
2026-02-07 02:29:29
《小猪佩奇》官方透露乔治患有中度耳聋,将佩戴助听器

《小猪佩奇》官方透露乔治患有中度耳聋,将佩戴助听器

现代快报
2026-02-07 21:35:09
米切尔向女友承诺:我会为骑士夺得总冠军,之后就娶你

米切尔向女友承诺:我会为骑士夺得总冠军,之后就娶你

科学发掘
2026-02-07 14:41:45
德甲最新积分战报:争冠悬念再起,前2只差3分,多特紧追拜仁

德甲最新积分战报:争冠悬念再起,前2只差3分,多特紧追拜仁

足球狗说
2026-02-08 07:02:08
暴跌40%,国投瑞银基金崩盘真相

暴跌40%,国投瑞银基金崩盘真相

次元君情感
2026-02-07 14:58:43
川大博导王竹卿学术造假实锤,挪用经费养全家,家属还当帮凶!

川大博导王竹卿学术造假实锤,挪用经费养全家,家属还当帮凶!

你食不食油饼
2026-02-08 07:00:12
网红刘鑫宇去世,留5年长发比女生还美,有两个儿子,妻子曝死因

网红刘鑫宇去世,留5年长发比女生还美,有两个儿子,妻子曝死因

古希腊掌管松饼的神
2026-02-07 16:30:14
疑似微博工作人员发声!证实肖战座位被挪动,内涵杨幂压不住别来

疑似微博工作人员发声!证实肖战座位被挪动,内涵杨幂压不住别来

萌神木木
2026-02-06 12:22:23
2026-02-08 09:48:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129325文章数 861750关注度
往期回顾 全部

科技要闻

惨遭“兄弟”封禁的腾讯元宝,干得过豆包千问吗?

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

房产
时尚
旅游
本地
家居

房产要闻

新春三亚置业,看过这个热盘再说!

真爱大牌|| 过年5分钟搞定好气色,用了一整年才来分享

旅游要闻

赴一场盛唐之约!江阴飞马千灯会璀璨开园

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

现代轻奢 温馨治愈系

无障碍浏览 进入关怀版