网易首页 > 网易号 > 正文 申请入驻

AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费

0
分享至

文 | 乌鸦智能说

这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。

目前最顶尖的工具如Sora生成的视频都是没有声音的,而声音是让AI视频变得更为真实的重要一步。如果AI能完成从脚本/图片-视频-配音的工作流,那才是真的完美。

昨日凌晨,谷歌DeepMind悄悄发布了V2A(Video-to-Audio)系统。这个系统能根据画面内容或者手动输入的提示词直接为视频配音。

没过几小时,另一个AI音频克隆“扛把子”ElevenLabs就发布了文字到音频模型的API,并基于这一API做了一个Demo应用。这是当前唯一一个全自动将视频与音频相结合的AI工具,且完全开源、免费在线使用。

花开两朵,各表一枝。由于谷歌并不打算向公众开放V2A系统,那我们就先试用一下ElevenLabs的这个版本~

看懂+对齐,生成全自动,但不能理解复杂画面

AI视频告别无声,ElevenLabs为“徒手”制作大片的AI工作流补上最后一笔,我已经迫不及待,马上就要为前几天做出来的AI生产视频加上配音了。(工具体验:https://www.videotosoundeffects.com/)

▲ElevenLabs生成配音视频step1→step2

我将luma生成的着火meme视频、OpenAI成员暴走视频、电影《闪灵》视频等,以及Gen-3的示例视频都投喂给了ElevenLabs,看看它会为这些画面配上什么声音。

效果还不错呀!其中,“某个歌手在独唱”、“一个女人奔向正在发射的火箭”、“白头发女人大笑”等等配音跟场景很契合,“水下呼吸的女人”、“一个男人身后燃起大火”的视频配音逼真细腻,非常有大片感。

经过约20个视频的试炼,ElevenLabs能自动生成与视频内容同步的音轨,而且生成配音基本已覆盖影视配音的全部类型:

- 环境声,例如水下呼吸声、燃烧声、滚轮声、爆竹声、乐器演奏、白噪音、嘈杂人声等;

- 人声,哭声/笑声、对白/独白和歌声等,但不能生成旁白;

- 音乐,比如马戏团插画的欢乐音乐、闪灵双胞胎镜头的恐怖音乐等;

- 音效,例如枪声、喜剧效果的搓碟声、“OpneAI成员打架”时的机械崩坏声等。

对比其他AI配音工具,ElevenLabs是第一个做到全自动为视频结合生成式配音的工具,无需人工输入提示词也可以为视频配音,且使用AI创建4个音轨供选择,无需人工对齐音频与视频。

ElevenLabs能理解视频的画面,读懂里面的元素,知道画面里正在发生什么,应该出现什么声音,自动匹配上环境音、人声、音乐和音效,在口型同步上表现也不错。

再从声音本身来说,乌鸦君发现ElevenLabs在声音保真度方面表现不错,水下呼吸声、燃烧声、滚轮声、爆竹声,甚至白噪音、嘈杂人声等声音都非常逼真,且音源丰富、音质尚可

令人最想吐槽的一点是,ElevenLabs的音轨选择较少(只有4条),我用同一个视频多次投喂给ElevenLabs,始终只能得到相同的4个音轨。

音轨选择少意味着使用者的控制范围小、创作灵活度低,这使得ElevenLabs在一致性和运动性方面不稳定的缺陷被暴露无疑。理解简单的画面对ElevenLabs来说不是难题,但一旦画面元素有了动态,配音时常出现节奏韵律不对、不能贴合画面内容的情况,例如脚步声不能符合人物走动的节奏等。

不过,这还只是ElevenLabs做视频配音的一个Demo程序,期待它后续增加可选择的音轨条数,提高理解复杂画面的能力。

完全开源,理解画面能力弱于V2A

不到一天,ElevenLabs研究人员说这是他们的视频到声音应用的开发用时。这个敢直接硬刚谷歌的AI语音公司由前Google机器学习工程师Piotr Dabkowski和前Palantir策略分析师Staniszewski于2022年1月共同创立,自2022年以来一直从事生成AI语音。

对比谷歌V2A示例视频和ElevenLabs的生成视频,我们发现后者要逊色前者不少,这可能是由于二者的工作原理存在的本质的差别。Demo是基于公司在5月底发布的文字到音频模型打造的,工作原理如下:

- 以1秒钟的间隔从视频中提取4帧图像(全部在客户端提取)

- 将帧和提示发送到 GPT-4o,以创建自定义的文本音效提示

- 使用 ElevenLabs 文本转声音特效API创建提示音效

- 在客户端使用 ffmpeg.wasm 将视频和音频合并为一个文件供下载

- 托管于vercel

ElevenLabs并不能直接实现画面到音频的转换,而是利用了GPT-4o将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。而DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素,这意味着ElevenLabs理解视频的能力可能会弱于V2A

另外,在API使用过程中,Elevenlabs按每次生成100个字符收费,在设置持续时间时按每秒生成25个字符收费。

结语:视频生成带飞音频生成,深度伪造技术带来自检挑战

一方面,OpenAI不断推出高品质AI视频生成模型Sora的新演示,另一方面目前这项技术对公众仍然不可见,包括谷歌V2A。然而为了解决视频配音这个问题,竞争对手Pika研究名叫“Lip Sync”的对口型功能。

AI视频赛道在“百团大战”的同时,AI音频生成企业也正在扶摇直上。

ElevenLabs今年2月获得了8000万美元的B轮融资,估值超过10亿美元,跻身独角兽行列,估值在半年多的时间暴增10倍,包括像网易等游戏开发商、《华盛顿邮报》等传统媒体,都已经在大量使用ElevenLabs的文生语音技术。

声音是影视作品给人以身临其境之感的元素,未来,AI音频生成可能会细化到人声模拟、对口型、方言等各个部分,无限逼近真实世界。

与此同时,企业需要研究更多类似生物指纹嵌入应用的技术,来防范Deepfake(深度伪造)技术被用作不法用途。ElevenLabs曾表示将会推出新的措施,克隆声音仅供付费用户使用,禁止多次违反平台协议的用户使用这种功能,将会推出一种新的AI检测工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网红“反诈老陈”打假!深圳市监介入

网红“反诈老陈”打假!深圳市监介入

大象新闻
2026-01-06 07:01:10
广州停车费大改革2026年落地!新能源车免停+日间45元封顶

广州停车费大改革2026年落地!新能源车免停+日间45元封顶

趣味萌宠的日常
2026-01-06 10:33:49
发现广东一户人家,仅用6组柜子就圈粉无数,网友:堪称教科书

发现广东一户人家,仅用6组柜子就圈粉无数,网友:堪称教科书

装修秀
2026-01-06 10:45:03
流落柬埔寨女网红毒品检测呈阳性,诊断出肺部感染等多种病症,其母已在飞机上

流落柬埔寨女网红毒品检测呈阳性,诊断出肺部感染等多种病症,其母已在飞机上

上观新闻
2026-01-06 16:00:05
广州小学生被抽血事件:告诉爸妈就扣小红花

广州小学生被抽血事件:告诉爸妈就扣小红花

每日一见
2026-01-02 12:21:28
上海一男子开假派出所,3个月破案百起,缴获上千万赃款

上海一男子开假派出所,3个月破案百起,缴获上千万赃款

徐侠客有话说
2025-07-18 14:14:09
14投13中!46分!恭喜杨瀚森,进入开拓者轮换名单

14投13中!46分!恭喜杨瀚森,进入开拓者轮换名单

赵或是个热血青年
2026-01-06 09:52:41
疼坏了!新生儿被剪断手指紧急转院,暂不议赔偿,家属发声太揪心

疼坏了!新生儿被剪断手指紧急转院,暂不议赔偿,家属发声太揪心

一口娱乐
2026-01-06 12:36:56
刚刚!券商股,突然爆发!A股,新突破!

刚刚!券商股,突然爆发!A股,新突破!

证券时报e公司
2026-01-06 10:25:40
想不到,用命守卫马杜罗到最后的,不是俄,也不是委,而是他们

想不到,用命守卫马杜罗到最后的,不是俄,也不是委,而是他们

策略述
2026-01-06 12:21:49
这种息肉几乎100%会癌变,还会遗传,40岁以后一定要注意!

这种息肉几乎100%会癌变,还会遗传,40岁以后一定要注意!

DrX说
2026-01-06 14:39:21
曼联新帅5大候选曝光 哈维主动请缨 水晶宫主帅今夏或携3爱将来投

曼联新帅5大候选曝光 哈维主动请缨 水晶宫主帅今夏或携3爱将来投

我爱英超
2026-01-05 22:27:26
女篮名将展淑萍:儿子六岁丈夫去世,再婚带儿子付豪改嫁给裁判

女篮名将展淑萍:儿子六岁丈夫去世,再婚带儿子付豪改嫁给裁判

丰谭笔录
2026-01-02 09:25:00
熬了这么久,《镖人》总算敲定档期了

熬了这么久,《镖人》总算敲定档期了

小光侃娱乐
2026-01-06 12:35:03
2026住房好消息来了,住4楼以上的朋友大受益!这两类人直接吃香

2026住房好消息来了,住4楼以上的朋友大受益!这两类人直接吃香

夜深爱杂谈
2026-01-05 22:17:47
命中率63%!场均轰30.4分,所有人都说你该退役了,你却创NBA奇迹

命中率63%!场均轰30.4分,所有人都说你该退役了,你却创NBA奇迹

巴叔GO聊体育
2026-01-06 15:35:29
美高官:先打中国再打朝鲜,打不过就核战,因为中国火箭军太强大

美高官:先打中国再打朝鲜,打不过就核战,因为中国火箭军太强大

有牙的兔纸
2026-01-04 21:07:55
7级大风+降温!深圳天气有变!降雨将出现在......

7级大风+降温!深圳天气有变!降雨将出现在......

深圳晚报
2026-01-06 08:08:37
外媒:歼-36可能并不是六代机,最可能是取代歼轰-7的歼轰战机

外媒:歼-36可能并不是六代机,最可能是取代歼轰-7的歼轰战机

止戈军是我
2026-01-01 22:30:54
中方是否与罗德里格斯接触?外交部回应

中方是否与罗德里格斯接触?外交部回应

极目新闻
2026-01-05 16:10:29
2026-01-06 16:40:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
128507文章数 861587关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

美高官:委官员已私下保证 将满足美提出的条件和要求

头条要闻

美高官:委官员已私下保证 将满足美提出的条件和要求

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

家居
旅游
手机
房产
公开课

家居要闻

引光之宅 地下室也有生机

旅游要闻

二〇二五年旅游总收入预计突破千亿大关 三亚:全力推进国际旅游消费中心核心区建设

手机要闻

苹果马年微信红包封面/壁纸来了:免费领!

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版