网易首页 > 网易号 > 正文 申请入驻

谷歌开发音频生成模型,创造似真实声音的AI语音

0
分享至

目前,AI 可以生成多种形式的高质量内容,包括文字( 的 GPT 3)、图片(的 Imagen)、视频( 的 Make-A-Video)等。


各大科技公司在生成式 AI 上“各显神通”,AI 在内容创作上不断突破人们想象力极限,也在逐步“削弱”人类的创造力优势。

近日,又开发出一种音频生成 AI。此名为 AudioLM 的模型只通过收听音频即可生成逼真的语音和音乐。

AI 生成的音频其实很常见,像生活中用到的语音助手使用自然语言处理声音。 曾开发名为 Jukebox 的 AI 音乐系统也令人印象深刻。

但过去用 AI 生成音频,大都需要人们提前准备转录和标记基于文本的训练数据,这需要耗费极大时间和人力。

而在其 官方博文中表示:“AudioLM 是纯音频语言模型,无须借助文本来训练,只是从原始音频中进行学习。”


相较之前的类似系统,AudioLM 生成的音频在语音语法、音乐旋律等方面,具有长时间的一致性和高保真度。

9 月 7 日,相关论文以《AudioLM: 一种实现音频生成的语言建模方法》()为题提交在 arXiv 上。

正如音乐从单个音符构建复杂的音乐短语一样。生成逼真的音频需要以不同比例表示的建模信息。而在所有这些音阶上创建结构良好且连贯的音频序列是一项挑战。

据了解,音频语言模型 AudioLM 的背后利用了文本到图像模型的进步来生成音频。

近年来,在大量文本上训练的语言模型,除了对话、总结等文本任务,也在高质量图像上展示出优秀的才能,这体现了语言模型对多类型信号进行建模的能力。

但从文本语言模型转向音频语言模型,仍有一些问题需要解决。比如,文本和音频之间不是一一对应关系。同一句话可以有不同风格的呈现方式。此外,还在其官网提到:“音频的数据速率要更高,用数十个字符就可表示的书面句子,其音频波形通常含有几十万个值。”

为解决这些问题,研究人员采用了语义和声学两种音频令牌。

语义令牌(语义标记来自音频框架 w2v-BERT)捕获语音、旋律等局部依赖性和语法、和声等全局长期结构。但是,语义令牌创建的音频保真度较差。因此还利用了由 SoundStream 神经编解码器生成的声学令牌,该令牌捕获音频波形的详细信息。

在经过对音频序列的声学属性、结构等分别进行建模,以及用精细声学模型为语音添加生动特征几个步骤后,声学令牌被送到 SoundStream 解码器以再建波形。

还展示 AudioLM 的一般适用性,在被要求继续语音或音乐,并生成在训练期间未看到的新内容时,AudioLM 实现了效果流畅、风格接近的音频生成。

特别是,使用 AudioLM 生成的钢琴音乐比使用现有 AI 技术生成的钢琴音乐听起来更自然,后者感觉往往很混乱。

为了生成逼真的钢琴音乐,AudioLM 必须在钢琴键被击中时捕捉每个音符中包含的许多微妙的振动,生成的音乐还必须在一段时间内保持其节奏与和声。

对此,在卡内基梅隆大学研究计算机生成音乐的教授罗杰·丹嫩伯格()对媒体提到,AudioLM 在重新创造人类音乐中固有的一些重复模式方面出奇地擅长,或表明它正在学习某种结构的多个层次。

AudioLM 经过训练,可以了解哪些类型的声音片段经常一起出现,并且反向使用该过程来生成句子。除了音乐,它还可以模仿原始说话者的口音和节奏,并能学习口语中固有的停顿和感叹等特点。经测试,AudioLM 生成的语音与真实语音几乎无法区分。

据了解,AudioLM 远远超出了语音的范围,可以模拟任意音频信号。这可方便扩展到其他类型的音频,以及将 AudioLM 集成到编码器-解码器框架中,以执行文本到语音转换或语音到语音转换等条件任务。

然后,更自然的语音生成技术,可以用作视频和幻灯片的背景音轨,帮助改善在医疗等环境下工作的可访问性工具和机器人。

未来,研究团队还希望创造更复杂的声音,就像一个乐队使用不同的乐器,或模仿热带雨林中嘈杂的声音。

(来源:Pixabay)

但值得注意的是,AI 生成音频这项技术仍有一些问题需要去面对,比如,是否有必要向音乐家支付版税?这个问题已经随着图像生成模型的出现而出现。

此外,AI 生成的音频正变得与真实语音难以区分,这使得其很容易被用来传播错误信息。

研究人员在论文中也提到,他们已经在考虑并努力缓解以上问题,例如,通过开发相关工具,来区分自然声音和 AudioLM 产生的声音,并在 AI 生成的产品中加入水印,以防止可能的滥用。

最后,在 AudioLM 上的工作目前主要是出于研究目的,还没有计划在更大范围内发布它。

参考资料:
https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html
https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
https://arxiv.org/abs/2209.03143

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
麻烦大了!马筱梅区别对待大S孩子,张兰哽咽落泪 律师曝筱梅猛料

麻烦大了!马筱梅区别对待大S孩子,张兰哽咽落泪 律师曝筱梅猛料

科普100克克
2026-03-23 00:18:55
这辈子大概率孤独终老!00后江西小伙直言,让母亲发帖称满心冰凉

这辈子大概率孤独终老!00后江西小伙直言,让母亲发帖称满心冰凉

火山詩话
2026-03-22 10:17:08
心酸!深圳大厂程序员失业一年,月薪从5万降到1.5万,还没人要!

心酸!深圳大厂程序员失业一年,月薪从5万降到1.5万,还没人要!

川渝视觉
2026-03-22 22:35:14
杜兰特谈退役:属于我的时间不多了 希望给篮球留下点自己的痕迹

杜兰特谈退役:属于我的时间不多了 希望给篮球留下点自己的痕迹

罗说NBA
2026-03-23 06:00:46
拒采访后又惹争议 王钰栋社媒连续硬刚 将骂他的海牛球迷打码挑衅

拒采访后又惹争议 王钰栋社媒连续硬刚 将骂他的海牛球迷打码挑衅

我爱英超
2026-03-22 16:45:33
太突然!老戏骨游飙猝逝,终年57岁!

太突然!老戏骨游飙猝逝,终年57岁!

地理三体说
2026-03-20 22:43:04
人社部悄悄公布一条消息,事关养老金,家里有老人的得注意

人社部悄悄公布一条消息,事关养老金,家里有老人的得注意

社保精算师
2026-03-22 21:06:05
被绞刑处决!伊朗19岁摔跤冠军下葬 国际奥委会回应 奥运冠军愤怒

被绞刑处决!伊朗19岁摔跤冠军下葬 国际奥委会回应 奥运冠军愤怒

念洲
2026-03-23 07:49:04
注意,特斯拉 Model Y 又要迎来改款!

注意,特斯拉 Model Y 又要迎来改款!

XCiOS俱乐部
2026-03-22 18:34:49
纪实:天津一女博士得知闺蜜怀孕,用10天时间让闺蜜命丧黄泉

纪实:天津一女博士得知闺蜜怀孕,用10天时间让闺蜜命丧黄泉

清茶浅谈
2025-02-19 15:27:54
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
高市早苗向广岛原子弹投放手敬献花圈

高市早苗向广岛原子弹投放手敬献花圈

雪中风车
2026-03-22 07:46:32
阿森纳不敌曼城痛失冠军!长文推荐:阿尔特塔绝对权力的双刃剑!

阿森纳不敌曼城痛失冠军!长文推荐:阿尔特塔绝对权力的双刃剑!

足球侦探
2026-03-23 08:30:07
内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

共工之锚
2026-03-22 12:36:18
“没屋顶才是有钱人标配”,大小姐跳舞视频火了,普通人看清现实

“没屋顶才是有钱人标配”,大小姐跳舞视频火了,普通人看清现实

妍妍教育日记
2026-03-09 17:40:44
巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

财经八卦
2026-03-22 19:15:38
这么多伊朗二代在美国,拉里贾尼的女儿已回国!克宫强烈反对斩首

这么多伊朗二代在美国,拉里贾尼的女儿已回国!克宫强烈反对斩首

鹰眼Defence
2026-03-20 18:13:40
3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

有范又有料
2026-03-22 15:51:20
2026-03-23 09:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16463文章数 514785关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

牛弹琴:针对特朗普的最后通牒 伊朗彻底豁出去了

头条要闻

牛弹琴:针对特朗普的最后通牒 伊朗彻底豁出去了

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

数码
艺术
旅游
公开课
军事航空

数码要闻

首款双3D缓存CPU:AMD锐龙9 9950X3D2现身CPU-Z!

艺术要闻

王部长的书法太惊人,废报纸也能成大师之作!

旅游要闻

山东济南:樱花如雪引客来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版