网易首页 > 网易数码 > 正文

谷歌DeepMind借神经网络构建原始音频算法合成人工语音

0
分享至

(原标题:谷歌DeepMind借神经网络构建原始音频算法合成人工语音)

摘要:据外媒报道,目前谷歌旗下人工智能部门DeepMind已经研发了一项新的技术WaveNet,借助于深度神经网络让人工智能模仿人类的声音说话,它能直 接合成原始音波模型,而非采用预录制的人类声音,听起来十分自然。设想在未来,人工智能同人类进行自然且互相理解的发声和对话将真正成为现实。尽管近几年,语音识别和个人 数字助理技术飞速发展,不过Siri、Cortana等数字助手的语音仍需要借助预录制的人声,且有时能够明显听出冰冷和机械化的发音。

DeepMind的新AI自然语音技术有所不同,DeepMind的天才工程师们通过深度神经网络构建了一个算法模型,让AI自己合成出声音进行语音对话,同时能够理解英语和中文(普通话)的不同表达时序,并且实时做出语音回馈。令人惊喜的是这项新技术的表现超出了现代最尖端的人工文本-语音系统。目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。这就需要使用到超大型的记录说话者的语音片段的数据库,然后将这些语音片段重新组合成完整的话语。

算法模型

上方动画所示为一个WaveNet模型的内部结构,通常是一种完整的卷积神经网络,卷积层中有各种各样的扩张因子,允许其接受域深度成倍增长,并且覆盖数千个时间步长。

在训练时,输入序列是从人类说话者记录得来的真实波形。在训练之后,DeepMind可以对网络取样,以生成合成话语。在取样的每一个步骤中,将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中,这样便完成下一步新预测。这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

为了实现运用WaveNet将文本转化为语音,必须先告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征(包括音位、音节、单词等),把转换得来的特征提供给WaveNet,完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本,而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络,网络依然能够生成语音,但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语,有意义的单词被编造的像单词的声音隔断开。

WaveNet通过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。同生成听起来更为自然的语音相同,使用原始波形意味着WaveNet能够为任意类型的音频建模,包括音乐。

以下是parametric方法生成的语音片段

以下是concatenative模型生成 的语音片段

以下是WaveNet生成的一些声音片段,明显更加自然:

相关推荐
热点推荐
在美国你买了房,房子是你的不假,房屋产权永久也不假

在美国你买了房,房子是你的不假,房屋产权永久也不假

忠于法纪
2026-01-10 19:43:35
英特尔股价下跌16%

英特尔股价下跌16%

每日经济新闻
2026-01-23 23:13:04
点球大战莫斯科迪纳摩7-5上海申花

点球大战莫斯科迪纳摩7-5上海申花

懂球帝
2026-01-24 01:03:24
14记ace+豪取澳网100胜!德约科维奇残暴横扫晋级,剑指澳网11冠

14记ace+豪取澳网100胜!德约科维奇残暴横扫晋级,剑指澳网11冠

搏击江湖
2026-01-23 17:59:08
诺基亚3310真的太猛,这设计太骚了!

诺基亚3310真的太猛,这设计太骚了!

3C毒物
2026-01-24 00:07:37
不是,到底是谁那么在意松紧啊?

不是,到底是谁那么在意松紧啊?

六层楼先生
2025-11-21 10:35:44
涉嫌私吞100多亿逃跑的前山西首富,在英国靠学生公寓收租,拖欠留学生押金

涉嫌私吞100多亿逃跑的前山西首富,在英国靠学生公寓收租,拖欠留学生押金

凤凰网财经
2024-12-20 09:20:54
格陵兰岛的原住民,为什么长得像中国人?

格陵兰岛的原住民,为什么长得像中国人?

谭老师地理大课堂
2026-01-23 22:14:55
“大资金”重仓股出炉!(名单)

“大资金”重仓股出炉!(名单)

泡财经
2026-01-23 16:02:42
日本U23主帅:我对中国队充满了尊敬;会细致分析中国U23的特点

日本U23主帅:我对中国队充满了尊敬;会细致分析中国U23的特点

懂球帝
2026-01-23 20:26:07
最新消息,房东回应:不卖也不租,李亚鹏道歉,否则一切免谈

最新消息,房东回应:不卖也不租,李亚鹏道歉,否则一切免谈

娱乐皮皮酱
2026-01-23 17:59:34
载246人俄罗斯客机,在中国上空遇险求救!盘旋多圈后紧急备降,最新情况公布

载246人俄罗斯客机,在中国上空遇险求救!盘旋多圈后紧急备降,最新情况公布

新民晚报
2026-01-23 21:18:37
苹果股价下跌 势创2022年以来最长周度连跌纪录

苹果股价下跌 势创2022年以来最长周度连跌纪录

财联社
2026-01-23 23:52:06
福建前首富许世辉:痛失27岁接班人,零食帝国退市,今靠慈善念儿

福建前首富许世辉:痛失27岁接班人,零食帝国退市,今靠慈善念儿

牛牛叨史
2026-01-22 22:55:17
开拓者127-110横扫热火!喜提4连胜,夏普27+7+4,杨瀚森时运不济

开拓者127-110横扫热火!喜提4连胜,夏普27+7+4,杨瀚森时运不济

小火箭爱体育
2026-01-23 13:39:08
我前几年确诊二糖,现在空腹血糖4.4:就靠两点,建议进来了解下

我前几年确诊二糖,现在空腹血糖4.4:就靠两点,建议进来了解下

路医生健康科普
2026-01-23 10:31:56
已救起17人,其中2人遇难!中国海警海上搜救仍在进行

已救起17人,其中2人遇难!中国海警海上搜救仍在进行

大象新闻
2026-01-23 18:57:02
不婚不育,52岁苏有朋痛哭:我恨了自己30年,还被迫当爸爸……

不婚不育,52岁苏有朋痛哭:我恨了自己30年,还被迫当爸爸……

有书
2026-01-22 19:09:08
高压电线为啥不用铜线,而全用铝线?是为了省钱吗?

高压电线为啥不用铜线,而全用铝线?是为了省钱吗?

向航说
2026-01-22 00:55:03
秦皇岛未来五年要搞大事!这些区身价要暴涨!看看有你家吗?

秦皇岛未来五年要搞大事!这些区身价要暴涨!看看有你家吗?

小李子体育
2026-01-23 15:59:12
2026-01-24 01:31:00

头条要闻

视频:女游客被雪豹咬伤面部 疑因靠近拍照引发

头条要闻

视频:女游客被雪豹咬伤面部 疑因靠近拍照引发

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

旅游
本地
教育
游戏
公开课

旅游要闻

北京世园“天宫灯会”正式开幕,持续至3月8日

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

教育要闻

高考地理中的森林碳汇

雨姐杀疯了!羊蹄山之魂力登顶PS5年度榜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×