网易首页 > 网易数码 > 正文

谷歌DeepMind借神经网络构建原始音频算法合成人工语音

0
分享至

(原标题:谷歌DeepMind借神经网络构建原始音频算法合成人工语音)

摘要:据外媒报道,目前谷歌旗下人工智能部门DeepMind已经研发了一项新的技术WaveNet,借助于深度神经网络让人工智能模仿人类的声音说话,它能直 接合成原始音波模型,而非采用预录制的人类声音,听起来十分自然。设想在未来,人工智能同人类进行自然且互相理解的发声和对话将真正成为现实。尽管近几年,语音识别和个人 数字助理技术飞速发展,不过Siri、Cortana等数字助手的语音仍需要借助预录制的人声,且有时能够明显听出冰冷和机械化的发音。

DeepMind的新AI自然语音技术有所不同,DeepMind的天才工程师们通过深度神经网络构建了一个算法模型,让AI自己合成出声音进行语音对话,同时能够理解英语和中文(普通话)的不同表达时序,并且实时做出语音回馈。令人惊喜的是这项新技术的表现超出了现代最尖端的人工文本-语音系统。目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。这就需要使用到超大型的记录说话者的语音片段的数据库,然后将这些语音片段重新组合成完整的话语。

算法模型

上方动画所示为一个WaveNet模型的内部结构,通常是一种完整的卷积神经网络,卷积层中有各种各样的扩张因子,允许其接受域深度成倍增长,并且覆盖数千个时间步长。

在训练时,输入序列是从人类说话者记录得来的真实波形。在训练之后,DeepMind可以对网络取样,以生成合成话语。在取样的每一个步骤中,将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中,这样便完成下一步新预测。这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

为了实现运用WaveNet将文本转化为语音,必须先告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征(包括音位、音节、单词等),把转换得来的特征提供给WaveNet,完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本,而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络,网络依然能够生成语音,但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语,有意义的单词被编造的像单词的声音隔断开。

WaveNet通过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。同生成听起来更为自然的语音相同,使用原始波形意味着WaveNet能够为任意类型的音频建模,包括音乐。

以下是parametric方法生成的语音片段

以下是concatenative模型生成 的语音片段

以下是WaveNet生成的一些声音片段,明显更加自然:

相关推荐
热点推荐
我在深圳赚了680万,回村后逢人就说赔了85万,没想到第4天十几个亲戚堵了我家门

我在深圳赚了680万,回村后逢人就说赔了85万,没想到第4天十几个亲戚堵了我家门

奶茶麦子
2026-02-28 12:30:10
去政府部门借厕所,被怼“我还把你当神敬嘞”

去政府部门借厕所,被怼“我还把你当神敬嘞”

中国新闻周刊
2026-02-27 21:04:19
官宣!抗癌新药NK006获批,9万一针,晚期实体瘤患者新希望

官宣!抗癌新药NK006获批,9万一针,晚期实体瘤患者新希望

王晓爱体彩
2026-02-26 08:03:14
国家有难时,请交出你的黄金和美元

国家有难时,请交出你的黄金和美元

深度报
2026-02-27 21:34:36
美国防部施压Anthropic!谷歌、OpenAI 200余名员工联名声援Anthropic

美国防部施压Anthropic!谷歌、OpenAI 200余名员工联名声援Anthropic

爆角追踪
2026-02-27 16:51:58
特朗普呼吁伊朗政权更迭

特朗普呼吁伊朗政权更迭

界面新闻
2026-02-28 15:47:47
以色列大片地区响起警报

以色列大片地区响起警报

界面新闻
2026-02-28 16:18:15
巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

云舟史策
2026-02-28 07:43:52
战台北必须变阵!弃用余嘉豪紧急征调陶汉林,要出线还得铁血硬汉

战台北必须变阵!弃用余嘉豪紧急征调陶汉林,要出线还得铁血硬汉

林子说事
2026-02-28 14:31:21
外媒:初步报告称伊朗革命卫队损失惨重,多名革命卫队成员死伤

外媒:初步报告称伊朗革命卫队损失惨重,多名革命卫队成员死伤

中国网
2026-02-28 16:09:08
直落4局轻松胜出!王楚钦4-0张禹珍,强势跻身新加坡大满贯四强

直落4局轻松胜出!王楚钦4-0张禹珍,强势跻身新加坡大满贯四强

全景体育V
2026-02-28 16:03:50
国际原油价格涨幅扩大

国际原油价格涨幅扩大

界面新闻
2026-02-27 21:34:15
网传Anthropic CEO搭私人飞机飞往上海浦东

网传Anthropic CEO搭私人飞机飞往上海浦东

爆角追踪
2026-02-28 14:44:54
以色列消息人士说对伊朗第一阶段打击将持续4天,伊朗领导人都是打击目标

以色列消息人士说对伊朗第一阶段打击将持续4天,伊朗领导人都是打击目标

界面新闻
2026-02-28 15:25:12
老铺黄金2026年首轮涨价20%至30%,去年三次调价累计涨超45%

老铺黄金2026年首轮涨价20%至30%,去年三次调价累计涨超45%

每日经济新闻
2026-02-28 10:18:48
图讯 | 伊朗德黑兰市中心景象

图讯 | 伊朗德黑兰市中心景象

环球网资讯
2026-02-28 15:14:21
浙江一男子口头劝醉酒朋友别开车后离开,朋友几分钟后驾车身亡;法院:死者属严重醉酒状态,不应仅限于口头提醒,男子被判赔9.5万余元

浙江一男子口头劝醉酒朋友别开车后离开,朋友几分钟后驾车身亡;法院:死者属严重醉酒状态,不应仅限于口头提醒,男子被判赔9.5万余元

扬子晚报
2026-02-28 11:21:00
美国提案:谷爱凌将面临100%个税,上亿收入恐清零

美国提案:谷爱凌将面临100%个税,上亿收入恐清零

史鹷的生活科普
2026-02-27 15:13:55
持续4天空袭!从德黑兰到伊斯法罕:美以优先瘫痪伊朗指挥体系

持续4天空袭!从德黑兰到伊斯法罕:美以优先瘫痪伊朗指挥体系

装甲铲史官
2026-02-28 16:11:24
老人与十五级台阶的距离

老人与十五级台阶的距离

澎湃新闻
2026-02-28 07:38:31
2026-02-28 16:36:49

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

手机
家居
房产
教育
艺术

手机要闻

三星新“镜皇”HPA影像传感器曝光:200Mp 1/1.12支持LOFIC

家居要闻

素色肌理 品意式格调

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

教育要闻

中考真题,计算-3×5×(-7)

艺术要闻

2025第十四届中国艺术节全国优秀美术作品展 | 入选油画选刊

无障碍浏览 进入关怀版
×