英伟达发布具有表现力的语音合成产品，或消除AI和人类声音的鸿沟|语音识别|ai

英伟达发布具有表现力的语音合成产品，或消除AI和人类声音的鸿沟

分享至

当前，AI语音助手正越来越深入地走近人类生活，也在最近几年迎来了显著发展。如今的语音导航在AI的加持下，已变得既灵活又聪明，例如亚马逊公司的 Alexa、Google Assistant、小米公司的小爱同学等。尽管这些AI语音助手已经进步了不少，也更加人性化，但是还是拥有许多相对明显的缺陷，尤其是节奏感匮乏、语调十分单一，且音色与音质带有浓厚的“机械感”。

目前AI语音助手的声音，与人类自然的声音之间还有着很大鸿沟。不过最近，英伟达公司在Interspeech 2021 会议上发布的一系列新的研究和工具，将有可能消除这一鸿沟。借助英伟达公司发布的这几款工具模型，开发者可用自己的声音来训练 AI 系统，去捕捉学习丰富的人类自然语音、并进行模仿，且不会出现音频杂音。

应用这一模型后，银行和超市的自动客户服务的语音配音将会更加自然，客户将会感到更加亲切；各种视频游戏以及有声书籍中的人物也会更加栩栩如生，玩家和读者将会得到更高端的体验。另据悉，这一模型将可以提供实时语音合成，人与机器的实时对话将会更加自然。

这次新发布的模型之一，是英伟达文本转语音研究团队所开发的名为 RAD-TTS 的模型。英伟达在SIGGRAPH Real-Time Live比赛的获奖演示中采用的也正是RAD- TTS模型，旨在让语音合成模型更强大、更可控。开发者在使用人类语音音频训练文本-语音模型之后，RAD-TTS模型可做到将任何文本转换成说话人的声音，并且在各方面都可以调节包括节奏、音调、音色等。

而RAD-TTS模型还有另一项功能就是语音转换，用户能用另一个人的声音来转述某个人说过的话甚至是唱过的歌。利用该功能，用户可给合成语言进行各种细节上的微调，包括音调、持续时间和强度等，调节时可达到帧级控制。

举例来说，一位男性视频制作者可在录制中先用自己的声音阅读视频中的文本以进行配音录制，同时这位视频制作者不需要寻找一位女性配音，只需通过这个AI接口，就可将男叙述者的语音转换成女叙述者的声音。

再比如，在视频制作做好的配音初版的基础上，用AI作为工具给视频中的配音进行微调，用户就像指导配音演员一样命令AI，例如让AI在特定的词语上进行强调，借此调整叙述的节奏，从而更好地表达视频中的语气等。

该模型的文本-语音转换功能不仅能用在游戏中，还可给声音障碍的人士提供语音辅助，或者帮助人类用自己的声音借助AI，用不同的尤其是自己不会的语言“说外语”，它还可以合成标志性歌手的表演，匹配上不同的旋律和情感。

而让AI的声音听起来更加自然只是英伟达研究院在对话式AI的研究重点之一，即具有表现力的语音合成。除此之外，在对话式AI领域如自然语言处理、自动语音识别、关键词检测、音频增强等领域，该公司也在进行相关研究。

此外，英伟达还为AI开发者和研究者准备了NeMo工具包，这款用于GPU加速对话式AI的开源Python工具包，将提供更强大的语音功能，让用户在应用试验和语音模型的微调方面掌握先机。

NeMo工具包中包含使用度友好的API和预训练模型，用户根据这一工具包可开发用于文本-语音转换、自然语言处理和实时自动语音识别的模型。

通过英伟达NGC容器，NeMo工具包还提供在Mozilla Common Voice上训练的模型，这一数据集包含了76种语言，将近14000小时的众包语音数据。它的目的是靠着全球最大的开源数据语音级，在英伟达的支持下，让语音技术更加普及。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.