亚马逊推出大语言模型文本转语音系统优化方案|音素|分类器|说话者|新论文|语音识别|知名企业|亚马逊公司

亚马逊推出大语言模型文本转语音系统优化方案

2026-04-02 22:50:04　来源: 至顶头条

北京举报

分享至

基于大语言模型的文本转语音模型在生成自然语音方面已经非常出色，甚至可以从短音频文件中克隆声音。但这些模型仍存在一些问题需要解决。

多语言文本转语音中的口音泄露问题

其中一个问题是多语言文本转语音中的口音泄露。理想情况下，应该能够将用英语录制的声音转换为法语、德语或西班牙语，并保持正确的口音且不丢失声音特征。但在大多数系统中，参考说话者的母语口音会泄露到目标语言中，或者目标语言的口音会覆盖说话者声音的特征。

表达力是另一个挑战，包括笑声、叹息、犹豫以及其他使语音更具吸引力的情感表达。

然后是可靠性问题。与传统的文本转语音系统不同，基于大语言模型的系统采用自回归方式，意味着它们逐个生成语音Token，而不显式建模持续时间。这可能导致产生幻觉重复、意外截断和不一致的发音。

在亚马逊，我们正在努力解决所有这些问题。

我们使用特定区域的数据增强方法来解决口音泄露问题。具体来说，我们使用低秩适应技术对多语言模型进行微调，使用大量偏向目标区域的数据。这也使我们能够进行无口音的多语言声音克隆：克隆的声音以类似母语的发音说目标语言，但不会丢失说话者身份。

我们使用无分类器引导来生成具有增强表达力的合成参考音频样本。在推理过程中使用这些样本作为条件，可以推动模型朝着更具表达性的韵律风格发展。

无分类器引导最初为扩散建模开发，它控制生成遵循条件的强度。基于无分类器引导的参考样本将说话者身份与口音分离，教会模型在采用目标语言母语发音的同时保留声音特征。

这使我们能够将少数录制的声音扩展到许多新的区域和语言，同时增加表达力。根据MUSHRA听力测试评分，我们模型在涵盖英语、法语、意大利语、德语和西班牙语的九个区域的多语言输出质量比之前的模型系列提高了5%到20%。

传统的文本转语音系统有失败模式，但幻觉和随机截断并不是主要问题。基于大语言模型的文本转语音系统可能生成听起来很自信但与输入不匹配的语音，有时会在句子中间停止。

传统文本转语音管道有明确的阶段：字素到音素转换、持续时间预测和声学生成。更新的非自回归端到端模型如FastSpeech在语音生成前显式预测持续时间。

基于大语言模型的文本转语音采用了不同的方法。持续时间从自回归生成中隐式出现。没有明确的计划来确定话语应该多长或每个音素应该持续多长时间。这就是为什么这些模型会产生幻觉（继续生成超出预期内容）或截断（过早停止）。

为了解决这个问题，我们在模型中添加了思维链推理：在生成语音Token之前，模型预测音素序列并估计持续时间（总长度和每个音素的时间）。

这与传统的文本转语音管道不同。在自回归架构上添加持续时间预测与在非自回归架构中构建它是不同的问题，有其自身的挑战。

音素预测使模型能够更可靠地处理同形异音词和不寻常的名称。持续时间预测为模型提供时间计划，减少幻觉和截断。这些预测对调试也很有用，因为您可以看到模型在开始生成之前"认为"它将要生成什么。

我们的防护机制使用思维链预测作为检查点。我们在生成开始前就知道预期的音素数量和大致的语音持续时间。生成后，我们进行一对检查：输出持续时间是否与预测匹配，以及输出长度考虑到音素数量是否合理？大的偏差标志着可能的幻觉或截断。

当智能体检测到问题时，它可以提示文本转语音系统使用不同的采样参数重新生成或回退到替代方法。

为了过滤传递给文本转语音模型的文本数据，我们将基于语音识别的指标与基于大语言模型注意力机制的指标相结合。自动语音识别捕捉实际的转录错误。综合来看，这些指标保留真正对齐良好的数据，同时保留仅使用语音识别过滤会丢弃的表达力。

在通用长篇文本上，我们的全套技术将关键错误减少到平均每小时不到一秒，其中"关键错误"包括幻觉、超过一个单词的截断以及输入文本与输出语音之间的不匹配。

基于大语言模型的文本转语音模型听起来明显比传统系统更自然。然而，根据我们的经验，它们引入了新的失败模式，需要在生产环境中可靠部署之前解决。我们发现基于低秩适应的微调解决了多语言文本转语音中观察到的严重口音泄露问题，而无分类器引导是提高表达力的有用工具。至于可靠性，我们发现智能数据过滤和思维链推理结合防护机制和智能体重新生成可以显著减少幻觉。

Q&A

Q1：什么是口音泄露问题？如何解决？

A：口音泄露是指多语言文本转语音系统中，参考说话者的母语口音会泄露到目标语言中，或者目标语言的口音会覆盖说话者声音的特征。亚马逊使用低秩适应技术对多语言模型进行微调，使用大量偏向目标区域的数据来解决这个问题。

Q2：基于大语言模型的文本转语音系统有什么新的失败模式？

A：与传统系统不同，基于大语言模型的文本转语音系统会产生幻觉（继续生成超出预期内容）和截断（过早停止）问题。这是因为这些系统采用自回归方式逐个生成语音Token，没有明确的持续时间规划。

Q3：思维链推理在文本转语音系统中起什么作用？

A：思维链推理让模型在生成语音Token之前先预测音素序列并估计持续时间。音素预测帮助模型更好地处理同形异音词，持续时间预测提供时间计划，减少幻觉和截断问题，同时便于调试。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.