网易首页 > 网易号 > 正文 申请入驻

亚马逊推出大语言模型文本转语音系统优化方案

0
分享至


基于大语言模型的文本转语音模型在生成自然语音方面已经非常出色,甚至可以从短音频文件中克隆声音。但这些模型仍存在一些问题需要解决。

多语言文本转语音中的口音泄露问题

其中一个问题是多语言文本转语音中的口音泄露。理想情况下,应该能够将用英语录制的声音转换为法语、德语或西班牙语,并保持正确的口音且不丢失声音特征。但在大多数系统中,参考说话者的母语口音会泄露到目标语言中,或者目标语言的口音会覆盖说话者声音的特征。

表达力是另一个挑战,包括笑声、叹息、犹豫以及其他使语音更具吸引力的情感表达。

然后是可靠性问题。与传统的文本转语音系统不同,基于大语言模型的系统采用自回归方式,意味着它们逐个生成语音Token,而不显式建模持续时间。这可能导致产生幻觉重复、意外截断和不一致的发音。

在亚马逊,我们正在努力解决所有这些问题。

我们使用特定区域的数据增强方法来解决口音泄露问题。具体来说,我们使用低秩适应技术对多语言模型进行微调,使用大量偏向目标区域的数据。这也使我们能够进行无口音的多语言声音克隆:克隆的声音以类似母语的发音说目标语言,但不会丢失说话者身份。

我们使用无分类器引导来生成具有增强表达力的合成参考音频样本。在推理过程中使用这些样本作为条件,可以推动模型朝着更具表达性的韵律风格发展。

无分类器引导最初为扩散建模开发,它控制生成遵循条件的强度。基于无分类器引导的参考样本将说话者身份与口音分离,教会模型在采用目标语言母语发音的同时保留声音特征。

这使我们能够将少数录制的声音扩展到许多新的区域和语言,同时增加表达力。根据MUSHRA听力测试评分,我们模型在涵盖英语、法语、意大利语、德语和西班牙语的九个区域的多语言输出质量比之前的模型系列提高了5%到20%。

传统的文本转语音系统有失败模式,但幻觉和随机截断并不是主要问题。基于大语言模型的文本转语音系统可能生成听起来很自信但与输入不匹配的语音,有时会在句子中间停止。

传统文本转语音管道有明确的阶段:字素到音素转换、持续时间预测和声学生成。更新的非自回归端到端模型如FastSpeech在语音生成前显式预测持续时间。

基于大语言模型的文本转语音采用了不同的方法。持续时间从自回归生成中隐式出现。没有明确的计划来确定话语应该多长或每个音素应该持续多长时间。这就是为什么这些模型会产生幻觉(继续生成超出预期内容)或截断(过早停止)。

为了解决这个问题,我们在模型中添加了思维链推理:在生成语音Token之前,模型预测音素序列并估计持续时间(总长度和每个音素的时间)。

这与传统的文本转语音管道不同。在自回归架构上添加持续时间预测与在非自回归架构中构建它是不同的问题,有其自身的挑战。

音素预测使模型能够更可靠地处理同形异音词和不寻常的名称。持续时间预测为模型提供时间计划,减少幻觉和截断。这些预测对调试也很有用,因为您可以看到模型在开始生成之前"认为"它将要生成什么。

我们的防护机制使用思维链预测作为检查点。我们在生成开始前就知道预期的音素数量和大致的语音持续时间。生成后,我们进行一对检查:输出持续时间是否与预测匹配,以及输出长度考虑到音素数量是否合理?大的偏差标志着可能的幻觉或截断。

当智能体检测到问题时,它可以提示文本转语音系统使用不同的采样参数重新生成或回退到替代方法。

为了过滤传递给文本转语音模型的文本数据,我们将基于语音识别的指标与基于大语言模型注意力机制的指标相结合。自动语音识别捕捉实际的转录错误。综合来看,这些指标保留真正对齐良好的数据,同时保留仅使用语音识别过滤会丢弃的表达力。

在通用长篇文本上,我们的全套技术将关键错误减少到平均每小时不到一秒,其中"关键错误"包括幻觉、超过一个单词的截断以及输入文本与输出语音之间的不匹配。

基于大语言模型的文本转语音模型听起来明显比传统系统更自然。然而,根据我们的经验,它们引入了新的失败模式,需要在生产环境中可靠部署之前解决。我们发现基于低秩适应的微调解决了多语言文本转语音中观察到的严重口音泄露问题,而无分类器引导是提高表达力的有用工具。至于可靠性,我们发现智能数据过滤和思维链推理结合防护机制和智能体重新生成可以显著减少幻觉。

Q&A

Q1:什么是口音泄露问题?如何解决?

A:口音泄露是指多语言文本转语音系统中,参考说话者的母语口音会泄露到目标语言中,或者目标语言的口音会覆盖说话者声音的特征。亚马逊使用低秩适应技术对多语言模型进行微调,使用大量偏向目标区域的数据来解决这个问题。

Q2:基于大语言模型的文本转语音系统有什么新的失败模式?

A:与传统系统不同,基于大语言模型的文本转语音系统会产生幻觉(继续生成超出预期内容)和截断(过早停止)问题。这是因为这些系统采用自回归方式逐个生成语音Token,没有明确的持续时间规划。

Q3:思维链推理在文本转语音系统中起什么作用?

A:思维链推理让模型在生成语音Token之前先预测音素序列并估计持续时间。音素预测帮助模型更好地处理同形异音词,持续时间预测提供时间计划,减少幻觉和截断问题,同时便于调试。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你要跟女人相处的好,别把女人说的话太当回事

你要跟女人相处的好,别把女人说的话太当回事

加油丁小文
2026-04-06 05:00:03
尼泊尔女性一生都不用守寡,得知真相后,很多人沉默了

尼泊尔女性一生都不用守寡,得知真相后,很多人沉默了

千秋历史
2026-02-05 21:19:21
退掉美国国籍,不惧美“挽留”毅然回国,全美冠军:我只为中国战

退掉美国国籍,不惧美“挽留”毅然回国,全美冠军:我只为中国战

拳击时空
2026-04-05 07:10:03
银行不会直说的潜规则:存款满50万,你就有资格提条件

银行不会直说的潜规则:存款满50万,你就有资格提条件

王二哥老搞笑
2026-04-03 01:16:36
世界杯男子奖金排行榜:王楚钦62万,张本智和12万,温瑞博6万

世界杯男子奖金排行榜:王楚钦62万,张本智和12万,温瑞博6万

林子说事
2026-04-06 02:43:51
外媒:“绝对不可能”!中国已经能制造出足以进行核聚变的超级钢

外媒:“绝对不可能”!中国已经能制造出足以进行核聚变的超级钢

阿纂看事
2026-04-03 21:10:57
祝贺!35岁数学家王虹,获得最高荣誉

祝贺!35岁数学家王虹,获得最高荣誉

双一流高校
2026-04-06 00:09:39
原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

日落于西
2026-03-20 12:23:08
下跌未结束!黄金有望跌破4000美元/盎司,白银有望跌破60美元/盎司

下跌未结束!黄金有望跌破4000美元/盎司,白银有望跌破60美元/盎司

东方豪侠
2026-04-05 09:47:22
王楚钦冲过去拥抱王励勤!许昕:感谢他的黑子 给中国队带来福气

王楚钦冲过去拥抱王励勤!许昕:感谢他的黑子 给中国队带来福气

念洲
2026-04-05 23:03:51
割了日本还想割中国?一旦中国被踢出美元结算,将会意味着什么?

割了日本还想割中国?一旦中国被踢出美元结算,将会意味着什么?

至死不渝的爱情
2026-04-05 04:00:27
没想到,郑丽文访问大陆前,因一个举动实现口碑暴增

没想到,郑丽文访问大陆前,因一个举动实现口碑暴增

阿筀田间生活
2026-04-05 15:31:42
世界杯乒乓球颁奖典礼:松岛辉空让人唏嘘,大头莎莎还谦让上了

世界杯乒乓球颁奖典礼:松岛辉空让人唏嘘,大头莎莎还谦让上了

格斗江湖人
2026-04-06 01:14:31
确认离队!广东队迎来换帅最佳人选,比李春江更适合取代杜锋?

确认离队!广东队迎来换帅最佳人选,比李春江更适合取代杜锋?

绯雨儿
2026-04-05 15:13:41
川崎毫无征兆,车价暴降!张雪机车让日系车商集体慌了!

川崎毫无征兆,车价暴降!张雪机车让日系车商集体慌了!

达文西看世界
2026-04-05 20:14:06
美媒终于发现:炸完,伊朗几小时就能修好

美媒终于发现:炸完,伊朗几小时就能修好

观察者网
2026-04-05 18:28:08
天雷滚滚,中移动利润下滑20%,中石油中冶下滑,28中字头暴雷

天雷滚滚,中移动利润下滑20%,中石油中冶下滑,28中字头暴雷

鹏哥投研
2026-04-05 18:20:30
“这种衣服咋能穿出门?”女孩被3.9万人围观,家教太松不是好事

“这种衣服咋能穿出门?”女孩被3.9万人围观,家教太松不是好事

妍妍教育日记
2026-03-08 08:00:10
知道去不成中国了?鲁比奥发表涉华声明,一句话给巴拿马干沉默了

知道去不成中国了?鲁比奥发表涉华声明,一句话给巴拿马干沉默了

影孖看世界
2026-04-04 16:14:23
美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

粤语音乐喷泉
2026-04-05 16:55:07
2026-04-06 06:19:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗军方:过去两天击落美12架战机 含4架“黑鹰”

头条要闻

伊朗军方:过去两天击落美12架战机 含4架“黑鹰”

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
本地
艺术
数码
公开课

旅游要闻

文明旅游|清明出游请注意!莫让这些不文明行为煞风景!

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

绝了!东西方两幅神画,一眼就上瘾

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版