网易首页 > 网易号 > 正文 申请入驻

谷歌的野心:通用语音识别大模型已经支持100+语言

0
分享至

选自googleblog

机器之心编译

编辑:小舟、杜伟

谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。

去年 11 月,谷歌宣布推出「1000 种语言计划」,旨在构建一个机器学习 (ML) 模型,支持世界上使用最广泛的 1000 种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

现在,谷歌公开了更多有关通用语音模型 (USM) 的信息,这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型,带有 20 亿参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。

USM 支‍持的语言示例。

当前的挑战

为了实现「1000 种语言计划」,谷歌需要解决 ASR 中的两个重大挑战。

首先,传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获得足够的数据来训练高质量的模型。使用传统方法,音频数据需要手动标记,这既费时又昂贵;或者从已有数据中收集可用数据,但这对于使用人数很少的语言来说很难找到。

相比之下,自监督学习可以利用纯音频数据,这些数据包含大量不同的语言,使得自监督学习成为实现跨数百种语言扩展的好方法。

另一个挑战是,在扩大语言覆盖范围和提升模型质量的同时,模型必须以计算高效的方式进行改进。这就要求学习算法具有灵活性、高效性和泛化性。更具体地说,算法需要能够使用来自各种来源的大量数据,在不需要完全重新训练的情况下启用模型更新,并推广到新的语言和用例。

解决方法:带有微调的自监督学习

USM 使用标准的编码器 - 解码器架构,其中解码器可以是 CTC、RNN-T 或 LAS。对于编码器,USM 使用 Conformer 或卷积增强型 transformer。Conformer 的关键组件是 Conformer 块,它由注意力模块、前馈模块和卷积模块组成。它将语音信号的 log-mel 声谱图作为输入并执行卷积下采样,之后应用一系列 Conformer 块和投影层以获得最终嵌入。

USM 的训练流程如下图所示:

第一步先从对涵盖数百种语言的语音音频进行自监督学习开始。

第二步是可选步骤,谷歌通过使用文本数据进行额外的预训练来提高模型的质量和语言覆盖率。是否采用这个步骤取决文本数据是否可用。

训练 pipeline 的最后一步是使用少量有监督数据微调下游任务(例如,ASR 或自动语音翻译)。

USM 的整体训练流程。

第一步中谷歌使用了 BEST-RQ,因为它已经在多语言任务上展示了 SOTA 结果,并且在使用大量无监督音频数据时被证明是有效的。

在第二步中,谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM 模型引入了一个额外的编码器模块将文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,然后再在未标记语音、标记语音和文本数据上联合训练模型。

凭借在预训练期间获得的知识,最后一步 USM 模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。

主要结果展示

YouTube Captions 测试集上不同语言的性能

谷歌的编码器通过预训练整合了 300 多种语言,并通过在 YouTube Caption 多语言语音数据上微调证明了该预训练编码器的有效性。监督式 YouTube 数据包括 73 种语言,每种语言平均具有不超过 3000 小时的数据。尽管监督数据有限,USM 仍在 73 种语言中平均实现了低于 30% 的词错率(WER,越低越好),这是以往从未实现的里程碑。对于 en-US,与当前谷歌内部 SOTA 模型相比,USM 的 WER 相对降低了 6%。

谷歌还与 OpenAI 近期发布的大模型 Whisper (large-v2) 进行了比较,后者使用超过 400k 小时的标注数据进行训练。为了便于比较,谷歌仅使用 Whisper 可以成功解码且 WER 低于 40% 的 18 种语言。结果如下图所示,USM 的平均 WER 比 Whisper 低了 32.7%

对于下游 ASR 任务的泛化性能

对于公开可用的数据集,USM 在 CORAAL(非裔美国人土语)、SpeechStew(en-US)和 FLEURS(102 种语言)数据集上显示出了较 Whisper 更低的 WER。USM 在接受和没有接受域内数据训练的情况下都实现了更低的 WER。具体结果如下图所示。

自动语音翻译(AST)性能

对于语音翻译,谷歌在 CoVoST 数据集上进行微调。谷歌的模型(包括通过 pipeline 第二阶段的文本)在有限监督数据下实现了 SOTA 性能。此外,为了评估模型性能的广度,谷歌根据资源可利用性将 CoVoST 数据集中的语言分为了高(high)、中(medium)和低(low),并计算相应的 BLEU 分数(越高越好)。

如下图所示,USM 在所有语言细分中超越了 Whisper

未来将支持 1000 种语言

USM 的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信,USM 的基础模型架构和训练 pipeline 奠定了将语音建模扩展到未来 1000 种语言的根基。

更多细节请参阅相关论文:
https://arxiv.org/abs/2303.01037v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄媒:血检结果显示,俄恐袭嫌犯发动袭击前均曾服用“抑制恐惧”的药物

俄媒:血检结果显示,俄恐袭嫌犯发动袭击前均曾服用“抑制恐惧”的药物

红星新闻
2024-03-29 12:24:10
邯郸初中生被3名同学杀害,可怕的后遗症来了,还能不警醒吗?

邯郸初中生被3名同学杀害,可怕的后遗症来了,还能不警醒吗?

蝴蝶花雨话教育
2024-03-28 05:15:03
唐山大地震救灾士兵离奇退伍,临终坦白:竟是看到了不该看的东西

唐山大地震救灾士兵离奇退伍,临终坦白:竟是看到了不该看的东西

小红帽笔记
2023-08-07 18:35:01
卡罗拉上月卖出2743辆,曾经的销量王者,正因自大傲慢走向绝路

卡罗拉上月卖出2743辆,曾经的销量王者,正因自大傲慢走向绝路

绝密探照灯
2024-03-28 11:00:03
哈登最大的能力你想不到,对快船的战术安排远高于泰伦卢

哈登最大的能力你想不到,对快船的战术安排远高于泰伦卢

元爸体育
2024-03-29 12:36:34
八村塁再砍32+10!哈姆是真要后悔了,早这么干湖人哪至于排第九

八村塁再砍32+10!哈姆是真要后悔了,早这么干湖人哪至于排第九

奕辰说球
2024-03-29 11:39:44
澳门广州两女学生被骗到珠海失联,已找到!有人已转账20万

澳门广州两女学生被骗到珠海失联,已找到!有人已转账20万

南方都市报
2024-03-28 15:05:54
3月28日,李雪琴,大瓜!

3月28日,李雪琴,大瓜!

元气少女侃娱乐
2024-03-28 14:43:54
仁川冠军赛最新战报,两位世界冠军惨败出局,陈梦决战张本美和

仁川冠军赛最新战报,两位世界冠军惨败出局,陈梦决战张本美和

开心体育站
2024-03-29 11:09:47
女子与丈夫吵架,竟然一气之下捏住丈夫的下体,导致悲剧发生

女子与丈夫吵架,竟然一气之下捏住丈夫的下体,导致悲剧发生

户外阿崭
2024-03-29 07:10:24
权威机构联合揭示中国人化学物暴露,江浙沪血清化学物浓度最高!

权威机构联合揭示中国人化学物暴露,江浙沪血清化学物浓度最高!

生命科学前沿
2024-03-27 17:37:07
93年我考上军校,常年欺负我们家的村长,却登门苦求我娶他女儿

93年我考上军校,常年欺负我们家的村长,却登门苦求我娶他女儿

我是玲玲
2024-03-24 19:17:21
新手父母有多不靠谱?网友:把刚出生的婴儿饿晕了!

新手父母有多不靠谱?网友:把刚出生的婴儿饿晕了!

阿燕姐说育儿
2024-02-28 12:29:35
小米SU7售21.59-29.99万元!雷军:冰箱、彩电、大沙发免费送

小米SU7售21.59-29.99万元!雷军:冰箱、彩电、大沙发免费送

网上车市
2024-03-28 21:13:35
李沁出席电视剧品质盛典,一身白色小香风套装,安静怡人

李沁出席电视剧品质盛典,一身白色小香风套装,安静怡人

室内设计师阿喇
2024-03-29 11:38:39
真实欧洲:大部分行业收入2000-3000欧!工资没比中国多多少!

真实欧洲:大部分行业收入2000-3000欧!工资没比中国多多少!

杂谈哥闲谈
2024-03-18 19:58:16
代价高达40亿美元!巴尔的摩大桥倒塌让80家保险公司“虎躯一震”

代价高达40亿美元!巴尔的摩大桥倒塌让80家保险公司“虎躯一震”

财联社
2024-03-28 17:26:19
内地女误带30元蝴蝶兰入境香港损失惨重!一家大小被海关扣至凌晨

内地女误带30元蝴蝶兰入境香港损失惨重!一家大小被海关扣至凌晨

冬天来旅游
2024-03-28 18:35:02
港媒:C929宽体客机研制进入“关键阶段”

港媒:C929宽体客机研制进入“关键阶段”

参考消息
2024-03-29 09:48:10
44岁的高圆圆无修图照片

44岁的高圆圆无修图照片

娱乐圈酸柠檬
2024-03-24 18:27:45
2024-03-29 13:26:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8835文章数 141871关注度
往期回顾 全部

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

头条要闻

赖清德就职前 美众议院军委会成员窜台

头条要闻

赖清德就职前 美众议院军委会成员窜台

体育要闻

拒绝为国出战,他是足坛"天选打工人"

娱乐要闻

胡夏被曝有孩子!工作室火速辟谣

财经要闻

月薪1万!万科高管自愿降薪 曾年薪千万

汽车要闻

找回久违的开怀大笑 试驾小米SU7 Max

态度原创

本地
亲子
教育
艺术
公开课

本地新闻

专访|张伟潮:最年轻的龙头专职制造者

亲子要闻

4个春天长高冠军,矮个娃个子猛冲185

教育要闻

把这款名校墙贴送给孩子比玩具更有意义 让他打开眼界和认知 树立自己目标

艺术要闻

艺术开卷|从闺阁、庭院到郊野,古画中的女性生活空间

公开课

30岁之前,你要学会的13件事情

无障碍浏览 进入关怀版