Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
多语言和完全非自回归 ASR 与大语言模型融合:一项综合研究
https://arxiv.org/pdf/2401.12789v1
摘要
在大模型时代,解码过程的自回归特性常常导致延迟成为显著的瓶颈。我们提出了一种非自回归的LM融合语音识别(ASR)系统,该系统有效利用了加速器硬件的并行化能力。我们的方法将通用语音模型(USM)与PaLM 2语言模型结合,在每段评分模式下实现了在FLEURS数据集上平均相对词错误率(WER)改善10.8%,在YouTube字幕任务上改善3.6%。此外,我们进行了全面的消融研究,分析了诸如LLM大小、上下文长度、词汇量大小、融合方法等关键参数的影响。例如,我们研究了从128M到340B不同参数规模的LLM对ASR性能的影响。本研究为影响大规模实用型LM融合语音识别系统效果的因素提供了宝贵的见解。
关键词 :大语言模型,多语言语音识别
1. 引言
大规模模型在各类应用中展现出了令人印象深刻的效果,尤其是在多语言语音模型 [1, 2, 3, 4, 5] 和多语言大语言模型(LLMs)[6, 7, 8] 领域。下一步的发展方向是融合这些大型多语言模型以提升识别准确率。然而,它们的规模也带来了延迟问题,尤其是在自回归解码过程中表现明显,例如浅层融合(shallow fusion)[9]。
像语音助手和实时字幕这样的应用,正面临这些模型所带来的延迟挑战。意识到这一问题的重要性,我们提出了一种非自回归的LM融合语音识别(ASR)系统。该方法使用通用语音模型(USM)[10] 和 PaLM 2语言模型 [11],以8秒为单位对语音进行流式处理。USM和PaLM 2均能利用完整的音频上下文来处理每一个8秒的语音块,在提升准确性的同时,也能通过对序列进行并行处理来实现快速响应,从而带来流畅的用户体验。具体而言,我们在USM上附加一个CTC解码器,以非自回归方式生成候选假设,并通过在教师强制模式(teacher forcing mode)下将整个假设序列输入语言模型,以非自回归方式对这些候选进行评分 [12]。
我们的方法在公开的多语言测试集FLEURS上实现了平均相对词错误率(WER)10.8%的双位数提升。在一个具有挑战性的内部YouTube字幕测试集上,我们也观察到所有可用语言平均提升了3.6%。此外,我们的研究深入探讨了诸如语言模型大小(最大至340B参数)、词汇量、上下文长度、分段策略、n-best列表大小以及评分方法等因素的影响。例如,我们发现尽管大语言模型随着参数规模的增长展现出新兴能力(emergent behaviors)[13],但其对WER的改善却较为有限——不过更大的模型可以降低系统对融合权重的敏感性。
2. 相关工作
利用大语言模型(LLMs)来增强语音识别系统(ASR)已成为一个自然且有前景的研究方向,并在近期研究中取得了显著进展。已有若干研究专注于将LLMs与ASR模型进行整合,以充分利用其丰富的语言知识和上下文理解能力。例如,[14] 将T5 [15] 和 PaLM 1 [16] 与Conformer RNN-T模型结合,提升了英语及语码混合数据的语音识别性能。我们的工作在此基础上进一步推进,使用LLMs融合具有非自回归CTC头的大规模ASR模型。
[9] 使用浅层融合(shallow fusion)方法提升了短语音查询中罕见词的识别效果。相比之下,我们的研究重点在于YouTube字幕等长文本任务,在这类任务中,LLMs的上下文理解能力尤为重要。鉴于浅层融合在长任务中的局限性以及词汇表不匹配的问题,我们探索了评分(scoring)作为一种更高效的融合技术。
[17] 使用n-best评分方法将Listen-Attend-Spell Once模型 [18] 与BERT [19] 进行集成。我们在这一思路的基础上进行了扩展,部署了更大规模、支持多语言的模型。其他研究如 [20] 探索了LLMs与ASR系统之间的多种融合方式。他们令人意外的发现是:简单的浅层融合方法在性能上可与更复杂的深层融合技术相媲美。同样地,[21] 在使用LLaMa LLM进行两种融合方法实验时,发现词错误率(WER)结果差异甚微,这也印证了 [20] 的结论。
基于上述研究成果,我们的研究强调采用“评分”作为融合方法,旨在构建一种实用且可扩展的ASR+LLM解决方案,适用于真实世界的应用场景。
3. 方法
3.1. 语音模型
我们采用通用语音模型(Universal Speech Model,USM)[10],这是一个具有20亿参数的Conformer [22] 模型,包含32层,模型维度为1536。该模型用于生成语音识别的候选假设。其词汇表由16384个子词单元(wordpieces)组成,并使用CTC解码器实现非自回归、并行化的推理过程。
在训练过程中,USM采用了多任务学习方法。它在超过1200万小时的未标注音频数据和280亿句文本数据上进行训练,同时还使用了11万小时的有监督音频数据和10万小时的半监督音频数据。所有训练数据均为多语言的。USM具备分块双向注意力机制,能够在训练中对30秒长的语音段进行建模。与传统的基于音频的分块方式不同,这种方法在整个语音流中保持连续状态,从而可以每8秒输出一次流式结果,提升用户体验。
3.2. 语言模型
我们使用PaLM 2语言模型 [11] 对ASR生成的候选假设进行评分。该模型在网页文档、书籍等多种数据源上进行了训练,使用了一个包含256k个子词单元的词汇表。相比其前身PaLM 1 [16],PaLM 2通过改进的训练策略、架构优化以及更长的上下文长度,在自然语言任务中展现出更优越的性能。
我们在语音识别评分任务中评估了预训练版本的PaLM 2,并采用前缀语言模型评分模式 [23]:将模型以固定前缀(来自前一段的最优假设)进行提示,并对多个后缀假设(当前段的不同候选假设)进行评分。
3.3. 长文本推理
为了在不受内存限制的情况下处理长文本音频,我们采用了一种流式处理框架,逐帧处理音频。利用USM的分块注意力机制,一旦8秒的音频可用,我们就对其进行编码,并将其传递给CTC解码器。这些CTC概率构成了一个混淆网络格(lattice),编码了可能的子词单元序列。
由于每一帧编码是相互独立的,因此对应的子词分布也是彼此独立的。这样一来,格中的候选假设数量会随着音频长度呈指数增长,使得用LLM对所有候选进行评分变得不可行。
3.4. 语言模型评分
为了应对候选假设数量的指数增长问题,我们将格划分为8秒的语音段,并仅对当前段的候选假设进行评分。为了保持上下文连贯性,我们使用前两个语音段中得分最高的假设拼接作为语言模型的前缀。这个迭代过程每8秒更新一次,确保前缀始终是最近两个语音段中最优的假设。
为了生成语言模型所需的后缀,我们从格中选取得分最高的N个候选假设,并将它们批量组合成后缀序列进行评分。结合语言模型(LM)和语音模型(ASR)的得分,给定音频 x 和假设 y 的联合得分表示为:
最终选择得分最高的候选假设作为最终的转录结果。按语音段进行评分的方式具有可并行性,是非自回归的,并且在用户说话过程中每8秒以流式模式更新一次。
4. 评估
在我们的所有评估中,除非另有说明,均采用以下设置:
美式英语区域设置(US English locale)
使用10亿参数版本的PaLM 2
语言模型评分权重设为0.3(根据此处列出的设置进行优化)
上下文长度为前两个语音段
n-best列表大小为16
使用YouTube字幕测试集,详见下一节描述
4.1. 测试集
YouTube视频涵盖多种类别,使其非常适合我们的语言模型评分研究。我们评估了一个常用的YouTube字幕测试集YT LONG,该测试集包含多种语言的点播视频内容 [24, 25, 26, 27, 14]。对于美式英语,该测试集包含77个视频,总计22.2小时,平均每个语音片段长度为14.8分钟。其他语言平均包含61个视频和17小时音频。我们还对FLEURS测试集 [28] 进行了分析,该测试集每种语言包含600至900个语音片段,其中美式英语有647个。所有语言合计总时长为283小时。
4.2. 所有语言的结果
所有语言的评估结果如图1所示。我们测试了四种不同的语言模型评分权重 λ 值:{0.15, 0.30, 0.45, 0.60}。在YouTube测试集上(图1顶部),集成PaLM 2使美式英语(en-us)的词错误率(WER)降低了4.1%,15种语言平均降低3.6%。在FLEURS测试集上(图1底部),提升更为显著:美式英语降低了9.7%,平均相对改善达到10.8%。所有语言均未出现性能下降。
4.3. 对语言模型大小的依赖性
大型语言模型随着规模、数据量和计算资源的增加,展现出新兴能力(emergent abilities)[13, 29]。本研究使用不同规模的PaLM 2变体对ASR候选假设评分进行了评估。表1中的结果显示,尽管词错误率(WER)随着模型规模的增大(E2–E6)有所改善,但提升幅度可能无法抵消推理成本的上升。此外,最优的语言模型评分权重也随模型规模而增加,从128M参数模型的0.25增加到340B参数模型的0.45(见图2)。较大的模型在语言模型权重变化时表现出较低的WER敏感度。这表明,较小的模型需要谨慎地设置权重,而更大的模型由于识别准确性更高,可以承受更高的权重而不至于选择错误的假设。
4.4. 对上下文长度的依赖性
通过调整用于提示的历史语音段数量,我们可以粗略控制语言模型的上下文长度。图3显示,将前4个语音段(即32秒解码文本)拼接起来效果最佳。包含超过4个语音段时性能略有下降,可能是由于语言模型评分权重是在前2个语音段的基础上优化的。结果表明,使用约32秒或大约50个词的上下文可以提升ASR性能。然而,在此之后继续增加上下文带来的收益有限,这与许多自然语言处理任务中需要更长上下文的情况有所不同。
4.5. 对词汇量大小的依赖性
PaLM 2拥有256k个token的词汇表,专为自然语言生成进行优化。分段评分的一个优势在于可以通过重新分词来处理ASR模型与LLM之间的词汇表不匹配问题。在10亿参数版本的PaLM 2中,嵌入层和softmax层占据了约三分之一的模型参数。我们测试了将PaLM 2的词汇量缩减至32k以降低计算成本。表2的结果显示,使用较小的词汇表仅带来轻微的性能下降。因此,采用较小的词汇表可以在保持良好性能的同时节省计算资源。
4.6. 对分段策略的依赖性
分段策略决定了使用语言模型对混淆网络格(lattice)进行评分的频率,进而影响用户体验和转录质量 [27, 30, 31]。我们评估了固定长度的分段方式以及基于语音活动检测器(VAD)的分段方法 [32]。虽然VAD方法避免了截断单词的问题,但由于其产生的语音段长度不一致,在流式按段处理场景下可能会影响用户体验。VAD生成的语音段中位长度约为5秒。
表3中的结果显示,固定长度分段(B3)优于VAD(E8),这一发现与 [30] 中的结论相反。这是由于模型结构的不同:[30] 使用的是RNN-T模型,在分段时会丢弃大部分候选假设,而我们的CTC模型不保留解码器状态,因此对过早分段具有更强的鲁棒性。图4显示,在语音段长度超过3秒后,WER趋于稳定。这证明,与RNN-T不同,CTC得益于其非依赖性的混淆网络结构,不会受到词语截断的影响。
4.7 假设数量的依赖性
随着片段长度的增加,格点中的路径数量也会增加,但计算限制会限制评分的假设数量。图5展示了一项关于n最佳列表大小的研究,该大小表示每个片段评分的假设数量。随着列表的扩展,性能得到提升,并在大约1024时趋于平稳。这种增长表明格点的密度很高,允许大型语言模型(LLM)在计算限制范围内继续提升转录质量。
4.8 与浅层融合的比较
我们的研究主要关注按片段的语言模型(LM)评分。另一种方法是按帧评分或浅层融合,由于其自回归解码和频繁的语言模型调用,这种方法的计算负担更重。
表4中的性能比较显示,按帧评分(E9)的错误率为13.70(相对于没有语言模型时下降了5.4%),优于按片段评分(B4)的13.88(下降了4.1%)。浅层融合在非低延迟场景中,在词汇匹配的情况下表现出色。对于按帧评分,我们重新训练了自动语音识别(ASR)模型,使其使用PaLM 2的词汇表。
5结论
我们开发了一个可部署的大规模多语言语音识别(ASR)系统,着重强调实用性。通过采用基于CTC(连接时序分类)和分段语言模型评分的非自回归系统,我们在YouTube字幕和FLEURS数据集上实现了跨语言性能提升。本研究还揭示了系统参数对ASR效能的影响机制。
原文链接:https://arxiv.org/pdf/2401.12789v1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.