大语言模型如何赋能多语言语音识别？|上下文|词汇表

分享至

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

多语言和完全非自回归 ASR 与大语言模型融合：一项综合研究

https://arxiv.org/pdf/2401.12789v1

摘要
在大模型时代，解码过程的自回归特性常常导致延迟成为显著的瓶颈。我们提出了一种非自回归的LM融合语音识别（ASR）系统，该系统有效利用了加速器硬件的并行化能力。我们的方法将通用语音模型（USM）与PaLM 2语言模型结合，在每段评分模式下实现了在FLEURS数据集上平均相对词错误率（WER）改善10.8%，在YouTube字幕任务上改善3.6%。此外，我们进行了全面的消融研究，分析了诸如LLM大小、上下文长度、词汇量大小、融合方法等关键参数的影响。例如，我们研究了从128M到340B不同参数规模的LLM对ASR性能的影响。本研究为影响大规模实用型LM融合语音识别系统效果的因素提供了宝贵的见解。

关键词 ：大语言模型，多语言语音识别

1. 引言

大规模模型在各类应用中展现出了令人印象深刻的效果，尤其是在多语言语音模型 [1, 2, 3, 4, 5] 和多语言大语言模型（LLMs）[6, 7, 8] 领域。下一步的发展方向是融合这些大型多语言模型以提升识别准确率。然而，它们的规模也带来了延迟问题，尤其是在自回归解码过程中表现明显，例如浅层融合（shallow fusion）[9]。

像语音助手和实时字幕这样的应用，正面临这些模型所带来的延迟挑战。意识到这一问题的重要性，我们提出了一种非自回归的LM融合语音识别（ASR）系统。该方法使用通用语音模型（USM）[10] 和 PaLM 2语言模型 [11]，以8秒为单位对语音进行流式处理。USM和PaLM 2均能利用完整的音频上下文来处理每一个8秒的语音块，在提升准确性的同时，也能通过对序列进行并行处理来实现快速响应，从而带来流畅的用户体验。具体而言，我们在USM上附加一个CTC解码器，以非自回归方式生成候选假设，并通过在教师强制模式（teacher forcing mode）下将整个假设序列输入语言模型，以非自回归方式对这些候选进行评分 [12]。

我们的方法在公开的多语言测试集FLEURS上实现了平均相对词错误率（WER）10.8%的双位数提升。在一个具有挑战性的内部YouTube字幕测试集上，我们也观察到所有可用语言平均提升了3.6%。此外，我们的研究深入探讨了诸如语言模型大小（最大至340B参数）、词汇量、上下文长度、分段策略、n-best列表大小以及评分方法等因素的影响。例如，我们发现尽管大语言模型随着参数规模的增长展现出新兴能力（emergent behaviors）[13]，但其对WER的改善却较为有限——不过更大的模型可以降低系统对融合权重的敏感性。

2. 相关工作

利用大语言模型（LLMs）来增强语音识别系统（ASR）已成为一个自然且有前景的研究方向，并在近期研究中取得了显著进展。已有若干研究专注于将LLMs与ASR模型进行整合，以充分利用其丰富的语言知识和上下文理解能力。例如，[14] 将T5 [15] 和 PaLM 1 [16] 与Conformer RNN-T模型结合，提升了英语及语码混合数据的语音识别性能。我们的工作在此基础上进一步推进，使用LLMs融合具有非自回归CTC头的大规模ASR模型。

[9] 使用浅层融合（shallow fusion）方法提升了短语音查询中罕见词的识别效果。相比之下，我们的研究重点在于YouTube字幕等长文本任务，在这类任务中，LLMs的上下文理解能力尤为重要。鉴于浅层融合在长任务中的局限性以及词汇表不匹配的问题，我们探索了评分（scoring）作为一种更高效的融合技术。

[17] 使用n-best评分方法将Listen-Attend-Spell Once模型 [18] 与BERT [19] 进行集成。我们在这一思路的基础上进行了扩展，部署了更大规模、支持多语言的模型。其他研究如 [20] 探索了LLMs与ASR系统之间的多种融合方式。他们令人意外的发现是：简单的浅层融合方法在性能上可与更复杂的深层融合技术相媲美。同样地，[21] 在使用LLaMa LLM进行两种融合方法实验时，发现词错误率（WER）结果差异甚微，这也印证了 [20] 的结论。

基于上述研究成果，我们的研究强调采用“评分”作为融合方法，旨在构建一种实用且可扩展的ASR+LLM解决方案，适用于真实世界的应用场景。

3. 方法

3.1. 语音模型

我们采用通用语音模型（Universal Speech Model，USM）[10]，这是一个具有20亿参数的Conformer [22] 模型，包含32层，模型维度为1536。该模型用于生成语音识别的候选假设。其词汇表由16384个子词单元（wordpieces）组成，并使用CTC解码器实现非自回归、并行化的推理过程。

在训练过程中，USM采用了多任务学习方法。它在超过1200万小时的未标注音频数据和280亿句文本数据上进行训练，同时还使用了11万小时的有监督音频数据和10万小时的半监督音频数据。所有训练数据均为多语言的。USM具备分块双向注意力机制，能够在训练中对30秒长的语音段进行建模。与传统的基于音频的分块方式不同，这种方法在整个语音流中保持连续状态，从而可以每8秒输出一次流式结果，提升用户体验。

3.2. 语言模型

我们使用PaLM 2语言模型 [11] 对ASR生成的候选假设进行评分。该模型在网页文档、书籍等多种数据源上进行了训练，使用了一个包含256k个子词单元的词汇表。相比其前身PaLM 1 [16]，PaLM 2通过改进的训练策略、架构优化以及更长的上下文长度，在自然语言任务中展现出更优越的性能。

我们在语音识别评分任务中评估了预训练版本的PaLM 2，并采用前缀语言模型评分模式 [23]：将模型以固定前缀（来自前一段的最优假设）进行提示，并对多个后缀假设（当前段的不同候选假设）进行评分。

3.3. 长文本推理

为了在不受内存限制的情况下处理长文本音频，我们采用了一种流式处理框架，逐帧处理音频。利用USM的分块注意力机制，一旦8秒的音频可用，我们就对其进行编码，并将其传递给CTC解码器。这些CTC概率构成了一个混淆网络格（lattice），编码了可能的子词单元序列。

由于每一帧编码是相互独立的，因此对应的子词分布也是彼此独立的。这样一来，格中的候选假设数量会随着音频长度呈指数增长，使得用LLM对所有候选进行评分变得不可行。

3.4. 语言模型评分

为了应对候选假设数量的指数增长问题，我们将格划分为8秒的语音段，并仅对当前段的候选假设进行评分。为了保持上下文连贯性，我们使用前两个语音段中得分最高的假设拼接作为语言模型的前缀。这个迭代过程每8秒更新一次，确保前缀始终是最近两个语音段中最优的假设。

为了生成语言模型所需的后缀，我们从格中选取得分最高的N个候选假设，并将它们批量组合成后缀序列进行评分。结合语言模型（LM）和语音模型（ASR）的得分，给定音频 x 和假设 y 的联合得分表示为：

最终选择得分最高的候选假设作为最终的转录结果。按语音段进行评分的方式具有可并行性，是非自回归的，并且在用户说话过程中每8秒以流式模式更新一次。

4. 评估

在我们的所有评估中，除非另有说明，均采用以下设置：

美式英语区域设置（US English locale）
使用10亿参数版本的PaLM 2
语言模型评分权重设为0.3（根据此处列出的设置进行优化）
上下文长度为前两个语音段
n-best列表大小为16
使用YouTube字幕测试集，详见下一节描述

4.1. 测试集

YouTube视频涵盖多种类别，使其非常适合我们的语言模型评分研究。我们评估了一个常用的YouTube字幕测试集YT LONG，该测试集包含多种语言的点播视频内容 [24, 25, 26, 27, 14]。对于美式英语，该测试集包含77个视频，总计22.2小时，平均每个语音片段长度为14.8分钟。其他语言平均包含61个视频和17小时音频。我们还对FLEURS测试集 [28] 进行了分析，该测试集每种语言包含600至900个语音片段，其中美式英语有647个。所有语言合计总时长为283小时。

4.2. 所有语言的结果

所有语言的评估结果如图1所示。我们测试了四种不同的语言模型评分权重 λ 值：{0.15, 0.30, 0.45, 0.60}。在YouTube测试集上（图1顶部），集成PaLM 2使美式英语（en-us）的词错误率（WER）降低了4.1%，15种语言平均降低3.6%。在FLEURS测试集上（图1底部），提升更为显著：美式英语降低了9.7%，平均相对改善达到10.8%。所有语言均未出现性能下降。

4.3. 对语言模型大小的依赖性

大型语言模型随着规模、数据量和计算资源的增加，展现出新兴能力（emergent abilities）[13, 29]。本研究使用不同规模的PaLM 2变体对ASR候选假设评分进行了评估。表1中的结果显示，尽管词错误率（WER）随着模型规模的增大（E2–E6）有所改善，但提升幅度可能无法抵消推理成本的上升。此外，最优的语言模型评分权重也随模型规模而增加，从128M参数模型的0.25增加到340B参数模型的0.45（见图2）。较大的模型在语言模型权重变化时表现出较低的WER敏感度。这表明，较小的模型需要谨慎地设置权重，而更大的模型由于识别准确性更高，可以承受更高的权重而不至于选择错误的假设。

4.4. 对上下文长度的依赖性

通过调整用于提示的历史语音段数量，我们可以粗略控制语言模型的上下文长度。图3显示，将前4个语音段（即32秒解码文本）拼接起来效果最佳。包含超过4个语音段时性能略有下降，可能是由于语言模型评分权重是在前2个语音段的基础上优化的。结果表明，使用约32秒或大约50个词的上下文可以提升ASR性能。然而，在此之后继续增加上下文带来的收益有限，这与许多自然语言处理任务中需要更长上下文的情况有所不同。

4.5. 对词汇量大小的依赖性

PaLM 2拥有256k个token的词汇表，专为自然语言生成进行优化。分段评分的一个优势在于可以通过重新分词来处理ASR模型与LLM之间的词汇表不匹配问题。在10亿参数版本的PaLM 2中，嵌入层和softmax层占据了约三分之一的模型参数。我们测试了将PaLM 2的词汇量缩减至32k以降低计算成本。表2的结果显示，使用较小的词汇表仅带来轻微的性能下降。因此，采用较小的词汇表可以在保持良好性能的同时节省计算资源。

4.6. 对分段策略的依赖性

分段策略决定了使用语言模型对混淆网络格（lattice）进行评分的频率，进而影响用户体验和转录质量 [27, 30, 31]。我们评估了固定长度的分段方式以及基于语音活动检测器（VAD）的分段方法 [32]。虽然VAD方法避免了截断单词的问题，但由于其产生的语音段长度不一致，在流式按段处理场景下可能会影响用户体验。VAD生成的语音段中位长度约为5秒。

表3中的结果显示，固定长度分段（B3）优于VAD（E8），这一发现与 [30] 中的结论相反。这是由于模型结构的不同：[30] 使用的是RNN-T模型，在分段时会丢弃大部分候选假设，而我们的CTC模型不保留解码器状态，因此对过早分段具有更强的鲁棒性。图4显示，在语音段长度超过3秒后，WER趋于稳定。这证明，与RNN-T不同，CTC得益于其非依赖性的混淆网络结构，不会受到词语截断的影响。

4.7 假设数量的依赖性

随着片段长度的增加，格点中的路径数量也会增加，但计算限制会限制评分的假设数量。图5展示了一项关于n最佳列表大小的研究，该大小表示每个片段评分的假设数量。随着列表的扩展，性能得到提升，并在大约1024时趋于平稳。这种增长表明格点的密度很高，允许大型语言模型（LLM）在计算限制范围内继续提升转录质量。

4.8 与浅层融合的比较

我们的研究主要关注按片段的语言模型（LM）评分。另一种方法是按帧评分或浅层融合，由于其自回归解码和频繁的语言模型调用，这种方法的计算负担更重。

表4中的性能比较显示，按帧评分（E9）的错误率为13.70（相对于没有语言模型时下降了5.4%），优于按片段评分（B4）的13.88（下降了4.1%）。浅层融合在非低延迟场景中，在词汇匹配的情况下表现出色。对于按帧评分，我们重新训练了自动语音识别（ASR）模型，使其使用PaLM 2的词汇表。

5结论
我们开发了一个可部署的大规模多语言语音识别（ASR）系统，着重强调实用性。通过采用基于CTC（连接时序分类）和分段语言模型评分的非自回归系统，我们在YouTube字幕和FLEURS数据集上实现了跨语言性能提升。本研究还揭示了系统参数对ASR效能的影响机制。

原文链接：https://arxiv.org/pdf/2401.12789v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.