网易首页 > 网易号 > 正文 申请入驻

大语言模型如何赋能多语言语音识别?

0
分享至

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

多语言和完全非自回归 ASR 与大语言模型融合:一项综合研究

https://arxiv.org/pdf/2401.12789v1

摘要
在大模型时代,解码过程的自回归特性常常导致延迟成为显著的瓶颈。我们提出了一种非自回归的LM融合语音识别(ASR)系统,该系统有效利用了加速器硬件的并行化能力。我们的方法将通用语音模型(USM)与PaLM 2语言模型结合,在每段评分模式下实现了在FLEURS数据集上平均相对词错误率(WER)改善10.8%,在YouTube字幕任务上改善3.6%。此外,我们进行了全面的消融研究,分析了诸如LLM大小、上下文长度、词汇量大小、融合方法等关键参数的影响。例如,我们研究了从128M到340B不同参数规模的LLM对ASR性能的影响。本研究为影响大规模实用型LM融合语音识别系统效果的因素提供了宝贵的见解。

关键词 :大语言模型,多语言语音识别

1. 引言

大规模模型在各类应用中展现出了令人印象深刻的效果,尤其是在多语言语音模型 [1, 2, 3, 4, 5] 和多语言大语言模型(LLMs)[6, 7, 8] 领域。下一步的发展方向是融合这些大型多语言模型以提升识别准确率。然而,它们的规模也带来了延迟问题,尤其是在自回归解码过程中表现明显,例如浅层融合(shallow fusion)[9]。

像语音助手和实时字幕这样的应用,正面临这些模型所带来的延迟挑战。意识到这一问题的重要性,我们提出了一种非自回归的LM融合语音识别(ASR)系统。该方法使用通用语音模型(USM)[10] 和 PaLM 2语言模型 [11],以8秒为单位对语音进行流式处理。USM和PaLM 2均能利用完整的音频上下文来处理每一个8秒的语音块,在提升准确性的同时,也能通过对序列进行并行处理来实现快速响应,从而带来流畅的用户体验。具体而言,我们在USM上附加一个CTC解码器,以非自回归方式生成候选假设,并通过在教师强制模式(teacher forcing mode)下将整个假设序列输入语言模型,以非自回归方式对这些候选进行评分 [12]。

我们的方法在公开的多语言测试集FLEURS上实现了平均相对词错误率(WER)10.8%的双位数提升。在一个具有挑战性的内部YouTube字幕测试集上,我们也观察到所有可用语言平均提升了3.6%。此外,我们的研究深入探讨了诸如语言模型大小(最大至340B参数)、词汇量、上下文长度、分段策略、n-best列表大小以及评分方法等因素的影响。例如,我们发现尽管大语言模型随着参数规模的增长展现出新兴能力(emergent behaviors)[13],但其对WER的改善却较为有限——不过更大的模型可以降低系统对融合权重的敏感性。

2. 相关工作

利用大语言模型(LLMs)来增强语音识别系统(ASR)已成为一个自然且有前景的研究方向,并在近期研究中取得了显著进展。已有若干研究专注于将LLMs与ASR模型进行整合,以充分利用其丰富的语言知识和上下文理解能力。例如,[14] 将T5 [15] 和 PaLM 1 [16] 与Conformer RNN-T模型结合,提升了英语及语码混合数据的语音识别性能。我们的工作在此基础上进一步推进,使用LLMs融合具有非自回归CTC头的大规模ASR模型。

[9] 使用浅层融合(shallow fusion)方法提升了短语音查询中罕见词的识别效果。相比之下,我们的研究重点在于YouTube字幕等长文本任务,在这类任务中,LLMs的上下文理解能力尤为重要。鉴于浅层融合在长任务中的局限性以及词汇表不匹配的问题,我们探索了评分(scoring)作为一种更高效的融合技术。

[17] 使用n-best评分方法将Listen-Attend-Spell Once模型 [18] 与BERT [19] 进行集成。我们在这一思路的基础上进行了扩展,部署了更大规模、支持多语言的模型。其他研究如 [20] 探索了LLMs与ASR系统之间的多种融合方式。他们令人意外的发现是:简单的浅层融合方法在性能上可与更复杂的深层融合技术相媲美。同样地,[21] 在使用LLaMa LLM进行两种融合方法实验时,发现词错误率(WER)结果差异甚微,这也印证了 [20] 的结论。

基于上述研究成果,我们的研究强调采用“评分”作为融合方法,旨在构建一种实用且可扩展的ASR+LLM解决方案,适用于真实世界的应用场景。

3. 方法

3.1. 语音模型

我们采用通用语音模型(Universal Speech Model,USM)[10],这是一个具有20亿参数的Conformer [22] 模型,包含32层,模型维度为1536。该模型用于生成语音识别的候选假设。其词汇表由16384个子词单元(wordpieces)组成,并使用CTC解码器实现非自回归、并行化的推理过程。

在训练过程中,USM采用了多任务学习方法。它在超过1200万小时的未标注音频数据和280亿句文本数据上进行训练,同时还使用了11万小时的有监督音频数据和10万小时的半监督音频数据。所有训练数据均为多语言的。USM具备分块双向注意力机制,能够在训练中对30秒长的语音段进行建模。与传统的基于音频的分块方式不同,这种方法在整个语音流中保持连续状态,从而可以每8秒输出一次流式结果,提升用户体验。

3.2. 语言模型

我们使用PaLM 2语言模型 [11] 对ASR生成的候选假设进行评分。该模型在网页文档、书籍等多种数据源上进行了训练,使用了一个包含256k个子词单元的词汇表。相比其前身PaLM 1 [16],PaLM 2通过改进的训练策略、架构优化以及更长的上下文长度,在自然语言任务中展现出更优越的性能。

我们在语音识别评分任务中评估了预训练版本的PaLM 2,并采用前缀语言模型评分模式 [23]:将模型以固定前缀(来自前一段的最优假设)进行提示,并对多个后缀假设(当前段的不同候选假设)进行评分。

3.3. 长文本推理

为了在不受内存限制的情况下处理长文本音频,我们采用了一种流式处理框架,逐帧处理音频。利用USM的分块注意力机制,一旦8秒的音频可用,我们就对其进行编码,并将其传递给CTC解码器。这些CTC概率构成了一个混淆网络格(lattice),编码了可能的子词单元序列。

由于每一帧编码是相互独立的,因此对应的子词分布也是彼此独立的。这样一来,格中的候选假设数量会随着音频长度呈指数增长,使得用LLM对所有候选进行评分变得不可行。

3.4. 语言模型评分

为了应对候选假设数量的指数增长问题,我们将格划分为8秒的语音段,并仅对当前段的候选假设进行评分。为了保持上下文连贯性,我们使用前两个语音段中得分最高的假设拼接作为语言模型的前缀。这个迭代过程每8秒更新一次,确保前缀始终是最近两个语音段中最优的假设。

为了生成语言模型所需的后缀,我们从格中选取得分最高的N个候选假设,并将它们批量组合成后缀序列进行评分。结合语言模型(LM)和语音模型(ASR)的得分,给定音频 x 和假设 y 的联合得分表示为:

最终选择得分最高的候选假设作为最终的转录结果。按语音段进行评分的方式具有可并行性,是非自回归的,并且在用户说话过程中每8秒以流式模式更新一次。

4. 评估

在我们的所有评估中,除非另有说明,均采用以下设置:

  • 美式英语区域设置(US English locale)

  • 使用10亿参数版本的PaLM 2

  • 语言模型评分权重设为0.3(根据此处列出的设置进行优化)

  • 上下文长度为前两个语音段

  • n-best列表大小为16

  • 使用YouTube字幕测试集,详见下一节描述

4.1. 测试集

YouTube视频涵盖多种类别,使其非常适合我们的语言模型评分研究。我们评估了一个常用的YouTube字幕测试集YT LONG,该测试集包含多种语言的点播视频内容 [24, 25, 26, 27, 14]。对于美式英语,该测试集包含77个视频,总计22.2小时,平均每个语音片段长度为14.8分钟。其他语言平均包含61个视频和17小时音频。我们还对FLEURS测试集 [28] 进行了分析,该测试集每种语言包含600至900个语音片段,其中美式英语有647个。所有语言合计总时长为283小时。

4.2. 所有语言的结果

所有语言的评估结果如图1所示。我们测试了四种不同的语言模型评分权重 λ 值:{0.15, 0.30, 0.45, 0.60}。在YouTube测试集上(图1顶部),集成PaLM 2使美式英语(en-us)的词错误率(WER)降低了4.1%,15种语言平均降低3.6%。在FLEURS测试集上(图1底部),提升更为显著:美式英语降低了9.7%,平均相对改善达到10.8%。所有语言均未出现性能下降。

4.3. 对语言模型大小的依赖性

大型语言模型随着规模、数据量和计算资源的增加,展现出新兴能力(emergent abilities)[13, 29]。本研究使用不同规模的PaLM 2变体对ASR候选假设评分进行了评估。表1中的结果显示,尽管词错误率(WER)随着模型规模的增大(E2–E6)有所改善,但提升幅度可能无法抵消推理成本的上升。此外,最优的语言模型评分权重也随模型规模而增加,从128M参数模型的0.25增加到340B参数模型的0.45(见图2)。较大的模型在语言模型权重变化时表现出较低的WER敏感度。这表明,较小的模型需要谨慎地设置权重,而更大的模型由于识别准确性更高,可以承受更高的权重而不至于选择错误的假设。

4.4. 对上下文长度的依赖性

通过调整用于提示的历史语音段数量,我们可以粗略控制语言模型的上下文长度。图3显示,将前4个语音段(即32秒解码文本)拼接起来效果最佳。包含超过4个语音段时性能略有下降,可能是由于语言模型评分权重是在前2个语音段的基础上优化的。结果表明,使用约32秒或大约50个词的上下文可以提升ASR性能。然而,在此之后继续增加上下文带来的收益有限,这与许多自然语言处理任务中需要更长上下文的情况有所不同。

4.5. 对词汇量大小的依赖性

PaLM 2拥有256k个token的词汇表,专为自然语言生成进行优化。分段评分的一个优势在于可以通过重新分词来处理ASR模型与LLM之间的词汇表不匹配问题。在10亿参数版本的PaLM 2中,嵌入层和softmax层占据了约三分之一的模型参数。我们测试了将PaLM 2的词汇量缩减至32k以降低计算成本。表2的结果显示,使用较小的词汇表仅带来轻微的性能下降。因此,采用较小的词汇表可以在保持良好性能的同时节省计算资源。

4.6. 对分段策略的依赖性

分段策略决定了使用语言模型对混淆网络格(lattice)进行评分的频率,进而影响用户体验和转录质量 [27, 30, 31]。我们评估了固定长度的分段方式以及基于语音活动检测器(VAD)的分段方法 [32]。虽然VAD方法避免了截断单词的问题,但由于其产生的语音段长度不一致,在流式按段处理场景下可能会影响用户体验。VAD生成的语音段中位长度约为5秒。

表3中的结果显示,固定长度分段(B3)优于VAD(E8),这一发现与 [30] 中的结论相反。这是由于模型结构的不同:[30] 使用的是RNN-T模型,在分段时会丢弃大部分候选假设,而我们的CTC模型不保留解码器状态,因此对过早分段具有更强的鲁棒性。图4显示,在语音段长度超过3秒后,WER趋于稳定。这证明,与RNN-T不同,CTC得益于其非依赖性的混淆网络结构,不会受到词语截断的影响。

4.7 假设数量的依赖性

随着片段长度的增加,格点中的路径数量也会增加,但计算限制会限制评分的假设数量。图5展示了一项关于n最佳列表大小的研究,该大小表示每个片段评分的假设数量。随着列表的扩展,性能得到提升,并在大约1024时趋于平稳。这种增长表明格点的密度很高,允许大型语言模型(LLM)在计算限制范围内继续提升转录质量。

4.8 与浅层融合的比较

我们的研究主要关注按片段的语言模型(LM)评分。另一种方法是按帧评分或浅层融合,由于其自回归解码和频繁的语言模型调用,这种方法的计算负担更重。

表4中的性能比较显示,按帧评分(E9)的错误率为13.70(相对于没有语言模型时下降了5.4%),优于按片段评分(B4)的13.88(下降了4.1%)。浅层融合在非低延迟场景中,在词汇匹配的情况下表现出色。对于按帧评分,我们重新训练了自动语音识别(ASR)模型,使其使用PaLM 2的词汇表。

  1. 5结论
    我们开发了一个可部署的大规模多语言语音识别(ASR)系统,着重强调实用性。通过采用基于CTC(连接时序分类)和分段语言模型评分的非自回归系统,我们在YouTube字幕和FLEURS数据集上实现了跨语言性能提升。本研究还揭示了系统参数对ASR效能的影响机制。

原文链接:https://arxiv.org/pdf/2401.12789v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗队在美国球场更衣室留下一张纸条......

伊朗队在美国球场更衣室留下一张纸条......

观察者网
2026-06-22 17:06:33
中国海军最大软肋:军舰一旦打光导弹,真的只能沦为海上的废铁?

中国海军最大软肋:军舰一旦打光导弹,真的只能沦为海上的废铁?

点燃好奇心
2026-06-22 23:53:51
上海主持优嘉现状:定居新加坡,靠直播谋生,独自照料三代人生活

上海主持优嘉现状:定居新加坡,靠直播谋生,独自照料三代人生活

云景侃记
2026-06-22 16:55:47
基辅一夜遭681次空袭,战局彻底失控,普京首次承认受挫

基辅一夜遭681次空袭,战局彻底失控,普京首次承认受挫

这样子啊
2026-06-23 10:30:42
把显卡塞进制冰机后,游戏温度跌到22°C,降幅高达六成

把显卡塞进制冰机后,游戏温度跌到22°C,降幅高达六成

报错免疫体
2026-06-23 03:04:31
50万玩家蹲一个新FPS,这游戏靠“抢钱打架”把我看傻了

50万玩家蹲一个新FPS,这游戏靠“抢钱打架”把我看傻了

宇宙来信发
2026-06-22 14:09:52
83年杨勇病逝,中央下令不许外地将领奔丧,这两个军区政委没遵守

83年杨勇病逝,中央下令不许外地将领奔丧,这两个军区政委没遵守

莫地方
2026-06-23 00:11:38
吴越后台偶遇陈建斌侧身避开,成年人的边界,不必勉强大度

吴越后台偶遇陈建斌侧身避开,成年人的边界,不必勉强大度

草莓解说体育
2026-06-19 14:10:53
“鲜明对比”!英国首相斯塔默宣布辞职,欧美反应冷暖不一

“鲜明对比”!英国首相斯塔默宣布辞职,欧美反应冷暖不一

环球网资讯
2026-06-23 15:53:09
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
十几年书白读了!广州医科大学某附院,2026届研究生就业率仅21%

十几年书白读了!广州医科大学某附院,2026届研究生就业率仅21%

东东趣谈
2026-06-23 12:04:10
央视再曝新骗局!商家手段炸裂,血坑老百姓数千万,已蔓延至全国

央视再曝新骗局!商家手段炸裂,血坑老百姓数千万,已蔓延至全国

精彩背后
2026-06-23 11:33:00
洪学智晚年坦言:抗美援朝胜利的法宝就藏在一根一米长的玻璃管里

洪学智晚年坦言:抗美援朝胜利的法宝就藏在一根一米长的玻璃管里

睡前讲故事
2026-06-18 19:25:58
王祖贤硅谷艾灸分店开业,生图曝光颜值下跌,目测体重160斤!

王祖贤硅谷艾灸分店开业,生图曝光颜值下跌,目测体重160斤!

情感大头说说
2026-06-20 01:53:19
星巴克、瑞幸等品牌都在推!咖啡圈“全冰去水”的喝法火了

星巴克、瑞幸等品牌都在推!咖啡圈“全冰去水”的喝法火了

蓝鲸新闻
2026-06-23 11:54:16
今日股市大跌原因找到了!沪指险守4100点,调整还要持续一周时间

今日股市大跌原因找到了!沪指险守4100点,调整还要持续一周时间

有料财经
2026-06-23 15:31:20
北航杨昀发声明:2004年高考676分被清华录取,不存在刁难耿同学

北航杨昀发声明:2004年高考676分被清华录取,不存在刁难耿同学

东东趣谈
2026-06-22 15:30:52
A股:紧急提醒2.5亿股民!从今天6月23日起,A股或迎大级别逼空行情?

A股:紧急提醒2.5亿股民!从今天6月23日起,A股或迎大级别逼空行情?

趋势清风侠
2026-06-23 07:33:04
张坤、刘彦春等知名基金经理最新调仓动作显现

张坤、刘彦春等知名基金经理最新调仓动作显现

环球网资讯
2026-06-23 09:50:11
七旬老人腿疼住院手术后次日死亡,深圳一三甲医院涉嫌伪造病历

七旬老人腿疼住院手术后次日死亡,深圳一三甲医院涉嫌伪造病历

现代快报
2026-06-23 15:42:06
2026-06-23 16:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1467文章数 19关注度
往期回顾 全部

教育要闻

如何激发孩子的学习兴趣

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

智谱万亿市值,国产Anthropic真来了?

科技要闻

48名中国开发者联名举报苹果

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

游戏
时尚
本地
手机
艺术

2026最新实测!KK对战平台官方解答:老玩家cs1.6怎么联机防掉线?

除了玛丽珍、薄底鞋,今年最火的鞋子就是它了

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

手机要闻

iOS 27 Beta 2新变化汇总及使用体验,这些Bug终于修复了!

艺术要闻

90后川妹子独居成都三层小楼,不装窗帘,活得太自在了

无障碍浏览 进入关怀版