清华、剑桥、伊利诺伊大学联手探索AI听写的新可能|翻译|语音识别|ai听写|大语言模型

分享至

这项由清华大学刘展、金增瑞，剑桥大学Philip C. Woodland，以及伊利诺伊大学香槟分校王梦琦共同完成的研究发表于2025年9月，论文编号为arXiv:2509.16622v1。研究团队首次将扩散大语言模型LLaDA应用到自动语音识别领域，为传统的语音转文字技术开辟了全新路径。

想象一下，当你对着手机说话时，传统的语音识别系统就像一个勤奋的速记员，必须从左到右一个字一个字地记录你说的话。而这项研究提出的新方法更像是一个聪明的编辑，能够同时处理多个位置的信息，既能快速工作，又能通过反复思考来提高准确性。

传统的自动语音识别系统采用自回归解码方式，这种方法虽然准确，但就像排队买票一样，必须一个接一个地处理，效率相对较低。为了解决这个问题，研究人员开发了各种非自回归方法，试图实现并行处理来提高速度。然而，这些方法往往面临一个两难选择：要么速度快但准确性下降，要么保持准确性但速度提升有限。

这项研究的创新之处在于引入了扩散大语言模型LLaDA，这是一种全新的处理方式。扩散模型原本在图像生成领域大放异彩，现在研究团队将其巧妙地应用到了语音识别中。这种方法的工作原理类似于修复一幅破损的画作：首先将一些文字位置"遮盖"起来，然后通过上下文信息和音频特征来"猜测"这些被遮盖的内容应该是什么。

一、扩散模型的语音识别新思路

扩散大语言模型的工作方式可以用修复古画来类比。当文物修复师面对一幅有缺损的古画时，他们会根据画作的整体风格、色彩搭配以及周围完好部分的线索来推断缺失部分应该是什么样子。LLaDA模型的工作方式与此类似：它会随机"遮盖"一些文字位置，然后利用双向注意力机制——也就是能够同时关注前后文信息的能力——来预测这些被遮盖位置的正确内容。

这种方法的巧妙之处在于训练过程。研究团队让模型学习一个"正向过程"和"反向过程"。正向过程就像是故意在完好的文本中制造"破损"，随机将一些词语替换成特殊的遮盖标记。随着时间参数的增加，被遮盖的词语越来越多，直到整个句子都被遮盖。反向过程则是学习如何从完全遮盖的状态开始，逐步恢复出原始的完整文本。

这种训练方式让模型获得了强大的"填空"能力。当面对语音识别任务时，模型可以利用这种能力来处理那些难以识别的音频片段。即使某些地方听不清楚，模型也能根据上下文和音频特征来推断出最合理的内容。

二、Whisper-LLaDA：音频与文本的完美结合

研究团队开发的Whisper-LLaDA系统就像是一个配备了超级听力和推理能力的智能助手。这个系统由几个关键部分组成：首先是Whisper编码器，它负责将音频信号转换成计算机能理解的特征表示，就像是将声音"翻译"成数字语言。然后是一个窗口级查询变换器，它的作用是将音频特征进一步处理，使其能够与文本信息更好地对接。最后是LLaDA解码器，负责根据音频特征和上下文信息生成最终的文字结果。

整个系统的训练过程非常巧妙。研究团队使用了LibriSpeech语料库，这是一个包含960小时英语有声读物的数据集。在训练时，系统会接收三部分信息：文本指令（告诉系统要做什么任务）、音频特征（从声音中提取的信息）、以及响应块（需要生成的文字内容）。训练过程中，响应块中的一些位置会被随机遮盖，然后让模型学习如何根据其他信息来预测这些被遮盖的内容。

这种训练方式的优势在于，模型不仅学会了如何处理音频信息，还学会了如何利用上下文信息来提高识别准确性。当遇到模糊不清的音频时，模型可以结合前后文的语义信息来做出更准确的判断。

三、两种应用模式：直接识别与精细修正

Whisper-LLaDA系统支持两种不同的工作模式，就像一个多才多艺的助手，既能独立完成工作，也能协助其他系统提高表现。

第一种模式是直接语音识别。在这种模式下，系统直接从音频开始，生成对应的文字内容。这个过程类似于一个经验丰富的速记员，能够边听边写，同时还能在不确定的地方进行思考和修正。系统会初始化一个包含128个位置的响应块，这个长度足以覆盖LibriSpeech数据集中的所有语句。然后通过多轮迭代，逐步将这些位置从遮盖状态恢复为具体的文字。

第二种模式是基于deliberation的处理方式，这可以理解为"二次审查"或"精细修正"。在这种模式下，系统首先获得一个初步的转录结果（比如来自Whisper-LLaMA系统的输出），然后对这个结果进行进一步的优化和修正。这就像是一个资深编辑在审查初稿，发现其中的错误并进行改正。

研究团队探索了三种不同的修正策略。第一种是随机遮盖策略，即随机选择一定比例的词语进行重新识别。这种方法虽然简单，但效果出人意料地好。第二种是低置信度遮盖策略，系统会首先评估每个词语的识别置信度，然后优先重新处理那些置信度较低的部分。第三种是半自回归策略，将整个句子分成几个子块，然后依次对每个子块进行处理。

实验结果显示，这种deliberation处理方式能够显著提高识别准确性。在LibriSpeech测试集上，最佳的级联系统在test-clean和test-other数据集上分别达到了2.25%和4.94%的词错误率，相比基线系统在test-other上实现了12.3%的相对改进。

四、解码策略的创新探索

研究团队还深入探索了两种不同的解码策略：扩散解码和半自回归解码。这两种策略就像是两种不同的工作方式，各有其特点和适用场景。

扩散解码采用完全并行的方式，就像是一个团队同时处理文档的不同部分。在每一轮迭代中，系统会预测所有被遮盖位置的内容，然后根据置信度保留表现最好的预测结果，将其余位置重新遮盖。这个过程会持续进行，直到整个句子都被正确识别出来。研究团队测试了不同的迭代步数，从1步到128步不等，发现随着步数增加，识别准确性会提高，但计算时间也相应增长。

半自回归解码则采用了一种混合策略，将响应块分成若干个子块，在每个子块内部使用扩散方式并行处理，而子块之间则按顺序依次处理。这种方法在效率和准确性之间找到了一个很好的平衡点。实验显示，使用4个子块、每个子块32步的配置能够达到最佳效果，在test-clean和test-other上分别实现了2.40%和4.96%的词错误率。

为了提高推理效率，研究团队还引入了早停机制。一旦系统生成了句子结束标记，就会强制将后续所有位置都设为结束标记，避免不必要的计算。这种优化使得系统在保持高准确性的同时，能够显著提高处理速度。

五、实验结果的深度分析

研究团队在LibriSpeech基准数据集上进行了全面的实验评估，结果展现了这种新方法的巨大潜力。在对比实验中，传统的Whisper-LLaMA系统在test-clean和test-other上分别达到了2.24%和5.63%的词错误率，而Whisper-Vicuna系统的表现稍差，分别为2.40%和5.82%。

Whisper-LLaDA在直接解码模式下的表现令人印象深刻。随着解码步数的增加，识别准确性稳步提升。使用64步解码时，系统在test-clean上达到了2.82%的词错误率，在test-other上达到了5.79%。虽然准确性略低于传统自回归方法，但在推理速度方面有显著优势。特别值得注意的是，64步配置的实时因子比Whisper-LLaMA快约1.3倍，比Whisper-Vicuna快约2.4倍。

在deliberation处理模式下，Whisper-LLaDA展现出了更强的优势。随机遮盖策略在90%遮盖比例时效果最佳，而半自回归deliberation处理使用2个子块时达到最优性能，在test-other上实现了4.94%的词错误率，相比基线有显著改进。

研究团队还进行了一个重要的对比实验：使用纯文本版本的LLaDA（不包含音频特征）来处理Whisper-LLaMA的输出。结果显示这种方法不仅没有改进，反而引入了更多错误，在test-clean和test-other上分别达到了3.89%和6.91%的词错误率。这个结果清楚地证明了音频特征对于有效的deliberation处理的重要性。

六、技术创新的深层意义

这项研究的意义远超出了单纯的技术改进。它代表了语音识别领域的一次重要范式转变，从传统的序列化处理转向更加灵活的并行处理方式。这种转变就像是从单线程处理转向多线程处理，不仅提高了效率，还为未来的技术发展开辟了新的可能性。

扩散模型在语音识别中的应用展示了跨领域技术迁移的巨大潜力。原本在图像生成领域大获成功的扩散技术，经过巧妙的改造后在语音识别领域同样表现出色。这种跨领域的技术融合往往能够带来意想不到的突破，为解决传统方法难以处理的问题提供了新的思路。

双向注意力机制的引入也是一个重要创新。传统的自回归模型只能利用历史信息，就像是只能向后看的司机。而Whisper-LLaDA能够同时利用前后文信息，就像是能够360度观察环境的智能驾驶系统，自然能够做出更准确的判断。

研究还揭示了音频条件化的重要性。纯文本的语言模型虽然在文本处理方面表现出色，但在语音识别的deliberation处理中却无法发挥作用。这说明音频信息包含了文本信息无法替代的重要线索，两者的结合才能实现最佳效果。

七、未来发展的广阔前景

虽然当前的研究结果已经非常令人鼓舞，但研究团队也诚实地指出了现有方法的局限性。在某些配置下，Whisper-LLaDA的识别准确性仍然略低于经过大规模预训练的自回归系统。这主要是因为当前的实验仅在LibriSpeech数据集上进行，而像Whisper这样的商业系统通常使用多达500万小时的训练数据。

研究团队为未来的改进指明了几个重要方向。首先是扩大训练数据的规模和多样性，使用更大、更丰富的数据集来训练模型。其次是探索更先进的遮盖和重遮盖策略，进一步优化deliberation处理的效果。还有就是研究更高效的解码算法，在保持准确性的同时进一步提高处理速度。

这项研究的影响可能会延伸到整个语音技术生态系统。随着扩散模型在语音识别中应用的成熟，我们可能会看到更多基于这种技术的产品和服务。从智能语音助手到实时字幕系统，从会议记录工具到语音翻译服务，都可能从这种新技术中受益。

更重要的是，这项研究为人工智能领域的技术融合提供了一个成功范例。它展示了如何将不同领域的先进技术巧妙结合，创造出超越单一技术局限的新解决方案。这种跨领域的创新思维对于推动整个人工智能领域的发展具有重要意义。

说到底，这项研究不仅仅是技术上的进步，更是思维方式的创新。它告诉我们，解决复杂问题往往需要跳出传统思维的框架，勇于尝试看似不相关的技术组合。正如研究团队所展示的，当我们将图像生成的扩散技术与语音识别相结合时，就能够创造出既高效又准确的新方法。

这种创新精神和跨领域思维正是推动科技进步的重要动力。随着更多研究者投入到这个方向，我们有理由相信，语音识别技术将迎来新的发展高峰，为人们的日常生活带来更多便利。对于那些希望深入了解这项研究技术细节的读者，可以通过论文编号arXiv:2509.16622v1查询完整的研究报告。

Q&A

Q1：扩散大语言模型LLaDA在语音识别中是如何工作的？
A：LLaDA的工作原理类似于修复破损画作。它会随机"遮盖"一些文字位置，然后利用双向注意力机制根据音频特征和上下文信息来预测这些被遮盖位置的正确内容。这种方法能够同时处理多个位置的信息，既提高了处理速度，又通过反复思考来提高准确性。

Q2：Whisper-LLaDA相比传统语音识别系统有什么优势？
A：Whisper-LLaDA的主要优势在于能够并行处理和双向思考。传统系统像勤奋的速记员必须从左到右逐字记录，而Whisper-LLaDA更像聪明的编辑，能同时关注前后文信息做出更准确判断。在LibriSpeech测试中，它实现了显著的准确性提升，同时推理速度比传统方法快1.3到2.4倍。

Q3：这项研究对普通用户的语音识别体验会有什么影响？
A：这项技术将让语音识别变得更快更准确。未来的智能语音助手、实时字幕系统、会议记录工具等都可能受益于这种技术，提供更流畅的语音转文字体验。特别是在嘈杂环境或口音较重的情况下，系统能够通过上下文推理提供更准确的识别结果。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.