aiOla团队发布突破性语音识别技术：让机器"听懂"语音的全新方式|翻译|信号|编码器|语音助手

分享至

这项由aiOla Research的Aviv Navon领导的研究团队开发的创新语音识别技术，发表于2025年10月5日的arXiv预印本平台（论文编号：arXiv:2510.04162v1），为自动语音识别领域带来了一种全新的解决方案。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

当你对着手机说话时，手机是如何"听懂"你在说什么的？这个看似简单的过程，背后其实隐藏着极其复杂的技术原理。目前主流的语音识别系统就像一个勤奋的学生，必须一个字一个字地记录你说的话，前一个字没写完，绝对不能开始写下一个字。这种方式虽然准确，但速度慢得让人着急，特别是当你说话速度很快或者句子很长的时候。

aiOla研究团队开发的这套名为Drax的新系统，就像给语音识别装上了"并行处理器"。传统系统好比只有一支笔的抄写员，而Drax系统则像是拥有多支笔的团队，可以同时在不同位置开始工作，大大提升了处理速度。更重要的是，这个系统不仅能提供更快的处理速度，还能让用户根据自己的需求在准确性和速度之间找到最佳平衡点。

研究团队解决的核心问题是传统语音识别系统的"串行依赖性"。当你说一句话时，传统系统必须等前面的词汇处理完毕才能处理后面的词汇，这就像排队买票一样，前面的人不走，后面的人就得一直等着。这种限制在处理长句子或需要实时响应的应用场景中特别明显，比如实时翻译、语音助手或大规模语音处理任务。

Drax系统的创新之处在于采用了一种叫做"离散流匹配"的技术框架。如果把传统的语音识别比作按照严格顺序组装一台机器，那么离散流匹配就像是可以同时从多个角度、多个位置开始组装，最终拼接成完整的结果。这种方法不仅提高了效率，还能在处理过程中更好地处理各种复杂情况。

一、突破传统限制的核心技术

传统的自动语音识别系统面临着一个根本性的困境：它们必须按照严格的时间顺序来处理语音信号。这就好比你在听写时，必须听完第一个词并写下来，才能开始听第二个词。这种"一步一步来"的处理方式虽然能保证准确性，但在速度上存在天然的瓶颈。

当前最先进的语音识别系统，比如大家熟知的Whisper和Qwen2-Audio，都采用了这种自回归的处理方式。它们就像一个非常认真的秘书，会仔细地一个词一个词地记录你的讲话，确保每个词都准确无误。但问题是，当你需要处理大量语音数据，或者需要实时响应时，这种方式就显得力不从心了。

Drax系统引入的离散流匹配技术，彻底改变了这种处理模式。这种技术可以想象成一个拥有多个大脑的智能系统，能够同时思考句子的不同部分。它不需要等待前面的词汇处理完毕，而是可以并行地处理整个句子的多个片段，然后将这些片段巧妙地组合在一起。

这种并行处理的优势不仅仅体现在速度上。传统系统在处理长句子时，往往会因为错误的累积而导致后面部分的准确率下降，就像接龙游戏中，前面传错了信息，后面的人就会越传越离谱。而Drax系统由于采用了并行处理，能够减少这种错误传播，提高整体的识别准确率。

研究团队在设计Drax时，特别关注了训练过程和实际使用过程之间的差异问题。传统系统在训练时使用的是标准答案，但在实际使用时却要处理各种不完美的中间状态，这种差异会影响系统的性能。Drax通过引入一个"音频条件中间分布"来解决这个问题，让系统在训练时就能接触到更接近实际使用情况的数据。

二、创新的三路径混合架构

Drax系统最独特的地方在于它采用了一种"三路径混合"的处理架构。为了理解这个概念，我们可以把语音识别的过程想象成从一个嘈杂的派对现场（原始语音信号）到一份清晰的会议记录（最终文本）的转换过程。

传统的系统只使用两条路径：一条是从完全随机的噪声开始，另一条直接指向标准答案。这就像只有两种状态的开关，要么完全关闭，要么完全打开，中间没有过渡状态。但在现实中，语音识别的过程往往需要经历各种中间状态，比如部分正确的识别结果、有一些错误但大体正确的文本等等。

Drax引入的第三条路径，就是专门处理这些中间状态的。这条路径被称为"音频条件中间分布"，它能够生成那些听起来合理但可能不完全正确的中间结果。比如，当你说"今天天气真不错"时，这个中间路径可能会生成"今天天气很不错"或"今天气温真不错"这样的结果，虽然不完全准确，但在语音学上是合理的。

这种设计的巧妙之处在于，它让系统在训练过程中就能接触到各种可能出现的中间状态，而不是只学习从噪声到完美答案的直接跳跃。这就像让一个学生不仅要学会标准答案，还要了解各种常见的错误和部分正确的答案，这样在面对新问题时就能更好地处理。

研究团队通过数学理论证明了这种三路径设计的合理性。他们发现，训练时的数据分布和实际使用时的数据分布之间的差异，会直接影响系统的性能。通过引入这个中间路径，可以显著减少这种差异，从而提高系统的泛化能力。

在实际实现中，这个音频条件中间分布是通过一个专门的神经网络来学习的。这个网络会观察输入的音频信号，然后生成各种可能的中间状态。这些中间状态会在训练过程中与其他两条路径的结果混合使用，让整个系统学会处理更复杂、更真实的情况。

三、理论基础与性能保障

Drax系统的设计并不仅仅基于直觉或经验，而是有着坚实的数学理论基础。研究团队从理论角度分析了为什么传统的两路径方法会存在性能瓶颈，以及三路径设计如何从根本上解决这些问题。

核心理论围绕着"占用度分歧"这个概念展开。简单来说，占用度分歧衡量的是系统在训练时遇到的数据分布和实际使用时遇到的数据分布之间的差异程度。这种差异越大，系统的性能就越不稳定。可以把这个概念想象成一个司机在驾校学车时只练习了直道行驶，但实际上路后却要面对各种弯道、坡道和复杂路况，这种差异就会导致驾驶技能的下降。

研究团队证明了一个重要的理论结果：系统的泛化误差（也就是在新数据上的表现与在训练数据上的表现之间的差异）与这种占用度分歧成正比关系。这意味着，如果能够减少训练时和使用时的数据分布差异，就能直接提升系统的性能。

基于这个理论发现，三路径设计的价值就变得清晰了。通过引入音频条件中间分布，系统在训练时就能接触到更接近实际使用情况的数据分布，从而减少占用度分歧。这不是一个经验性的改进，而是有着严格数学证明的理论优化。

研究团队还分析了"速度误差"对系统性能的影响。在离散流匹配框架中，系统需要学习一个"速度场"来指导从噪声状态向目标状态的转换过程。如果这个速度场不够准确，就会导致生成路径偏离理想轨迹，最终影响结果质量。理论分析表明，速度误差的累积效应会随着时间呈指数级增长，这解释了为什么传统方法在处理长序列时性能会下降。

通过引入中间分布，Drax能够提供更多的训练信号来优化这个速度场，从而减少速度误差的累积。这种改进不仅在理论上说得通，在实际实验中也得到了验证。

四、模型架构与训练策略

Drax系统在具体实现上采用了编码器-解码器的经典架构，但在细节设计上有许多创新之处。编码器部分使用了预训练的Whisper编码器，这就像使用一个已经经过充分训练的"耳朵"来接收和初步处理音频信号。这种做法的好处是可以充分利用已有的语音处理知识，而不需要从零开始训练整个系统。

解码器部分则使用了一种叫做DiT（Diffusion Transformer）的先进架构。这种架构特别适合处理序列生成任务，能够很好地捕捉序列中不同位置之间的复杂关系。更重要的是，DiT架构天然支持并行处理，这正是Drax系统能够实现高效并行生成的关键所在。

音频条件中间分布的实现使用了一个专门的辅助网络。这个网络相对简单，只包含一个变换器块和一个投影层，总共约2800万个参数。虽然参数量不大，但它在整个系统中发挥着关键作用，就像一个经验丰富的向导，能够指引系统在训练过程中探索各种合理的中间状态。

训练过程采用了联合优化的策略。系统不仅要学习标准的条件流匹配损失，还要额外学习一个针对中间分布的交叉熵损失。这种双重约束确保了中间分布既能生成合理的中间状态，又能与整个流匹配框架很好地配合。训练时使用了Gumbel-Softmax重参数化技巧，这是一种巧妙的数学技术，让离散的采样过程变得可微分，从而支持端到端的梯度优化。

在采样阶段，Drax采用了一种灵活的策略。虽然中间分布在训练时发挥重要作用，但在实际推理时，系统可以选择不使用这个组件，而是直接按照标准的两路径方式进行生成。这种设计既保证了训练时的丰富性，又保持了推理时的简洁性和效率。

研究团队还开发了多种候选评分策略，让用户可以根据具体需求在准确性和速度之间进行权衡。最简单的策略是生成多个候选结果然后选择出现频率最高的那个，这就像通过投票来决定最终答案。更复杂的策略包括最小贝叶斯风险解码，这种方法会选择与所有候选结果平均误差最小的那个作为最终答案。

五、实验结果与性能表现

研究团队在多个标准语音识别数据集上对Drax进行了全面测试，结果显示这个系统在保持高准确率的同时，显著提升了处理效率。在英语语音识别任务中，Drax的性能与当前最先进的系统相当，在某些指标上甚至更优。更重要的是，它在多语言环境下也表现出色，支持包括德语、西班牙语、法语、意大利语、葡萄牙语、中文和日语在内的多种语言。

最引人注目的是Drax在效率方面的表现。传统的自回归系统在处理长序列时，推理时间会随着序列长度线性增长，就像一条斜率固定的直线。而Drax由于采用了并行处理，其推理时间基本保持恒定，不受序列长度影响。这种优势在处理长对话、会议记录或播客内容时特别明显。

实验结果显示，Drax能够提供灵活的准确率-效率权衡选择。通过调整函数评估次数（NFE），用户可以在不同的应用场景下选择最合适的工作点。当NFE设置为4时，系统能够实现超过100倍的实时处理速度，虽然准确率会有所下降，但仍然保持在实用水平。当NFE增加到16时，准确率接近传统系统的最佳水平，而速度仍然是传统系统的30多倍。

在多语言测试中，Drax表现出了良好的跨语言泛化能力。特别是在处理语音特征复杂的语言（如中文和日语）时，系统依然能够保持稳定的性能。这说明Drax学到的不仅仅是特定语言的特征，而是更通用的语音-文本转换规律。

研究团队还测试了Drax在推测性解码场景下的表现。推测性解码是一种提升传统自回归系统速度的技术，通过使用快速的草稿模型来生成候选序列，然后用精确的目标模型来验证。在这种应用中，Drax作为草稿模型表现优异，能够生成更多被目标模型接受的候选序列，从而进一步提升整体处理速度。

温度参数的实验显示了Drax生成多样性的可控制性。较低的温度（如0.01-0.1）会产生更保守、更准确的结果，而较高的温度则会增加生成的多样性，虽然可能会有更多错误，但在某些需要创造性的应用场景中可能更有价值。

六、实际应用前景与影响

Drax技术的出现为语音识别在实际应用中开辟了新的可能性。在实时语音助手领域，传统系统往往需要在响应速度和准确性之间做出妥协，而Drax的并行处理能力让这种妥协变得不再必要。用户可以享受到既快速又准确的语音交互体验，特别是在处理复杂查询或长句子时。

在大规模语音数据处理方面，Drax的优势更加明显。许多企业需要处理大量的客服电话录音、会议记录或播客内容，传统系统的处理速度往往成为瓶颈。Drax的高效并行处理能力可以显著缩短这类任务的完成时间，提高业务效率。

对于多语言应用场景，Drax展现出的跨语言泛化能力特别有价值。在国际会议、多语言客服或全球化产品中，单一系统能够高效处理多种语言的需求越来越常见。Drax不需要为每种语言单独训练模型，而是可以用一个统一的系统处理多种语言，这大大简化了部署和维护的复杂性。

在移动设备和边缘计算环境中，Drax的效率优势同样重要。移动设备的计算资源有限，传统的语音识别系统往往需要依赖云端处理，这会带来延迟和隐私问题。Drax的高效性使得在本地设备上部署高质量语音识别系统变得更加可行。

教育和辅助技术领域也能从Drax中获益。对于听力障碍人士，实时准确的语音转文字服务至关重要。Drax的低延迟特性可以提供更好的实时字幕体验，而其多语言支持则能惠及更广泛的用户群体。

研究团队还展示了Drax在与其他技术结合时的潜力。通过与候选评分策略的结合，系统可以在保持高速度的同时进一步提升准确率。通过与推测性解码的结合，甚至可以加速传统的自回归系统。这种模块化的设计让Drax能够灵活地适应不同的应用需求。

说到底，Drax代表的不仅仅是语音识别技术的一次改进，更是一种思维方式的转变。从串行处理到并行处理，从二元选择到多路径融合，这些创新思路为整个语音处理领域提供了新的发展方向。虽然这项技术目前还处于研究阶段，但其展现出的潜力已经让我们看到了语音交互未来的新可能。

对于普通用户来说，这意味着未来的语音助手会变得更加智能和高效，实时翻译服务会更加流畅，语音转文字的质量会进一步提升。对于开发者和企业来说，这项技术提供了构建更先进语音应用的新工具。随着相关技术的不断成熟和普及，我们有理由期待一个更加智能、更加便捷的语音交互时代的到来。

研究团队已经将Drax的源代码公开发布，这为学术界和工业界的进一步研究和应用奠定了基础。随着更多研究者和开发者的参与，这项技术有望在不久的将来走出实验室，真正改变我们与机器交流的方式。

Q&A

Q1：Drax语音识别系统相比传统系统有什么优势？

A：Drax最大的优势是采用并行处理方式，不像传统系统需要一个词一个词地依次处理。这让它在处理长句子时速度快很多，可以达到传统系统30多倍的处理速度，同时准确率还能保持在相同水平。另外，用户可以根据需要在速度和准确性之间灵活调节。

Q2：普通人什么时候能用上Drax技术？

A：目前Drax还处于研究阶段，研究团队已经公开了源代码供学术界和工业界进一步研究。虽然还没有商用产品，但考虑到语音识别技术更新换代很快，预计在不久的将来就能在语音助手、实时翻译等应用中看到类似技术的身影。

Q3：Drax支持哪些语言，处理中文语音效果如何？

A：Drax支持包括中文在内的8种语言：英语、德语、西班牙语、法语、意大利语、葡萄牙语、中文和日语。在中文语音识别测试中表现良好，特别是在处理复杂语音特征时仍能保持稳定性能，说明它学到的是通用的语音转文字规律而不只是特定语言特征。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.