港中大（深圳）开源Soundwave：小数据量下的语音理解大模型强者|翻译|序列|深圳市

港中大（深圳）开源Soundwave：小数据量下的语音理解大模型强者

分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

在人工智能快速发展的当下，多模态大模型尤其是语音交互类模型备受关注。然而，语音信息因包含语气、环境音等复杂因素，使大模型“听懂”语音成为难题。现有方法依赖大规模数据训练，且未充分解决语音与文本在表示空间和序列长度上的差异。

在此背景下，香港中文大学（深圳）联合是石科技推出Soundwave语音理解大模型，针对上述问题采用三阶段训练策略，以较少数据量实现高效训练，在语音翻译、情绪识别等任务中表现优异，在AIR-Bench测试超越众多模型，未来将在多领域推动语音AI落地。目前已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址

https://wisemodel.cn/models/FreedomIntelligence/Soundwave

01.

语音大模型的发展困境

在自然语言处理（NLP）领域，大模型（LLMs）凭借强大的理解和推理能力，深刻改变着行业格局。与此同时，多模态大模型，尤其是以语音交互为核心的模型也异军突起，展现出广阔的发展前景。像GPT-4o将语音与大模型端到端结合，凭借高实时性和强表现力，吸引了众多科研学者和用户的目光。

不过，在实际的语音交流中，情况远比想象的复杂。语音交流不仅受表达内容影响，语气、停顿等副语言特征，以及环境音、说话人特征等背景因素，都会对意图表达产生作用。

和文本相比，语音能传递更丰富的信息，但这也让语音特征变得复杂多变。这就是为什么，即便现有大模型如ChatGPT、DeepSeek在文本理解上已接近人类水平，可让它们“听懂”语音仍是一大难题。

目前，提升语音大模型性能的常用方法是依赖大规模训练数据，通常需要数十万甚至百万小时的数据量。虽然扩大数据量和模型参数能在一定程度上解决问题，但文本和语音之间存在的核心问题却未得到充分研究。

一方面，语音通过额外的语音编码端建模，文本表示由大模型生成，两者的表示空间不一致；另一方面，语音以帧为单位，大模型以子词为单位建模，导致语音序列往往比文本序列长几十倍。

图一：Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表现

02.

Soundwave模型的创新架构

在这样的背景下，香港中文大学（深圳）联合是石科技带来了惊喜——提出Soundwave模型。该模型创新性地解耦语音大模型的模态对齐训练，针对表示空间差异和长度差异这两个关键问题，分别设计了解决方案和任务数据。令人惊叹的是，它仅用10k小时的数据，就展现出卓越的性能。

图二：Soundwave 的训练过程。其中灰色模块被冻结，橙色模块被训练。

Soundwave的训练过程分为三个阶段。在语音与文本对齐阶段，为解决语音和文本表示空间的差异，模型设计了对齐适配器，它包含线性层与单层Transformer encoder层，能将音频序列转换到大模型可理解的表示空间，再借助CTC损失实现两者对齐。

第二阶段是语音特征压缩，通过压缩适配器动态调整语音序列长度，使其与文本匹配。具体做法是先依据CTC预测的峰值选择语义特征，接着利用这些特征从原始序列中查询收集辅助信息，最后融合两类特征完成序列长度的缩减。

图三：动态压缩方法示例

最后是监督微调阶段，模型仅调整LoRA参数，利用丰富的文本和语音指令数据，通过多种问答格式、十余种语音任务以及多样化指令格式进行学习，提升任务处理能力，增强指令遵循和语音理解能力。

此外，团队还采用基于温度的采样方法、数据标注清洗及针对语音任务的Chain-of-Thought等策略，提高学习效率。

03.

显著的实验成果

在实验环节，Soundwave选用Whisper Large作为音频编码器，Llama-3.1-8B-Instruct作为基础模型。实验结果令人眼前一亮，在多个音频任务中，Soundwave表现优异。

在语音翻译任务上，它超越了Qwen2-Audio；语音情绪识别任务中，也能精准识别语音情感；面对Zero-shot任务，比如训练过程中未见过的语言对翻译，它同样表现出色。

表一：在基础任务上的性能表现，这些任务包括自动语音识别（ASR）、语音翻译（ST）、语音情感识别（SER）、发声分类（VSC）。其中*表示 zero-shot 任务。

表二：不同语音大模型在 AIR-Bench 上的表现

表三：不同语音大模型在 AIR-Bench Sound Foundation 任务中的表现

在AIR-Bench测试中，Soundwave在Speech Foundation任务平均得分75.5，超越其他模型；在Sound Foundation任务里，即便仅使用约244小时的Sound任务数据，也仅次于使用10k小时数据的Qwen2-Audio ，并且其单编码器架构处理语音时效率更高。

图五：不同音频特征压缩方法下，（a）语音、文本特征相似度对比（b）训练速度对比

研究团队还进行了对比实验，结果显示，带有对齐适配器的Soundwave在语音和文本特征相似度上表现突出，训练速度几乎是其他方法的三倍。在ASR任务中，压缩适配器在2.5%的低压缩率下，能保持稳定性能，显著加快推理速度，相比其他方法，首Token延迟（TTFT）提升明显，且计算开销几乎不变。

此外，Soundwave的问答功能也十分强大，能精准理解语音输入，迅速生成合理答案，在多个领域都能提供高效、精准的智能问答支持。

04.

广阔的应用前景

Soundwave模型凭借创新的语音 - 文本对齐方案，打破了传统语音大模型对大规模标注数据的依赖。通过三阶段训练策略，有效解决了语音与文本的表示空间差距和序列长度不一致问题，让模型高效学习语音理解和对齐能力。

未来，Soundwave将持续优化语音理解能力，在医疗、教育、智能交互等领域有着广泛的应用前景，有望推动语音AI在更多场景落地。

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.