始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
在人工智能快速发展的当下,多模态大模型尤其是语音交互类模型备受关注。然而,语音信息因包含语气、环境音等复杂因素,使大模型“听懂”语音成为难题。现有方法依赖大规模数据训练,且未充分解决语音与文本在表示空间和序列长度上的差异。
在此背景下,香港中文大学(深圳)联合是石科技推出Soundwave语音理解大模型,针对上述问题采用三阶段训练策略,以较少数据量实现高效训练,在语音翻译、情绪识别等任务中表现优异,在AIR-Bench测试超越众多模型,未来将在多领域推动语音AI落地。目前已上线始智AI-wisemodel开源社区,欢迎体验。
模型地址
https://wisemodel.cn/models/FreedomIntelligence/Soundwave
01.
语音大模型的发展困境
在自然语言处理(NLP)领域,大模型(LLMs)凭借强大的理解和推理能力,深刻改变着行业格局。与此同时,多模态大模型,尤其是以语音交互为核心的模型也异军突起,展现出广阔的发展前景。像GPT-4o将语音与大模型端到端结合,凭借高实时性和强表现力,吸引了众多科研学者和用户的目光。
不过,在实际的语音交流中,情况远比想象的复杂。语音交流不仅受表达内容影响,语气、停顿等副语言特征,以及环境音、说话人特征等背景因素,都会对意图表达产生作用。
和文本相比,语音能传递更丰富的信息,但这也让语音特征变得复杂多变。这就是为什么,即便现有大模型如ChatGPT、DeepSeek在文本理解上已接近人类水平,可让它们“听懂”语音仍是一大难题。
目前,提升语音大模型性能的常用方法是依赖大规模训练数据,通常需要数十万甚至百万小时的数据量。虽然扩大数据量和模型参数能在一定程度上解决问题,但文本和语音之间存在的核心问题却未得到充分研究。
一方面,语音通过额外的语音编码端建模,文本表示由大模型生成,两者的表示空间不一致;另一方面,语音以帧为单位,大模型以子词为单位建模,导致语音序列往往比文本序列长几十倍。
图一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表现
02.
Soundwave模型的创新架构
在这样的背景下,香港中文大学(深圳)联合是石科技带来了惊喜——提出Soundwave模型。该模型创新性地解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个关键问题,分别设计了解决方案和任务数据。令人惊叹的是,它仅用10k小时的数据,就展现出卓越的性能。
图二:Soundwave 的训练过程。其中灰色模块被冻结,橙色模块被训练。
Soundwave的训练过程分为三个阶段。在语音与文本对齐阶段,为解决语音和文本表示空间的差异,模型设计了对齐适配器,它包含线性层与单层Transformer encoder层,能将音频序列转换到大模型可理解的表示空间,再借助CTC损失实现两者对齐。
第二阶段是语音特征压缩,通过压缩适配器动态调整语音序列长度,使其与文本匹配。具体做法是先依据CTC预测的峰值选择语义特征,接着利用这些特征从原始序列中查询收集辅助信息,最后融合两类特征完成序列长度的缩减。
图三: 动态压缩方法示例
最后是监督微调阶段,模型仅调整LoRA参数,利用丰富的文本和语音指令数据,通过多种问答格式、十余种语音任务以及多样化指令格式进行学习,提升任务处理能力,增强指令遵循和语音理解能力。
此外,团队还采用基于温度的采样方法、数据标注清洗及针对语音任务的Chain-of-Thought等策略,提高学习效率。
03.
显著的实验成果
在实验环节,Soundwave选用Whisper Large作为音频编码器,Llama-3.1-8B-Instruct作为基础模型。实验结果令人眼前一亮,在多个音频任务中,Soundwave表现优异。
在语音翻译任务上,它超越了Qwen2-Audio;语音情绪识别任务中,也能精准识别语音情感;面对Zero-shot任务,比如训练过程中未见过的语言对翻译,它同样表现出色。
表一:在基础任务上的性能表现,这些任务包括自动语音识别(ASR)、语音翻译(ST)、语音情感识别(SER)、发声分类(VSC)。其中*表示 zero-shot 任务。
表二:不同语音大模型在 AIR-Bench 上的表现
表三:不同语音大模型在 AIR-Bench Sound Foundation 任务中的表现
在AIR-Bench测试中,Soundwave在Speech Foundation任务平均得分75.5,超越其他模型;在Sound Foundation任务里,即便仅使用约244小时的Sound任务数据,也仅次于使用10k小时数据的Qwen2-Audio ,并且其单编码器架构处理语音时效率更高。
图五:不同音频特征压缩方法下,(a)语音、文本特征相似度对比(b)训练速度对比
研究团队还进行了对比实验,结果显示,带有对齐适配器的Soundwave在语音和文本特征相似度上表现突出,训练速度几乎是其他方法的三倍。在ASR任务中,压缩适配器在2.5%的低压缩率下,能保持稳定性能,显著加快推理速度,相比其他方法,首Token延迟(TTFT)提升明显,且计算开销几乎不变。
此外,Soundwave的问答功能也十分强大,能精准理解语音输入,迅速生成合理答案,在多个领域都能提供高效、精准的智能问答支持。
04.
广阔的应用前景
Soundwave模型凭借创新的语音 - 文本对齐方案,打破了传统语音大模型对大规模标注数据的依赖。通过三阶段训练策略,有效解决了语音与文本的表示空间差距和序列长度不一致问题,让模型高效学习语音理解和对齐能力。
未来,Soundwave将持续优化语音理解能力,在医疗、教育、智能交互等领域有着广泛的应用前景,有望推动语音AI在更多场景落地。
----- END -----
wisemodel相关:
系统升级:
大赛报名:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.