网易首页 > 网易号 > 正文 申请入驻

港中大(深圳)开源Soundwave:小数据量下的语音理解大模型强者

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

在人工智能快速发展的当下,多模态大模型尤其是语音交互类模型备受关注。然而,语音信息因包含语气、环境音等复杂因素,使大模型“听懂”语音成为难题。现有方法依赖大规模数据训练,且未充分解决语音与文本在表示空间和序列长度上的差异。

在此背景下,香港中文大学(深圳)联合是石科技推出Soundwave语音理解大模型,针对上述问题采用三阶段训练策略,以较少数据量实现高效训练,在语音翻译、情绪识别等任务中表现优异,在AIR-Bench测试超越众多模型,未来将在多领域推动语音AI落地。目前已上线始智AI-wisemodel开源社区,欢迎体验。

模型地址

https://wisemodel.cn/models/FreedomIntelligence/Soundwave

01.

语音大模型的发展困境

在自然语言处理(NLP)领域,大模型(LLMs)凭借强大的理解和推理能力,深刻改变着行业格局。与此同时,多模态大模型,尤其是以语音交互为核心的模型也异军突起,展现出广阔的发展前景。像GPT-4o将语音与大模型端到端结合,凭借高实时性和强表现力,吸引了众多科研学者和用户的目光。

不过,在实际的语音交流中,情况远比想象的复杂。语音交流不仅受表达内容影响,语气、停顿等副语言特征,以及环境音、说话人特征等背景因素,都会对意图表达产生作用。

和文本相比,语音能传递更丰富的信息,但这也让语音特征变得复杂多变。这就是为什么,即便现有大模型如ChatGPT、DeepSeek在文本理解上已接近人类水平,可让它们“听懂”语音仍是一大难题。

目前,提升语音大模型性能的常用方法是依赖大规模训练数据,通常需要数十万甚至百万小时的数据量。虽然扩大数据量和模型参数能在一定程度上解决问题,但文本和语音之间存在的核心问题却未得到充分研究。

一方面,语音通过额外的语音编码端建模,文本表示由大模型生成,两者的表示空间不一致;另一方面,语音以帧为单位,大模型以子词为单位建模,导致语音序列往往比文本序列长几十倍。

图一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表现

02.

Soundwave模型的创新架构

在这样的背景下,香港中文大学(深圳)联合是石科技带来了惊喜——提出Soundwave模型。该模型创新性地解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个关键问题,分别设计了解决方案和任务数据。令人惊叹的是,它仅用10k小时的数据,就展现出卓越的性能。

图二:Soundwave 的训练过程。其中灰色模块被冻结,橙色模块被训练。

Soundwave的训练过程分为三个阶段。在语音与文本对齐阶段,为解决语音和文本表示空间的差异,模型设计了对齐适配器,它包含线性层与单层Transformer encoder层,能将音频序列转换到大模型可理解的表示空间,再借助CTC损失实现两者对齐。

第二阶段是语音特征压缩,通过压缩适配器动态调整语音序列长度,使其与文本匹配。具体做法是先依据CTC预测的峰值选择语义特征,接着利用这些特征从原始序列中查询收集辅助信息,最后融合两类特征完成序列长度的缩减。

图三: 动态压缩方法示例

最后是监督微调阶段,模型仅调整LoRA参数,利用丰富的文本和语音指令数据,通过多种问答格式、十余种语音任务以及多样化指令格式进行学习,提升任务处理能力,增强指令遵循和语音理解能力。

此外,团队还采用基于温度的采样方法、数据标注清洗及针对语音任务的Chain-of-Thought等策略,提高学习效率。

03.

显著的实验成果

在实验环节,Soundwave选用Whisper Large作为音频编码器,Llama-3.1-8B-Instruct作为基础模型。实验结果令人眼前一亮,在多个音频任务中,Soundwave表现优异。

在语音翻译任务上,它超越了Qwen2-Audio;语音情绪识别任务中,也能精准识别语音情感;面对Zero-shot任务,比如训练过程中未见过的语言对翻译,它同样表现出色。

表一:在基础任务上的性能表现,这些任务包括自动语音识别(ASR)、语音翻译(ST)、语音情感识别(SER)、发声分类(VSC)。其中*表示 zero-shot 任务。

表二:不同语音大模型在 AIR-Bench 上的表现

表三:不同语音大模型在 AIR-Bench Sound Foundation 任务中的表现

在AIR-Bench测试中,Soundwave在Speech Foundation任务平均得分75.5,超越其他模型;在Sound Foundation任务里,即便仅使用约244小时的Sound任务数据,也仅次于使用10k小时数据的Qwen2-Audio ,并且其单编码器架构处理语音时效率更高。

图五:不同音频特征压缩方法下,(a)语音、文本特征相似度对比(b)训练速度对比

研究团队还进行了对比实验,结果显示,带有对齐适配器的Soundwave在语音和文本特征相似度上表现突出,训练速度几乎是其他方法的三倍。在ASR任务中,压缩适配器在2.5%的低压缩率下,能保持稳定性能,显著加快推理速度,相比其他方法,首Token延迟(TTFT)提升明显,且计算开销几乎不变。

此外,Soundwave的问答功能也十分强大,能精准理解语音输入,迅速生成合理答案,在多个领域都能提供高效、精准的智能问答支持。

04.

广阔的应用前景

Soundwave模型凭借创新的语音 - 文本对齐方案,打破了传统语音大模型对大规模标注数据的依赖。通过三阶段训练策略,有效解决了语音与文本的表示空间差距和序列长度不一致问题,让模型高效学习语音理解和对齐能力。

未来,Soundwave将持续优化语音理解能力,在医疗、教育、智能交互等领域有着广泛的应用前景,有望推动语音AI在更多场景落地。

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈露宣布与过去和解!泪流满面,称13年把全部青春给了爱的男孩

陈露宣布与过去和解!泪流满面,称13年把全部青春给了爱的男孩

乡野小珥
2026-06-26 07:13:35
2-0晋级后,科特迪瓦主帅炮轰德国巨星:你这1句话就是种族歧视!

2-0晋级后,科特迪瓦主帅炮轰德国巨星:你这1句话就是种族歧视!

晚风知我意21
2026-06-26 10:21:21
全球首款0.7nm芯片发布

全球首款0.7nm芯片发布

芯智讯
2026-06-25 20:05:25
21岁皇马球星斩获世界杯处子球+3-2逆转东道主,土耳其终结2连败

21岁皇马球星斩获世界杯处子球+3-2逆转东道主,土耳其终结2连败

侧身凌空斩
2026-06-26 12:03:15
难以置信!第一神童宁铂,17岁留校任教,27岁被关监狱,38岁出家

难以置信!第一神童宁铂,17岁留校任教,27岁被关监狱,38岁出家

从零到一研究所
2026-06-25 17:45:36
远程千里偷猪脚,已成财政工作先进经验?

远程千里偷猪脚,已成财政工作先进经验?

家传编辑部
2026-06-25 23:28:50
社评:四国合伙给“台独”撑腰?门儿都没有

社评:四国合伙给“台独”撑腰?门儿都没有

环球网资讯
2026-06-26 01:06:15
卢卡申科上校,跑路

卢卡申科上校,跑路

民言民语
2026-06-26 09:33:52
孙继海:我们当球员的都知道,C罗第一个进球难度非常非常大

孙继海:我们当球员的都知道,C罗第一个进球难度非常非常大

懂球帝
2026-06-26 09:54:20
美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

夜白侃球
2026-06-26 10:39:04
全网看哭!698分高考少年查分当场崩溃:没人撑腰的孩子

全网看哭!698分高考少年查分当场崩溃:没人撑腰的孩子

手工制作阿爱
2026-06-26 02:32:17
电影《抓特务》资本曝光!冯小刚布局30年,被当炮灰的不止是韩红

电影《抓特务》资本曝光!冯小刚布局30年,被当炮灰的不止是韩红

秋姐居
2026-06-25 16:41:08
700分以上,浙江断层领先!2026年全国一卷省份高分对比

700分以上,浙江断层领先!2026年全国一卷省份高分对比

史海流年号
2026-06-26 08:07:47
日本有人着急了

日本有人着急了

新民周刊
2026-06-26 09:14:06
华为余承东:我们的理念和特斯拉不一样,尊界S800Grand Design典藏大观面向L3+自动驾驶设计

华为余承东:我们的理念和特斯拉不一样,尊界S800Grand Design典藏大观面向L3+自动驾驶设计

金融界
2026-06-25 22:41:11
地球正在 “喝光” 自己的海洋!研究发现:大量海水正涌入地核

地球正在 “喝光” 自己的海洋!研究发现:大量海水正涌入地核

观察宇宙
2026-06-25 18:58:48
67岁王朔现状:一身毛病,爱吃甜食,独自定居北京,拒绝综艺商演

67岁王朔现状:一身毛病,爱吃甜食,独自定居北京,拒绝综艺商演

白面书誏
2026-06-25 18:37:27
刚刚,男篮首批裁员名单公布,四人两场热身赛未登场,郭导不再给予机会

刚刚,男篮首批裁员名单公布,四人两场热身赛未登场,郭导不再给予机会

兰亭墨未干
2026-06-26 08:30:21
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利强哥
2026-06-25 02:13:25
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
2026-06-26 12:52:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
488文章数 16关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

8岁女孩在ICU抢救1天花1万元 39岁爸爸缺钱愁白头

头条要闻

8岁女孩在ICU抢救1天花1万元 39岁爸爸缺钱愁白头

体育要闻

三球换里德:森林狼和黄蜂谁更癫?!

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

手机
游戏
亲子
本地
教育

手机要闻

国补到手1699元起!荣耀X80 Pro Max开售:11000mAh行业最大电池 续航刷新吉尼斯纪录

《PUBG》国家杯“PNC 2026”今日开幕

亲子要闻

超预产期双胞胎各超9磅,助产士18年未见

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

中考“抢人大战”一触即发?!普娃逆风翻盘的新赛道来了

无障碍浏览 进入关怀版