网易首页 > 网易号 > 正文 申请入驻

刚刚,小米又开源一大模型,22个公开测评SOTA

0
分享至

智东西8月4日消息,刚刚,小米公司正式开源声音理解大模型MiDashengLM-7B。其声音理解性能在22个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首Token延迟(TTFT)为业界先进模型的1/4,同等显存下的数据吞吐效率是业界先进模型的20倍以上。

具体来看,MiDashengLM-7B基于Xiaomi Dasheng作为音频编码器Qwen2.5-Omni-7B Thinker作为自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

此前小米于2024年首次发布Xiaomi Dasheng声音基座模型,此次开源的7B模型是该模型的扩展。目前该系列模型在小米智能家居、汽车座舱等领域有30多个落地应用。

小米称,音频理解是构建全场景智能生态的关键领域。MiDashengLM通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

MiDashengLM的训练数据由100%公开数据构成。

GitHub主页:
https://github.com/xiaomi-research/dasheng-lm
技术报告:
https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模型参数(Hugging Face):
https://huggingface.co/mispeech/midashenglm-7b
模型参数(魔搭社区):
https://modelscope.cn/models/midasheng/midashenglm-7b
网页Demo:
https://xiaomi-research.github.io/dasheng-lm
交互Demo:
https://huggingface.co/spaces/mispeech/MiDashengLM

一、支持跨场景音频理解能力,音频编码器多项关键测试超越Whisper

MiDashengLM在音频描述、声音理解、音频问答任务中有比较明显的优势:

▲音频描述任务性能(FENSE指标)

在音频描述任务中,MiDashengLM-7B比Qwen、Kimi同类7B模型性能更强。

▲声音理解任务性能

在声音理解任务中,MiDashengLM-7B除FMA、VoxCeleb-Gender项目均领先于Qwen的7B模型,与Kimi的7B模型相比,仅有VoxCeleb-Gender项目略微落后。

▲语音识别任务性能(WER/CER指标)

在语音识别任务中,MiDashengLM-7B的主要优势在于GigaSpeech 2,在其他两组测试中Qwen和Kimi有一定优势。

▲音频问答任务性能

其中,Xiaomi Dasheng音频编码器是MiDashengLM音频理解能力的重要来源。在用于评估编码器通用能力的X-ARES Benchmark上,Xiaomi Dasheng在多项关键任务上优于作为Qwen2.5-Omni、Kimi-Audio等模型音频编码器的Whisper。

▲音频编码器在X-ARES Benchmark上的分数对比

除了声音理解,Xiaomi Dasheng还可以用于音频生成任务,如语音降噪、提取和增强。

二、推理效率提升,单样本4倍加速与百倍并发支持

MiDashengLM的训练和推理效率是其另一项优势。对于单个样本推理的情形,即batch size为1时,MiDashengLM的首个token预测时间(TTFT)为Qwen2.5-Omni-7B的1/4。

批次处理时,在80GB GPU上处理30秒音频并生成100个token的测试中,MiDashengLM可以把batch size设置为512,而Qwen2.5-omni-7B在batch size设置为16时即出现显存溢出(OOM)。

▲Batch size=1时TTFT和GMACS指标对比

在实际部署中,MiDashengLM在同等硬件条件下可支持更多的并发请求量,降低计算成本。

▲80G显存环境下模型每秒可处理的30s音频个数

这背后,MiDashengLM基于Xiaomi Dasheng架构,在维持音频理解核心性能指标基本持平的前提下,通过优化音频编码器设计,将其输出帧率从Qwen2.5-Omni的25Hz降至5Hz,降幅80%,降低了计算负载并实现了推理效率提升。

三、训练范式改变:从碎片化转录到全局语义刻画

MiDashengLM采用通用音频描述对齐范式,避免了用ASR转录数据对齐仅关注语音内容而丢弃环境声音和音乐信息,且无法捕捉说话人情感、空间混响等关键声学特征的局限,通用描述对齐策略通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联。

该方法可以使用几乎所有的数据,包括噪声或非语音内容,而基于ASR转录的方法会丢弃非语音数据如环境声或音乐,导致数据利用率低下,基于ASR的对齐方法在ACAV100M-Speech数据集上会损失90%潜在有用数据。

▲MiDashengLM训练框架

MiDashengLM的训练数据通过多专家分析管道生成:首先对原始音频使用各种专家模型作语音、人声、音乐和环境声学的细粒度标注,包括使用Dasheng-CED模型预测2秒粒度的声音事件,再通过DeepSeek-R1推理大模型合成统一描述。

全部训练数据的原始标签在预训练中被弃用,只采用利用上述流程生成的新的丰富文本描述标签,以迫使模型学习更丰富全面的声音信息。

其中,来自ACAV100M的开源数据集经过上述流程重新标注后,形成了新的ACAVCaps训练集和MECAT Benchmark。MECAT Benchmark已于近期开源,ACAVCaps数据集将在ICASSP论文评审后开放下载。

▲ACAVCaps训练数据集构建流程

四、全栈开源,透明可复现

此次MiDashengLM训练数据100%来自公开数据集,涵盖五类110万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。

MiDashengLM完整公开了77个数据源的详细配比,技术报告公开了从音频编码器预训练到指令微调的全流程。

据官方信息,小米已开始对Xiaomi Dasheng系列模型做计算效率的升级,寻求终端设备上可离线部署。

结语:小米音频大模型再拱一卒,多模态能力拼图日趋完善

作为影响自然语言交互体验的关键技术之一,小米Xiaomi Dasheng系列模型此次的升级,对其提升自家设备的AI交互体验有一定帮助,从智能家居、智能汽车到智能手机,各类产品均能受益。

AI多模态是当下业界主攻的方向之一,小米重心转向造车后,在AI大模型领域发声并不多,小米未来在多模态领域能否带来更多模型创新,值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧尔班刚下台,匈牙利立刻驱逐俄间谍,16年亲俄路线开始清算

欧尔班刚下台,匈牙利立刻驱逐俄间谍,16年亲俄路线开始清算

桂系007
2026-05-08 22:26:27
中国版劳斯莱斯杀疯了!尊界S800销量碾压奔驰S级、迈巴赫、宝马7系、奥迪A8总和

中国版劳斯莱斯杀疯了!尊界S800销量碾压奔驰S级、迈巴赫、宝马7系、奥迪A8总和

快科技
2026-05-08 14:32:28
紧急提醒2.5亿股民!周日两大王炸利好突袭,满仓/空仓的都来看!

紧急提醒2.5亿股民!周日两大王炸利好突袭,满仓/空仓的都来看!

股市皆大事
2026-05-10 10:23:02
段永平评OPPO母亲节文案风波:确实不合适,文案欠妥

段永平评OPPO母亲节文案风波:确实不合适,文案欠妥

南方都市报
2026-05-09 22:04:09
蓉城击败河南队后!有谁注意到刘殿座和索罗金这个举动,赢得点赞

蓉城击败河南队后!有谁注意到刘殿座和索罗金这个举动,赢得点赞

张丽说足球
2026-05-10 16:19:55
“藏南”的管辖现状,印度在藏南囤积重兵,中国还能收回藏南吗?

“藏南”的管辖现状,印度在藏南囤积重兵,中国还能收回藏南吗?

共工之锚
2026-04-28 23:29:16
老汉取5万发现是假钞,银行:离柜无责!老汉拿出一证件行长愣了

老汉取5万发现是假钞,银行:离柜无责!老汉拿出一证件行长愣了

卡西莫多的故事
2025-11-02 13:58:17
心理学上有个效应:父母越勤快,孩子越自私;学会“放手”这两件事,孩子未来越成功

心理学上有个效应:父母越勤快,孩子越自私;学会“放手”这两件事,孩子未来越成功

心理观察局
2026-05-09 09:10:22
再年轻也没用!32岁工程师王登程去世,死因曝光,献血高达7600cc

再年轻也没用!32岁工程师王登程去世,死因曝光,献血高达7600cc

墨印斋
2026-05-10 06:11:22
普京谈与泽连斯基会面,称“愿意在莫斯科,也愿意在第三国”:既不会主动提出、也不会拒绝与他会面

普京谈与泽连斯基会面,称“愿意在莫斯科,也愿意在第三国”:既不会主动提出、也不会拒绝与他会面

鲁中晨报
2026-05-10 10:14:11
北大哈佛双硕士亲手撕开美国留学遮羞布,自爆“杀猪盘”真相内幕

北大哈佛双硕士亲手撕开美国留学遮羞布,自爆“杀猪盘”真相内幕

史智文道
2026-05-10 16:31:43
他为申花效力6年,如今定居上海,财富自由,已是申花一线教练

他为申花效力6年,如今定居上海,财富自由,已是申花一线教练

云舟史策
2026-04-26 14:48:07
伊朗战争:美国又一个注定烂尾的霸权工程

伊朗战争:美国又一个注定烂尾的霸权工程

纪史行者
2026-05-10 09:26:09
他是人民的好总理,65岁官至副国级,为人低调清廉,晚年捐200万

他是人民的好总理,65岁官至副国级,为人低调清廉,晚年捐200万

阿柒的讯
2026-05-10 10:04:47
特朗普:国际舞台上的荒诞“主角”

特朗普:国际舞台上的荒诞“主角”

风铃草语
2026-05-10 06:29:39
杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

陈意小可爱
2026-05-09 15:56:56
陪县长省厅批经费,厅长拍桌耍官威,我反手一巴掌,县长当场傻眼

陪县长省厅批经费,厅长拍桌耍官威,我反手一巴掌,县长当场傻眼

晓艾故事汇
2026-05-10 10:29:20
张皓嘉绝杀北京!听听刘晓宇李克怎么说,为何能反败为胜?

张皓嘉绝杀北京!听听刘晓宇李克怎么说,为何能反败为胜?

南海浪花
2026-05-09 22:39:08
世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界圈
2026-05-04 16:42:27
美国又一邮轮暴发病毒 115人感染被隔离

美国又一邮轮暴发病毒 115人感染被隔离

看看新闻Knews
2026-05-10 14:56:03
2026-05-10 17:47:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
手机
艺术
亲子
公开课

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

HarmonyOS 7将至?华为开发者大会HDC 2026活动详情公布

艺术要闻

预售 | 丁一林风景写生线上课程(最新)

亲子要闻

我有的是办法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版