网易首页 > 网易号 > 正文 申请入驻

小米声音理解大模型 MiDashengLM-7B 发布并全量开源

0
分享至

IT之家 8 月 4 日消息,小米自研声音理解大模型 MiDashengLM-7B 今日正式发布,并全量开源

据小米官方介绍,MiDashengLM-7B 速度精度上实现双突破:单样本首 Token 延迟仅为同类模型 1/4、同显存下并发超 20 倍,在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA)

MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

2024 年,小米发布的 Xiaomi Dasheng 声音基座模型在国际上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立领先优势并保持至今。

Xiaomi Dasheng 在小米的智能家居和汽车座舱等场景有超过 30 项落地应用。行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联 IoT 控制能力,以及小米 YU7 上搭载的增强哨兵模式划车检测等,背后都有 Xiaomi Dasheng 作为核心算法的赋能。

MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用。

小米表示,不同于 Qwen2.5-Omni 等未公开训练数据细节的模型,MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告中详细介绍了从音频编码器预训练到指令微调的全流程。

作为小米“人车家全生态”战略的关键技术,MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性

基于 MiDashengLM 的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能

IT之家附 MiDashengLM 开源地址:

  • GitHub 主页:https://github.com/xiaomi-research/dasheng-lm
  • 技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
  • 模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b
  • 模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b
  • 网页Demohttps://xiaomi-research.github.io/dasheng-lm
  • 交互Demohttps://huggingface.co/spaces/mispeech/MiDashengLM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧盟对乌第50批军援规模庞大,克林顿坦言俄乌冲突是美国责任

欧盟对乌第50批军援规模庞大,克林顿坦言俄乌冲突是美国责任

史政先锋
2026-03-30 19:29:19
震惊!浙大博士孟伟自曝时日无多,直播猛灌酒呲牙,状态吓坏网友

震惊!浙大博士孟伟自曝时日无多,直播猛灌酒呲牙,状态吓坏网友

川渝视觉
2026-03-29 21:27:07
打破欧美日垄断,张雪机车两天夺两冠,直播间涌入6000多人!公司估值超10亿元,创始人草根出身,20年前湖南卫视纪录片刷屏

打破欧美日垄断,张雪机车两天夺两冠,直播间涌入6000多人!公司估值超10亿元,创始人草根出身,20年前湖南卫视纪录片刷屏

每日经济新闻
2026-03-30 18:16:10
中国银行副行长刘承钢:把握大量定期存款到期有利时机,有效对冲资产收益下行压力

中国银行副行长刘承钢:把握大量定期存款到期有利时机,有效对冲资产收益下行压力

北京商报
2026-03-30 18:07:56
一对母女同框征婚火了!母亲3万8、女儿8万8,网友神评笑翻全网

一对母女同框征婚火了!母亲3万8、女儿8万8,网友神评笑翻全网

行者聊官
2026-03-30 12:53:10
致1人死亡!博罗石湾一工业园被挂牌督办

致1人死亡!博罗石湾一工业园被挂牌督办

南方都市报
2026-03-30 09:54:57
从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

阿胡
2026-03-30 12:52:29
接陌生电话不要先出声

接陌生电话不要先出声

大象新闻
2026-03-29 07:29:10
李荣浩公开讨伐不到48小时,单依纯过往被扒,身体隐疾是冰山一角

李荣浩公开讨伐不到48小时,单依纯过往被扒,身体隐疾是冰山一角

阿纂看事
2026-03-30 17:35:47
米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

风向观察
2026-03-30 14:33:04
挣了老百姓几个亿,死后却被人排长队送别,他做对了什么?

挣了老百姓几个亿,死后却被人排长队送别,他做对了什么?

李昕言温度空间
2026-03-28 15:50:27
刚送别张雪峰,11岁女儿收到第一张江湖令!

刚送别张雪峰,11岁女儿收到第一张江湖令!

职场火锅
2026-03-30 15:42:03
殡葬新规3月30日起实施 新规明确不全面禁止土葬

殡葬新规3月30日起实施 新规明确不全面禁止土葬

闪电新闻
2026-03-30 11:46:27
贵州茅台时隔近两年半再提价,飞天茅台自营体系零售价调整为1539元/瓶

贵州茅台时隔近两年半再提价,飞天茅台自营体系零售价调整为1539元/瓶

界面新闻
2026-03-30 20:29:15
“不要国王!”遭遇“全球羞辱时刻”,“不满意率”创新高,特朗普仍在“嘴硬”……

“不要国王!”遭遇“全球羞辱时刻”,“不满意率”创新高,特朗普仍在“嘴硬”……

新民周刊
2026-03-30 15:36:19
6月1号起,车管所跟你关系不大了

6月1号起,车管所跟你关系不大了

音乐时光的娱乐
2026-03-30 15:57:27
伊朗:美军撤离伊边境邻近地区,美多架预警机和加油机被击落,多处仓库被摧毁,未来更多高价值目标将被列入打击名单

伊朗:美军撤离伊边境邻近地区,美多架预警机和加油机被击落,多处仓库被摧毁,未来更多高价值目标将被列入打击名单

鲁中晨报
2026-03-30 07:09:20
盘点:战争满30日,伊朗被斩首高官全名单!下一个会是谁?

盘点:战争满30日,伊朗被斩首高官全名单!下一个会是谁?

大江看潮
2026-03-30 10:03:00
注意!广东部分地区将有10级以上雷暴大风

注意!广东部分地区将有10级以上雷暴大风

广东发布
2026-03-30 22:19:21
泽连斯基获诺贝尔和平奖提名,俄罗斯著名博主发出悲观论调

泽连斯基获诺贝尔和平奖提名,俄罗斯著名博主发出悲观论调

史政先锋
2026-03-30 14:56:15
2026-03-30 23:16:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336691文章数 607097关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

亲子
游戏
家居
旅游
公开课

亲子要闻

孩子眼睛出现这些现象,一定要警惕!

四月PS新会免游戏爆料!类魂与二次元双大作领衔

家居要闻

东方法式美学 现代简约

旅游要闻

日照五莲:千亩樱桃花海醉游人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版