网易首页 > 网易号 > 正文 申请入驻

小米声音理解大模型 MiDashengLM-7B 发布并全量开源

0
分享至

IT之家 8 月 4 日消息,小米自研声音理解大模型 MiDashengLM-7B 今日正式发布,并全量开源

据小米官方介绍,MiDashengLM-7B 速度精度上实现双突破:单样本首 Token 延迟仅为同类模型 1/4、同显存下并发超 20 倍,在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA)

MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

2024 年,小米发布的 Xiaomi Dasheng 声音基座模型在国际上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立领先优势并保持至今。

Xiaomi Dasheng 在小米的智能家居和汽车座舱等场景有超过 30 项落地应用。行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联 IoT 控制能力,以及小米 YU7 上搭载的增强哨兵模式划车检测等,背后都有 Xiaomi Dasheng 作为核心算法的赋能。

MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用。

小米表示,不同于 Qwen2.5-Omni 等未公开训练数据细节的模型,MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告中详细介绍了从音频编码器预训练到指令微调的全流程。

作为小米“人车家全生态”战略的关键技术,MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性

基于 MiDashengLM 的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能

IT之家附 MiDashengLM 开源地址:

  • GitHub 主页:https://github.com/xiaomi-research/dasheng-lm
  • 技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
  • 模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b
  • 模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b
  • 网页Demohttps://xiaomi-research.github.io/dasheng-lm
  • 交互Demohttps://huggingface.co/spaces/mispeech/MiDashengLM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
315晚会后,不出意外的话,这5样东西将“无人问津”,白给也不要

315晚会后,不出意外的话,这5样东西将“无人问津”,白给也不要

云景侃记
2026-03-17 11:42:59
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
韩国放大招!拟向越南和中国大城市居民发10年多次往返签证,意欲何为?

韩国放大招!拟向越南和中国大城市居民发10年多次往返签证,意欲何为?

缅甸中文网
2026-03-17 14:44:09
郭昊文赵柏青内讧原因曝光,同曦官宣罚单,涉及合同

郭昊文赵柏青内讧原因曝光,同曦官宣罚单,涉及合同

东球猫猫
2026-03-18 09:28:38
重大抛盘!主力资金正在逃离这条赛道?股民必须警惕的连锁反应…

重大抛盘!主力资金正在逃离这条赛道?股民必须警惕的连锁反应…

清流财记
2026-03-18 08:14:55
拖垮一个普通家庭,只需要一辆20万的车。

拖垮一个普通家庭,只需要一辆20万的车。

老陆不老
2026-03-16 16:43:00
福特CEO法利试驾中国皮卡:很有竞争力 但载重、拖拽能力不行

福特CEO法利试驾中国皮卡:很有竞争力 但载重、拖拽能力不行

快科技
2026-03-16 08:35:06
那年退伍,我帮一个老太太提行李,她女儿追上来要微信

那年退伍,我帮一个老太太提行李,她女儿追上来要微信

清风晓
2026-03-18 09:39:24
SGA轰40+5+4仍无缘今日最佳!对不起,你碰到创纪录的杜伦了

SGA轰40+5+4仍无缘今日最佳!对不起,你碰到创纪录的杜伦了

世界体育圈
2026-03-18 12:37:32
美军称使用数枚重磅弹药打击霍尔木兹海峡沿岸伊朗导弹阵地

美军称使用数枚重磅弹药打击霍尔木兹海峡沿岸伊朗导弹阵地

财联社
2026-03-18 07:07:07
“小龙虾”爆火!黄仁勋最新断言:OpenClaw“绝对是下一个ChatGPT”

“小龙虾”爆火!黄仁勋最新断言:OpenClaw“绝对是下一个ChatGPT”

财联社
2026-03-18 08:29:04
特朗普回应美官员因对伊战争辞职

特朗普回应美官员因对伊战争辞职

财联社
2026-03-18 09:24:08
走访顾客投诉被骚扰的半藏寿司门店:有员工称事发时座位较满

走访顾客投诉被骚扰的半藏寿司门店:有员工称事发时座位较满

南方都市报
2026-03-17 17:43:44
我给儿子带娃三年,回老家五天,儿媳打来电话:妈,你啥时候回

我给儿子带娃三年,回老家五天,儿媳打来电话:妈,你啥时候回

人间百态大全
2026-03-18 07:10:03
七岁儿子写诗向父亲要钱,全篇20字无一钱字,好友:我把女儿嫁他

七岁儿子写诗向父亲要钱,全篇20字无一钱字,好友:我把女儿嫁他

柳絮忆史
2026-03-14 09:07:10
女首富甘比现身上海,天庭饱满福相拉满,百亿身家颜值福气双在线

女首富甘比现身上海,天庭饱满福相拉满,百亿身家颜值福气双在线

情感大头说说
2026-03-18 08:39:02
3月养老金新标准落地!60岁以上农民每月能领多少?一文读懂

3月养老金新标准落地!60岁以上农民每月能领多少?一文读懂

流史岁月
2026-03-18 12:25:03
女子泰国被抛尸大反转!真实工作曝光,三大疑点越扒越细思极恐

女子泰国被抛尸大反转!真实工作曝光,三大疑点越扒越细思极恐

梦史
2026-03-18 13:23:45
杜锋做对决定!弃用3将激活最强崔永熙徐杰,广东22分复仇新疆

杜锋做对决定!弃用3将激活最强崔永熙徐杰,广东22分复仇新疆

后仰大风车
2026-03-17 21:50:56
49天沉寂!姆巴佩陷入职业生涯最大危机,背后真相浮出水面

49天沉寂!姆巴佩陷入职业生涯最大危机,背后真相浮出水面

茅塞盾开本尊
2026-03-18 13:18:37
2026-03-18 14:03:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
334657文章数 607071关注度
往期回顾 全部

科技要闻

直连微信!腾讯QClaw宣布大规模放量

头条要闻

媒体:以色列定点清除拉里贾尼 彻底斩断美国退路

头条要闻

媒体:以色列定点清除拉里贾尼 彻底斩断美国退路

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

郑恺苗苗晒全家福 首次公开三胎小女儿

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

本地
手机
亲子
艺术
公开课

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

手机要闻

一加15T将于3月24日发布,定位全能型小尺寸旗舰

亲子要闻

科普|小儿麻醉,家长需要知道的那些事

艺术要闻

风景如画,太美了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版