网易首页 > 网易号 > 正文 申请入驻

刚刚,小米最强语音大模型开源!亿小时训练,讲脱口秀说快板溜得很

0
分享至

智东西9月19日消息,刚刚,小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio,该模型参数规模70亿,预训练数据达到超1亿小时,且在开源模型中的语音智能和音频理解基准测试中都实现了SOTA,在多项测试超越同参数量开源模型、谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。

这一模型不仅可以做到和用户聊人生理想、谈物理知识等都对话流畅自然,被打断也能快速反应,还具有全面的音频字幕、音频推理、长时间音频理解等多种能力。

MiMo-Audio说天津方言十分自然,直接写了一段快板词开始夸自己,说完快板还会为自己找补“虽然没有竹板声音,但节奏感很到位”。

与此同时,研究人员还提到,该模型首次在语音领域实现基于ICL(上下文学习)的少样本泛化,并在预训练观察到明显的“涌现”行为。例如其训练数据中缺失的语音转换、风格迁移、语音编辑等任务,MiMo-Audio都能应对。这也是目前开源领域首个有语音续写能力的语音模型。小米将MiMo-Audio的发布称作“语音闭源届的GPT-3时刻”、“语音开源届的Llama时刻”。

目前,小米已经开源了预训练模型MiMo-Audio-7B-Base、指令微调模型 MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer模型、技术报告、评估框架。

其中,MiMo-Audio-7B-Instruct可通过提示词切换非思考、思考两种模式,可以作为研究语音强化学习和Agentic训练的全新基座模型。

小米开源主页:

https://huggingface.co/XiaomiMiMo

技术报告:

https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

一、化身心灵导师、英语口语陪练,还能聊网络热梗、哲学故事

作为一个语音模型,MiMo-Audio能和人谈哲学、谈人生、谈理想,还能学网络热梗、化身英语陪练,甚至直接接替人类做游戏直播、上课、唱歌、讲脱口秀。

在上面的演示中,面对“如果我的手机内存不足,必须把你和GPT删掉一个,应该删谁?”这样的难题,MiMo-Audio选择了客观分析,先让用户清缓存,最后实在没办法开始分析自己和GPT的优势,让用户自己做选择,最后来一波感情攻势表忠心。

还有图灵测试的难题,MiMo-Audio讲解生动有趣,即使回答中途被提问者打断也能快速接上,在后面探讨“自己能不能通过图灵测试”时,最后还会反问提问者“比起能不能通过图灵测试,你认为AI应该怎样和人类相处?”。

学“gogogo,出发咯”的网络热梗,MiMo-Audio也能快速接上,但不知道为什么说到这句的时候其音调很奇怪,不如说其他句子时丝滑流利。

MiMo-Audio也能化身英语口语陪练导师,听完提问者说的句子后,其先会给出更正的句子版本,然后指出修正了哪些部分,以及为什么这些部分的语法不对。

该模型还能做心灵导师,当被问“Mimo你想活出怎样的人生”,它也始终不忘人设,希望“活成大家身边最贴心的声音伙伴”。

小米放出的官方演示中,提问者基于MiMo-Audio创建了自己的数字分身,然后讨论起了哲学问题。

面对“为什么要假设西西弗斯是幸福的?”,MiMo-Audio先给了一波情绪价值,然后进行清晰有逻辑的解释,中间穿插着“首先呢”、“对吧”这类人类口癖,交流自然。当被问到第二个问题“假如明天是世界末日,你会去做什么?”,MiMo-Audio还会结合前面西西弗斯的故事进行阐释。

二、多项测试超主流开闭源模型,达到SOTA

通过将MiMo-Audio的预训练数据扩展到超过1亿小时,研究人员观察到模型在各种音频任务中出现了少量涌现能力。

MiMo-Audio-7B-Base可以泛化到其训练数据中缺失的任务,例如语音转换、风格迁移和语音编辑,对于其语音延续能力,模型能够生成高度逼真的脱口秀、朗诵、直播和辩论。

在后训练阶段,他们策划了多样化的指令调谐语料库,并将思维机制引入音频理解和生成中。MiMo-Audio在MMSU、MMAU、MMAR、MMAU-Pro等音频理解基准,Big Bench Audio、MultiChallenge Audio等口语对话基准以及instruct-TTS评估上实现开源SOTA,接近或超越闭源模型。

在通用语音理解及对话等多项标准评测基准中,MiMo-Audio超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过谷歌闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

三、语音续写、语音编辑丝滑,还有超强音频理解能力

通过对大规模语音语料库的生成预训练,MiMo-Audio获得通用语音延续能力。给定音频提示,它会生成连贯且适合上下文的延续,从而保留关键的声学特性,例如说话者身份、韵律和环境声音。

音频推理可以深入理解和分析复杂的音频内容,包括上下文识别和逻辑推理。

长时间的音频理解,能够处理和分析冗长的音频序列,并具有持续的注意力和连贯的解释。

MiMo-Audio集成了Instruct TTS功能,并结合了思考模式来优化生成结果。

四、三大技术创新点,评估基准已开源

小米官方博客提到,MiMo-Audio的三个技术创新点在于:

1、首次证明把语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性,表现为少样本学习能力,见证语音领域的“GPT-3时刻”;

2、首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系,开启语音领域的“Llama时刻”;

3、首个把思考同时引入语音理解和语音生成过程中的开源模型,支持混合思考。

具体来看,现有音频分词方法的主要挑战在于如何有效平衡音频信号中语义和声学信息之间的固有权衡,假设音频分词器的首要标准是重建保真度,并且它的token应该适合下游语言建模,基于此,小米推出了MiMo-Audio-Tokenizer。

MiMo-Audio-Tokenizer参数规模是1.2B,基于Transformer架构,包括编码器、离散化层和解码器,以25Hz帧速率运行,并通过8层残差矢量量化(RVQ)每秒生成200个token。通过整合语义和重建目标,研究人员在1000万小时的语料库上从头开始训练它,在重建质量方面表现较好,并促进了下游语言建模。

MiMo-Audio是统一的生成音频语言模型,它联合对文本和音频token序列进行建模。该模型接受文本和音频token作为输入,并自回归地预测文本或音频token,从而支持涉及文本和音频模态任意组合的全面任务。

为了提高高token率序列的建模效率,并减轻语音和文本模态之间的长度差异,研究人员提出了一种结合补丁编码器、大模型和补丁解码器的新型架构。补丁编码器将RVQ token的四个连续时间步长聚合到一个补丁中,将序列下采样为大模型的6.25Hz表示。随后,补丁解码器自回归地生成完整的25Hz RVQ token序列。

此外,小米还开发了全面基准,评估该模型在语音领域的语境学习能力。该基准旨在评估多个方面,包括模态不变的常识、听觉理解和推理,以及一系列丰富的语音到语音生成任务。结语:小米将持续开源,发力语音AGI

此外小米全面开源的模型、基准评估工具等,可以用来评估MiMo-Audio和论文中提到的其他最新音频大模型,为开发者提供了灵活且可扩展的框架,支持广泛的数据集、任务和模型。

这一模型的开源也将加速语音大模型研究对齐到语言大模型,为语音AGI的发展提供重要基础,小米官方博客也提到,他们讲持续开源,用开放与协作迈向语音AI的“奇点”,走进未来的人机交互时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
A股:上午冲到3952大跳水,种种迹象表明,A股或迎一轮C浪调整大行情

A股:上午冲到3952大跳水,种种迹象表明,A股或迎一轮C浪调整大行情

股市皆大事
2026-04-02 12:18:04
天津市市场监管委原党组副书记、副主任刘惠杰被双开

天津市市场监管委原党组副书记、副主任刘惠杰被双开

界面新闻
2026-04-02 16:03:04
“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

近史谈
2026-03-31 18:57:49
约基奇15+17+12造NBA神迹,穆雷10记三分,掘金7连胜宣战马刺

约基奇15+17+12造NBA神迹,穆雷10记三分,掘金7连胜宣战马刺

钉钉陌上花开
2026-04-02 11:25:56
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
4月2日世界杯:王艺迪1-4遭逆转止步16强压力陡增

4月2日世界杯:王艺迪1-4遭逆转止步16强压力陡增

吴锎旅行ing
2026-04-02 12:33:13
大瓜,特朗普称中国富豪有56个美国孩子!各种猜测越来越离谱了!

大瓜,特朗普称中国富豪有56个美国孩子!各种猜测越来越离谱了!

眼光很亮
2026-04-02 06:09:52
大瓜!扔子姐谭珺再爆猛料

大瓜!扔子姐谭珺再爆猛料

新浪财经
2026-04-02 05:10:33
全场旋转压制!王曼昱横扫伊藤美诚进世界杯八强,对手都被打绝望

全场旋转压制!王曼昱横扫伊藤美诚进世界杯八强,对手都被打绝望

篮球资讯达人
2026-04-02 13:43:36
全文!特朗普发表对伊战争电视讲话,将冲突归咎德黑兰,鼓动政权更迭

全文!特朗普发表对伊战争电视讲话,将冲突归咎德黑兰,鼓动政权更迭

蓝色海边
2026-04-02 10:56:24
“世界级文旅项目”,烂尾了

“世界级文旅项目”,烂尾了

中国新闻周刊
2026-04-02 15:17:57
马刺轻取勇士豪取10连胜 文班41+18超邓肯罗宾逊创队史纪录

马刺轻取勇士豪取10连胜 文班41+18超邓肯罗宾逊创队史纪录

醉卧浮生
2026-04-02 12:39:15
汉堡店踹女童女子身份被扒: 正脸曝光已社死,家属发声 警方介入

汉堡店踹女童女子身份被扒: 正脸曝光已社死,家属发声 警方介入

潮鹿逐梦
2026-04-02 09:18:43
全岛失控!郑丽文访陆消息落地,台军逃兵潮爆发,民进党官员流泪

全岛失控!郑丽文访陆消息落地,台军逃兵潮爆发,民进党官员流泪

混沌录
2026-04-01 19:55:11
张雪师父发声:夺冠后两人通话泣不成声;曾数十次借钱给张雪,建议他造车:是你成为世界冠军的唯一可能

张雪师父发声:夺冠后两人通话泣不成声;曾数十次借钱给张雪,建议他造车:是你成为世界冠军的唯一可能

大风新闻
2026-04-02 14:31:06
CCTV直播!国乒4人出局!孙颖莎或爆冷!王曼昱王艺迪战张本伊藤 世界杯4月2日赛程

CCTV直播!国乒4人出局!孙颖莎或爆冷!王曼昱王艺迪战张本伊藤 世界杯4月2日赛程

好乒乓
2026-04-02 12:14:02
终于!伊朗,斩首之战打响

终于!伊朗,斩首之战打响

新浪财经
2026-04-01 18:43:58
刚刚,特朗普发表19分钟全国讲话,宣布取得对伊朗战争的胜利

刚刚,特朗普发表19分钟全国讲话,宣布取得对伊朗战争的胜利

山河路口
2026-04-02 10:44:07
4月1日起全国道路监控全面启用,这10种行为将直接扣分罚款

4月1日起全国道路监控全面启用,这10种行为将直接扣分罚款

深度报
2026-04-01 20:31:41
2026-04-02 16:27:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11496文章数 117022关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

四川复刻版"泰坦尼克号"烂尾 只完成90%的钢外壳工程

头条要闻

四川复刻版"泰坦尼克号"烂尾 只完成90%的钢外壳工程

体育要闻

这六个字,代表了邵佳一的新国足

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

用料下本 百万公里的蔚来ES6拆开看

态度原创

教育
数码
家居
旅游
健康

教育要闻

天府新区调整划片后,利好不止这个片区

数码要闻

Lemokey推出39g碳纤维“洞洞鼠”LM7 Air,搭载54L15主控

家居要闻

岁月静好 典雅新章

旅游要闻

青海海东持续擦亮“周末放松·去趟海东”文旅品牌

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版