网易首页 > 网易号 > 正文 申请入驻

刚刚,小米最强语音大模型开源!亿小时训练,讲脱口秀说快板溜得很

0
分享至


智东西
作者 程茜
编辑 李水青

智东西9月19日消息,刚刚,小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio,该模型参数规模70亿,预训练数据达到超1亿小时,且在开源模型中的语音智能和音频理解基准测试中都实现了SOTA,在多项测试超越同参数量开源模型、谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。


这一模型不仅可以做到和用户聊人生理想、谈物理知识等都对话流畅自然,被打断也能快速反应,还具有全面的音频字幕、音频推理、长时间音频理解等多种能力。

MiMo-Audio说天津方言十分自然,直接写了一段快板词开始夸自己,说完快板还会为自己找补“虽然没有竹板声音,但节奏感很到位”。

与此同时,研究人员还提到,该模型首次在语音领域实现基于ICL(上下文学习)的少样本泛化,并在预训练观察到明显的“涌现”行为。例如其训练数据中缺失的语音转换、风格迁移、语音编辑等任务,MiMo-Audio都能应对。这也是目前开源领域首个有语音续写能力的语音模型。小米将MiMo-Audio的发布称作“语音闭源届的GPT-3时刻”、“语音开源届的Llama时刻”。

目前,小米已经开源了预训练模型MiMo-Audio-7B-Base、指令微调模型 MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer模型、技术报告、评估框架。

其中,MiMo-Audio-7B-Instruct可通过提示词切换非思考、思考两种模式,可以作为研究语音强化学习和Agentic训练的全新基座模型。

小米开源主页:

https://huggingface.co/XiaomiMiMo

技术报告:

https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

一、化身心灵导师、英语口语陪练,还能聊网络热梗、哲学故事

作为一个语音模型,MiMo-Audio能和人谈哲学、谈人生、谈理想,还能学网络热梗、化身英语陪练,甚至直接接替人类做游戏直播、上课、唱歌、讲脱口秀。

在上面的演示中,面对“如果我的手机内存不足,必须把你和GPT删掉一个,应该删谁?”这样的难题,MiMo-Audio选择了客观分析,先让用户清缓存,最后实在没办法开始分析自己和GPT的优势,让用户自己做选择,最后来一波感情攻势表忠心。

还有图灵测试的难题,MiMo-Audio讲解生动有趣,即使回答中途被提问者打断也能快速接上,在后面探讨“自己能不能通过图灵测试”时,最后还会反问提问者“比起能不能通过图灵测试,你认为AI应该怎样和人类相处?”。

学“gogogo,出发咯”的网络热梗,MiMo-Audio也能快速接上,但不知道为什么说到这句的时候其音调很奇怪,不如说其他句子时丝滑流利。

MiMo-Audio也能化身英语口语陪练导师,听完提问者说的句子后,其先会给出更正的句子版本,然后指出修正了哪些部分,以及为什么这些部分的语法不对。

该模型还能做心灵导师,当被问“Mimo你想活出怎样的人生”,它也始终不忘人设,希望“活成大家身边最贴心的声音伙伴”。

小米放出的官方演示中,提问者基于MiMo-Audio创建了自己的数字分身,然后讨论起了哲学问题。

面对“为什么要假设西西弗斯是幸福的?”,MiMo-Audio先给了一波情绪价值,然后进行清晰有逻辑的解释,中间穿插着“首先呢”、“对吧”这类人类口癖,交流自然。当被问到第二个问题“假如明天是世界末日,你会去做什么?”,MiMo-Audio还会结合前面西西弗斯的故事进行阐释。

二、多项测试超主流开闭源模型,达到SOTA

通过将MiMo-Audio的预训练数据扩展到超过1亿小时,研究人员观察到模型在各种音频任务中出现了少量涌现能力。

MiMo-Audio-7B-Base可以泛化到其训练数据中缺失的任务,例如语音转换、风格迁移和语音编辑,对于其语音延续能力,模型能够生成高度逼真的脱口秀、朗诵、直播和辩论。


在后训练阶段,他们策划了多样化的指令调谐语料库,并将思维机制引入音频理解和生成中。MiMo-Audio在MMSU、MMAU、MMAR、MMAU-Pro等音频理解基准,Big Bench Audio、MultiChallenge Audio等口语对话基准以及instruct-TTS评估上实现开源SOTA,接近或超越闭源模型。

在通用语音理解及对话等多项标准评测基准中,MiMo-Audio超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过谷歌闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。


三、语音续写、语音编辑丝滑,还有超强音频理解能力

通过对大规模语音语料库的生成预训练,MiMo-Audio获得通用语音延续能力。给定音频提示,它会生成连贯且适合上下文的延续,从而保留关键的声学特性,例如说话者身份、韵律和环境声音。

以下是各种语音风格的延续示例:新闻广播、有声读物旁白、播客节目、方言演讲、游戏直播、教师讲座、相声表演、诗歌朗诵和广播节目。研究人员为MiMo-Audio设计了少样本上下文学习评估任务,以评估模型仅依靠上下文语音示例完成语音转语音生成任务而无需参数更新的能力。该基准测试旨在系统地评估模型在语音理解和生成方面的综合潜力,其希望观察到类似于GPT-3在文本领域所展示的紧急上下文学习能力。其功能包括风格转换、语音转换、语音翻译和语音编辑。此外,在音频理解方面,MiMo-Audio具有音频字幕、音频推理、长时间音频理解功能。音频字幕可以提供跨各种领域和场景的音频内容的详细描述。

音频推理可以深入理解和分析复杂的音频内容,包括上下文识别和逻辑推理。


长时间的音频理解,能够处理和分析冗长的音频序列,并具有持续的注意力和连贯的解释。


MiMo-Audio集成了Instruct TTS功能,并结合了思考模式来优化生成结果。


四、三大技术创新点,评估基准已开源

小米官方博客提到,MiMo-Audio的三个技术创新点在于:

1、首次证明把语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性,表现为少样本学习能力,见证语音领域的“GPT-3时刻”;

2、首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系,开启语音领域的“Llama时刻”;

3、首个把思考同时引入语音理解和语音生成过程中的开源模型,支持混合思考。

具体来看,现有音频分词方法的主要挑战在于如何有效平衡音频信号中语义和声学信息之间的固有权衡,假设音频分词器的首要标准是重建保真度,并且它的token应该适合下游语言建模,基于此,小米推出了MiMo-Audio-Tokenizer。

MiMo-Audio-Tokenizer参数规模是1.2B,基于Transformer架构,包括编码器、离散化层和解码器,以25Hz帧速率运行,并通过8层残差矢量量化(RVQ)每秒生成200个token。通过整合语义和重建目标,研究人员在1000万小时的语料库上从头开始训练它,在重建质量方面表现较好,并促进了下游语言建模。


MiMo-Audio是统一的生成音频语言模型,它联合对文本和音频token序列进行建模。该模型接受文本和音频token作为输入,并自回归地预测文本或音频token,从而支持涉及文本和音频模态任意组合的全面任务。

为了提高高token率序列的建模效率,并减轻语音和文本模态之间的长度差异,研究人员提出了一种结合补丁编码器、大模型和补丁解码器的新型架构。补丁编码器将RVQ token的四个连续时间步长聚合到一个补丁中,将序列下采样为大模型的6.25Hz表示。随后,补丁解码器自回归地生成完整的25Hz RVQ token序列。


此外,小米还开发了全面基准,评估该模型在语音领域的语境学习能力。该基准旨在评估多个方面,包括模态不变的常识、听觉理解和推理,以及一系列丰富的语音到语音生成任务。结语:小米将持续开源,发力语音AGI

此外小米全面开源的模型、基准评估工具等,可以用来评估MiMo-Audio和论文中提到的其他最新音频大模型,为开发者提供了灵活且可扩展的框架,支持广泛的数据集、任务和模型。

这一模型的开源也将加速语音大模型研究对齐到语言大模型,为语音AGI的发展提供重要基础,小米官方博客也提到,他们讲持续开源,用开放与协作迈向语音AI的“奇点”,走进未来的人机交互时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
通过这12个细节,网友们对人口问题有个基本的预估了

通过这12个细节,网友们对人口问题有个基本的预估了

清晖有墨
2025-09-17 16:59:17
华为大突破,一口气发布多款芯片!网友:难怪咱妈敢对英伟达动手

华为大突破,一口气发布多款芯片!网友:难怪咱妈敢对英伟达动手

青青子衿
2025-09-18 23:41:16
中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

妙知
2025-08-28 10:19:43
案例:湖南女护士被执行死刑,行刑时回头质问武警,让他当场崩溃

案例:湖南女护士被执行死刑,行刑时回头质问武警,让他当场崩溃

星宇共鸣
2025-09-17 17:58:03
票数大幅领先,国民党新主席已定?张亚中通告全岛,两岸是一家人

票数大幅领先,国民党新主席已定?张亚中通告全岛,两岸是一家人

文史风云
2025-09-19 23:52:12
中国为何拒售歼-10C?专家:无体系支撑就是活靶子

中国为何拒售歼-10C?专家:无体系支撑就是活靶子

沧海旅行家
2025-09-19 21:00:54
反向圈粉!张雨绮真的不尴尬吗?直播卖内裤引热议,是她穿过的内裤?

反向圈粉!张雨绮真的不尴尬吗?直播卖内裤引热议,是她穿过的内裤?

瞎说娱乐
2025-09-16 16:04:18
翟欣欣苏享茂离婚协议现场曝光?签字后他长舒一口气,满脸的无奈

翟欣欣苏享茂离婚协议现场曝光?签字后他长舒一口气,满脸的无奈

谈史论天地
2025-09-19 17:15:09
辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

军武次位面
2025-09-16 17:42:56
北大“韦神”换新发型,照片曝光后,网友:不想有这种儿子!

北大“韦神”换新发型,照片曝光后,网友:不想有这种儿子!

观察鉴娱
2025-09-19 09:14:54
惊险!重庆街头数个钢卷横冲直撞致多车受损,官方:未伤到人,交警已处置

惊险!重庆街头数个钢卷横冲直撞致多车受损,官方:未伤到人,交警已处置

极目新闻
2025-09-19 19:48:57
嘎子哥谢孟伟抖音账号被封禁

嘎子哥谢孟伟抖音账号被封禁

三言科技
2025-09-19 07:51:03
“上海家长真该感谢罗永浩”,网友:才知道上海学生,吃的这么差

“上海家长真该感谢罗永浩”,网友:才知道上海学生,吃的这么差

妍妍教育日记
2025-09-18 19:10:25
云海肴80后创始人赵晗因心梗去世!曾说“要给云南争光”

云海肴80后创始人赵晗因心梗去世!曾说“要给云南争光”

南方都市报
2025-09-19 14:12:05
吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

大洛杉矶LA
2025-09-19 06:28:48
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
新疆维吾尔自治区宣传部长王建新答中青报:新疆最好的建筑是学校,最美的风景在校园

新疆维吾尔自治区宣传部长王建新答中青报:新疆最好的建筑是学校,最美的风景在校园

中国青年报
2025-09-19 21:45:20
注意!不止留学生,本地学生嘲笑柯克之死也被处分,得州州长亲自点名“立即开除”

注意!不止留学生,本地学生嘲笑柯克之死也被处分,得州州长亲自点名“立即开除”

留学生日报
2025-09-19 15:28:23
学者论文发布“收缩型城市名单”,多地辟谣,作者回应

学者论文发布“收缩型城市名单”,多地辟谣,作者回应

观察者网
2025-09-19 16:30:15
宋伊人合租室友被扒,本人连夜删除上万条评论,疑已出国!

宋伊人合租室友被扒,本人连夜删除上万条评论,疑已出国!

古希腊掌管月桂的神
2025-09-17 09:23:42
2025-09-20 01:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10492文章数 116856关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

时尚
艺术
手机
本地
教育

卡其裤+蓝衬衫,简单高级

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

小米 17 Pro 系列手机用上 L 型电池,背屏斥资 10 个亿打造

本地新闻

大学生军训哪家强,广西申请“出战”!

教育要闻

外国新闻史重点背诵清单。

无障碍浏览 进入关怀版