网易首页 > 网易号 > 正文 申请入驻

告别机械音!小米新模型懂情绪会停顿,仿佛真人在你耳边讲故事。

0
分享至

智东西4月24日报道,今天,小米MiMo-V2.5家族语音模型系列正式发布:MiMo-V2.5-TTS Series、MiMo-V2.5-ASR,前者可免费体验,后者发布即开源。其中TTS Series包括语音、语音设计、语音克隆模型三款。



就在昨天,小米MiMo官宣MiMo-V2.5中旗舰推理模型MiMo-V2.5、全模态Agent模型V2.5-Pro开启公测、即将开源,再加上今天的4款语音模型,该系列共计6款模型。

MiMo-V2.5-TTS Series包含三款模型:语音模型MiMo-V2.5-TTS、语音设计模型MiMo-V2.5-TTS-VoiceDesign、语音克隆模型MiMo-V2.5-TTS-VoiceClone,MiMo-V2.5-ASR是这些语音模型的听觉基座,发布即开源。

其放出了一条经这一套链路生成的音频:

不过音频中,有出现主人公边说边自己旁白的情况,且爷爷的声音特点并没有在整个说话环节都保持一致,中间会突然背离需求的“嗓门哑、拖长音”,语气突然变快等。

小米MiMo大模型负责人是原DeepSeek核心成员、被业内称为“天才少女”的罗福莉,今天凌晨,她在社交平台转发了大语言模型智能体端到端透明基准测试框架Claw-Eval、香港应用科技大学博士生Lei Li的帖子,其帖子提到,MiMo V2.5 Pro目前在Claw-Eval排名第3,MiMo V2.5排5,接下来是DeepSeek V4吗?





语音模型均可以在MiMo-Studio免费体验,面向开发者,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone均在Xiaomi MiMo API开放平台限时免费提供。

在开源方面,MiMo-V2.5-ASR目前已开源模型权重和代码,MiMo-V2.5-TTS相关模型的接入Skill全面开源。

MiMo-V2.5-TTS Series包含三款模型,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone。

不同之处在于针对的创作需求:

MiMo-V2.5-TTS内置多款音色,支持语速、情绪、语气等精细化控制,开箱即用,能满足多场景表达;MiMo-V2.5-TTS-VoiceDesign支持一句话快速定义并生成全新音色;MiMo-V2.5-TTS-VoiceClone能通过少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。



小米官方总结了这一模型的八大特点:

Code-Switch:中英Code-Switch语音转录自由流畅,无需预设语种标签;

强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别;

多说话人:支持多人交叉对话场景的准确转录,如会议场景;

强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别;

原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理。

其提到,对于智能体应用、内容创作工具、会议系统、语音交互产品而言,MiMo-V2.5-ASR已经在复杂真实世界语音中经过验证。

智东西实际体验了MiMo-V2.5-TTS系列几款模型的效果。

首先是MiMo-V2.5-TTS,根据官方信息,该模型从情绪、语气、语速、发声方式到语言风格等多个维度,都能理解并遵循,其还可以支持导演剧本级的结构化输入:把人物、场景、详细指导分层描述,各层按自己的节奏独立更新、自由组合。

智东西选择了知性女声,上传的指令是“声音轻柔舒缓,语速很慢,带着安抚人心的温度,说话时像在给客人递一杯热咖啡,语气温柔又有耐心,像开了几十年书店的老板娘。”

生成的音频中,老板娘说话整体语速偏慢、换气舒缓,没有急促感,字句之间留白自然,整体符合语言生成的需求。

(洪亮,开场)话说那江湖之上,有位少年侠客,仗剑走天涯。

(压低声音,神秘)可谁也不知道,他腰间那把剑,藏着一段血海深仇。

(拔高声调,激昂)今日,他终于要回来了!

整体来看,音频中的三句话都符合前面的音频标签特征,但每一句之间的衔接仍有优化的空间,会出现声音突然从高变低,又突然拔高的情况。

官方提示词为“Ten… nine… eight… seven… six… five… four… three… TWO… ONE… ZERO! LAUNCH! LAUNCH! WE HAVE LIFTOFF! GO GO GO! SHE’S CLIMBING! ALTITUDE 1,000… 5,000… 10,000 FEET AND CLIMBING! BEAUTIFUL! AB-SO-LUTE-LY BEAUTIFUL!”

另外两个是音色设计和克隆模型。

音色设计模型MiMo-V2.5-TTS-VoiceDesign无需任何参考音频,支持用户通过自然语言描述从零生成一款全新音色。其可以自由使用年龄、性别、口音、音质、发声方式、性格气质等维度进行描述,模型即可合成对应的角色音色。

智东西上传的提示词是“一位20多岁的女性,说南方软语,声线慵懒松弛,带一点点刚睡醒的鼻音,她是深夜电台主播念稿时尾音轻放,读听众留言时会放柔语气。”

生成的音频确实声线慵懒,听起来是一位年轻女气,但说话时仍然是普通话,没有南方软语的特征。其声音为了刻意保持慵懒松弛,会在尾音时可以压低声音,会减弱松弛感。

此外,小米官方给出了一段示例,其提示次是“一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感,仿佛一位饱经风霜的老爷爷在讲故事,充满岁月的智慧”。

音色克隆模型MiMo-V2.5-TTS-VoiceClone,用户可以让其复刻一位真人播客、配音演员、品牌代言人,或者用户本人的声音。

其只需提供一段数秒的参考音频,无需额外的训练、标注或微调过程,复刻后的声音可以保留原始说话人的音色身份,以及气息、节奏、习惯性停顿等个人特征。

小米放出的官方案例,用严肃、字正腔圆的新闻播报声线,复刻了《康熙微服私访记》中的一段经典台词,极具反差感。

其新音色的提示词为“用尖锐刻薄的嗓音,带着狐假虎威的得意感说话,在提到大人物的身份时故意放慢语速并加重语气,营造压迫感。”

音频中,音色与新闻播报的声线保持一致,在说“万岁爷”、“开不了门”等重点内容时,还可以拉长声线、加重语气。

小米公布了其下一步研发方向:

1、更大规模的语音预训练与强化学习后训练:MiMo-V2.5-TTS-Series 证明了大规模预训练与后训练的巨大收益,扩大这两者的规模:通过更多的数据、更大的模型、更强的算力,让更强大的语音智能从规模中涌现;更加精细的奖励建模与强化学习算法,推动模型迈向更高阶的语音表达智能。

2、通用音频生成:语音只是第一步,他们正在将能力扩展到更广义的音频生成:环境音效、动作声、氛围铺底,乃至短乐句与旋律片段,逐步建模出一个完整的声音世界。他们认为真正的通用音频模型,不是把语音、音效、音乐简单拼在一起,而是让它们在同一套空间里彼此理解、协同创作。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吃相难看!四大核心主播刚走,东方甄选宣布分股俞敏洪成最大赢家

吃相难看!四大核心主播刚走,东方甄选宣布分股俞敏洪成最大赢家

林轻吟
2026-04-29 16:49:52
欧冠-马竞0-1阿森纳:巴黎、拜仁对攻,马竞、阿森纳死守?|前瞻

欧冠-马竞0-1阿森纳:巴黎、拜仁对攻,马竞、阿森纳死守?|前瞻

体育世界
2026-04-29 20:14:28
96岁奶奶摆摊10年还清2077万,但凡稍微“体面”一点,都说不口

96岁奶奶摆摊10年还清2077万,但凡稍微“体面”一点,都说不口

走读新生
2026-04-29 10:48:15
华为 FreeBuds Pro 5 众测试听挑战!到底什么才是好音质?

华为 FreeBuds Pro 5 众测试听挑战!到底什么才是好音质?

极果酷玩
2026-04-28 15:21:42
特朗普犯下致命错误!伊朗军方喊话中俄等国:愿分享“打美经验”

特朗普犯下致命错误!伊朗军方喊话中俄等国:愿分享“打美经验”

混沌录
2026-04-29 20:07:04
“赌王”最小女儿何超欣,今天冲上热搜

“赌王”最小女儿何超欣,今天冲上热搜

南方都市报
2026-04-29 13:13:41
杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

橙星文娱
2026-04-29 10:30:58
马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

马頔一句玩笑话,孙杨妈妈怒骂节目组2小时,全网围观"妈宝男"

乌娱子酱
2026-04-29 13:30:44
储户1800万元存款被银行员工转走,涉事银行称需“等司法结论”,律师:银行应承担第一顺位赔付责任

储户1800万元存款被银行员工转走,涉事银行称需“等司法结论”,律师:银行应承担第一顺位赔付责任

极目新闻
2026-04-29 19:34:48
世锦赛战报:墨菲被罚了28分,仍完成黑球绝杀,4分险胜赵心童

世锦赛战报:墨菲被罚了28分,仍完成黑球绝杀,4分险胜赵心童

吴朑爱游泳
2026-04-29 02:22:54
上海一男子以“包养”之名与4名女子发生关系,反骗万余元;法院判了

上海一男子以“包养”之名与4名女子发生关系,反骗万余元;法院判了

大风新闻
2026-04-29 16:35:02
华为有界,博世无界

华为有界,博世无界

汽车商业评论
2026-04-29 14:15:37
杨瀚森工作室:NBA菜鸟赛季结束,练级之旅还在继续

杨瀚森工作室:NBA菜鸟赛季结束,练级之旅还在继续

懂球帝
2026-04-29 17:54:17
“我已经跑路了,你们去报案吧”男子诈骗熟人350 余万元后朋友圈宣告跑路,上海警方跨省将其抓获归案!

“我已经跑路了,你们去报案吧”男子诈骗熟人350 余万元后朋友圈宣告跑路,上海警方跨省将其抓获归案!

新民晚报
2026-04-29 08:35:49
云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

大爱三湘
2026-04-28 19:39:12
竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

极目新闻
2026-04-29 12:45:06
刚刚,直线拉升!美伊谈判,大消息!

刚刚,直线拉升!美伊谈判,大消息!

中国基金报
2026-04-29 18:48:19
麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

民间胡扯老哥
2026-04-29 14:05:38
辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

澳洲红领巾
2026-04-29 14:44:16
不可错过!4月29日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!4月29日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-04-29 16:58:04
2026-04-29 21:12:49
纵拥千千晚星
纵拥千千晚星
纵拥千千晚星
737文章数 99关注度
往期回顾 全部

数码要闻

追觅推出空气炸锅F20:6L容量、1700W上下双热源,299元

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
艺术
健康
数码
军事航空

教育要闻

有趣的循环问题,你会吗?

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

干细胞治烧烫伤能用了么?

数码要闻

追觅智能家电首秀硅谷!从空调到洗衣机,中国智造硬刚全球巨头

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版