网易首页 > 网易号 > 正文 申请入驻

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!

0
分享至

国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。

如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。

我们看到,其全新一代 TTS 语音大模型「Speech-02」在国际权威语音评测榜单 Artificial Analysis 上强势登顶,一举击败了 OpenAI、ElevenLabs 两大行业巨头!

其中,在字错率(WER,越低越好)和说话人相似度(SIM,越高越好)等关键语音克隆指标上均取得 SOTA 结果。

图源:Artificial Analysis Speech Arena Leaderboard

这项成绩直接震惊国外网友,他们纷纷表示:「MiniMax 将成为音频领域的破局者。」

知名博主 AK 也转推了这个新语音模型:

性能更强之外,Speech-02 还极具性价比,成本仅为 ElevenLabs 竞品模型(multilingual_v2)的 1/4。

Speech-02 的登顶,再次展现出了国产大模型超越国外顶级竞争对手的技术实力与底蕴。

那么,Speech-02 究竟有哪些魔力才取得了这样亮眼的成绩。随着本周技术报告的公布,我们对模型背后的技术展开了一番深挖。

屠榜背后 MiniMax 做了哪些技术创新?

当前,主流的文本转语音(TTS)模型在建模策略上主要分为两类,即自回归( AR)语言模型和非自回归(NAR)扩散模型,两者在建模难度、推理速度、合成质量等方面各有其优劣势。

其中,非自回归模型有点类似于批量生产,生成速度很快,就像一家快餐店出餐快但口味普通,生成的语音不够生动、逼真。

自回归模型可以生成韵律、语调和整体自然度等多个方面更好的语音。不过,这类模型在语音克隆过程中需要参考语音和转录文本作为提示词,就像高级餐厅味道好但需要顾客提供详细食谱才能复刻菜品一样。这种单样本(one-shot)学习范式往往导致生成质量不佳。

作为一个采用自回归 Transformer 架构的 TTS 模型,Speech-02 的强大源于两大技术上的创新:

一是实现了真正意义上的零样本(zero-shot)语音克隆。所谓零样本,就是给定一段参考语音,无需提供文本,模型很快就可以生成高度相似的目标语音。

二是全新的 Flow-VAE 架构,既增强了语音生成过程中的信息表征能力,又进一步提升了合成语音的整体质量和相似度。

零样本语音克隆

首先,Speech-02 引入了一个可学习的 speaker 编码器,该编码器会专门学习对合成语音最有用的声音特征,比如更关注说话人的独特发音习惯,而不是无关的背景噪音。

正是在此模式下,Speech-02 只需要听一段目标说话人的声音片段(几秒即可),就能模仿出这个人的音色、语调、节奏等特征,不会有机器人念稿的那种割裂感。而且整个过程是零样本的,不需要额外训练或调整。

这就为语音合成技术节省了大量宝贵时间,我们不难发现,传统方法需要大量数据,比如先录制 1 小时的声音。此外,数据的多样性也是一个问题,模型需要能够处理不同国家、年龄、性别等说话人信息。而 Speech-02 完全克服了这些挑战,直接听音学样,且一听就是你。

此外,MiniMax 还提出了可选增强功能,即单样本语音克隆。在此设置下,需要提供一个文本 - 音频配对样本作为上下文提示,从而指导语音合成。

Flow-VAE 架构

MiniMax 还提出了用于生成连续语音特征的关键组件,即基于 Flow-VAE 架构的流匹配模型。从而进一步提升了音频质量,使得生成的音频更加接近真人。

在 Speech-02 中,流匹配模型旨在模拟连续语音特征(潜在)的分布,这些特征是从音频训练的编码器 - 解码器模块架构中提取的,而不是梅尔频谱图。

通常来讲,传统的 VAE 假设其潜在空间服从简单的标准高斯分布,相比之下,Flow-VAE 引入了一个流模型,该模型可以灵活地使用一系列可逆映射来变换潜在空间,从而更准确地捕捉数据中的复杂模式。

更进一步,MiniMax 还搞了个双保险设计,即将全局音色信息和提示信息结合起来。具体而言,Speaker 编码器会从声音中提取全局音色特征 —— 就像提取一个人的「声音 DNA」。训练时,当前句子开头的信息会以一定的概率被用作提示。因此在推理阶段,模型支持零样本和单样本合成模式。

可以说,经过一系列操作,Speech-02 不仅可以模仿声音的「形」,还能复现声音的「神」。

正是基于这些强有力的技术支撑,才使得 Speech-02 一举超越 OpenAI、ElevenLabs 等竞品模型。

文生音色

现有的 TTS 方法生成所需音色的语音需要提供该特定音色的参考音频样本,这一要求可能会限制其操作灵活性。

相比之下,MiniMax引入了一个 T2V 框架,该框架独特地将开放式自然语言描述与结构化标签信息相结合。作为参考音频驱动的speaker编码器(擅长克隆现有语音)的补充,该方法促进了高度灵活且可控的音色生成,从而显著增强了 TTS 系统的多功能性。

这里,我们听个Demo,声音描述:说中文的女青年,音色偏甜美,语速比较快,说话时带着一种轻快的感觉整体音调较高,像是在直播带货,整体氛围比较活跃,声音清晰,听起来很有亲和力。

亲爱的宝宝们,等了好久的神仙面霜终于到货啦!你们看这个包装是不是超级精致?我自己已经用了一个月了,效果真的绝绝子!而且这次活动价真的太划算了,错过真的会后悔的哦~

多指标赶超竞品模型

试听链接:https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

语音克隆保真度、多语言与跨语言语音合成等多个关键维度的综合评估结果,有力验证了 Speech-02 的「含金量」。

首先来看语音克隆保真度指标,从下表可以看到,与 Seed-TTS、CosyVoice 2 和真实音频相比,Speech-02 在中英文的零样本语音克隆中均实现了更低的 WER,表明其发音错误率更低且更清晰稳定。

此外,零样本语音克隆的 WER 表现也显著优于单样本。并且根据听众的主观评价反馈,零样本克隆合成的语音听起来更自然、真实。

在多语言方面,Speech-02着重与ElevenLabs的multilingual_v2模型进行对比,两者均采用零样本克隆来生成语音。

在 WER 方面,Speech-02与multilingual_v2表现相当。在中文、粤语、泰语、越南语、日语等几种语言上,multilingual_v2的WER均超过了10%,而 Speech-02 的表现明显更优。这意味着,在捕捉并复现这些具有复杂声调系统或丰富音素库的语言时,multilingual_v2 处于绝对劣势。

在 SIM 方面,Speech-02 在所有 24 种测试语言中均显著优于 multilingual_v2,无论目标语言的音系特征如何,前者生成的克隆语音更接近真人原始声音。

在跨语言方面,下表多语言测试结果展示了零样本语音克隆下更低的 WER,证明 Speech-02 引入的 speaker 编码器架构的优越性,可以做到「一个语音音色」支持其他更多目标语言并且理解起来也较容易。

更多技术与实验的细节,大家可以参阅原技术报告。

技术报告地址:https://minimax-ai.github.io/tts_tech_report/

实战效果如何?

我们上手进行了一些实测,发现可以用三个关键词来总结 Speech-02 的亮点 —— 超拟人、个性化、多样性,在这些层面迎来脱胎换骨的升级。

第一,超拟人。

Speech-02 预置了极其丰富(数以百计)的多语言声音库,每一个都有其独特的音色和情感语调。

从合成音效来看,Speech-02 的相似度和表现力非常出色,情绪表达到位,音色、口音、停顿、韵律等也与真人无异。错误率上比真人更低,也更稳定。

我们用柔和低语的女声来朗诵莎士比亚《哈姆雷特》中的经典独白 ——To be, or not to be 片段,是不是很催眠呢?

试听链接:https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

第二,个性化。

核心是「声音参考」(Voice Clone)功能,只需提供一段示范音频或者直接对着模型说几句话,模型就可以学会这种声音,并用这个声音来演绎内容。目前该功能只在海外网页版上线,国内仅对 B 端用户开放。

从行业来看,其他头部语音模型只能提供少数几个精品音色的控制。而 Speech-02 通过声音参考功能可以灵活控制任意给定声音,提供了更多选择和更大自由度。

小编试着录制了一段自己的声音,十几秒后就得到了专属的 AI 克隆语音。

试听链接:https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

接着上传了苏轼的名篇《江城子・乙卯正月二十日夜记梦》,这是一首他写给已故妻子的悼亡词。由于 Speech-02 可以对音色进一步进行情绪控制,这里选择了悲伤「sad」,并调慢了语速。

除了悲伤之外,Speech-02 还有快乐、生气、恐惧、厌恶、惊讶、中立其他情绪可选。

最终的效果是这样的,节奏舒缓、情感也比较充沛:

试听链接:https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

总结一波,Speech-02 的「个性化」有以下三点关键影响:

  • 促成了业内首个实现「任意音色、灵活控制」的模型;
  • 让每一个音色都能有好的自然度和情感表现力;
  • 用户就是导演,音色就是演员。用户可以根据自己想要的效果用文字来指导演员表演。

第三,多样性。

Speech-02 支持 32 种语言,并尤为擅长中英、粤语、葡萄牙语、法语等语种。

下面来听一段融合了中文、英语和日语的长段落,读起来一气呵成:

昨天我去参加了一个国际会议,遇到了很多 interesting people from all around the world. 有一位日本代表和我分享了他们的新技术,他说「私たちの新しい技術は市場を変革するでしょう」,这确实令人印象深刻。之后我们去了附近的餐厅,服务员问我们 '¿Qué les gustaría ordenar para cenar?',我只好笑着用英语回答 'Sorry, I don't speak Spanish, but I'd love to try your signature dish'。
这种跨文化交流的体验 really makes you appreciate the diversity of our world,不是吗?下次我一定要多学习几句常用的外语 phrases,这样交流起来会更加 smooth and natural.

对于同一段音频,Speech-02 也可以轻松切换不同语言。我们将上面苏轼的《江城子》切换成了粤语:

试听链接:https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

随着高质量、多维度语音能力的极致释放,Speech-02 一跃成为了「全球首个真正实现多样化、个性化定义的语音模型」。

这将进一步推动语音 AI 走向千人千面的智能交互体验,为 MiniMax 在「AI 人格化」的技术与应用浪潮中抢占先机。

体验地址:https://www.minimax.io/audio/text-to-speech

技术领先只是第一步 能落地才能发挥价值

作为一家成立于 2021 年的大模型厂商,MiniMax 从创立之初即聚焦面向 C 端和 B 端的 AI 产品,强调「模型即产品」理念,其文本模型、语音模型与视频模型已经形成了一条完整的产品链,比如海螺 AI。

在语音大模型领域,MiniMax 在深耕底层技术的同时,持续探索语音助手、声聊唱聊、配音等不同场景的落地方案,推动智能语音内容创作向更高效、更个性化、更情感化演进;同时接入 MiniMax 语音大模型的 AI 硬件逐渐增多,并扩展到儿童玩具、教育学习机、汽车智能座舱、机器人等赛道,加速商业化进程。

MiniMax 正依托其语音大模型,联合行业上下游构建更丰富、更垂直的智能交互生态。过程中也向外界透露出这样一种迹象:语音大模型技术正迎来从技术成熟走向规模应用的关键拐点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

三农雷哥
2026-03-18 14:17:21
东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

懂球帝
2026-03-26 11:45:09
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

阿芒娱乐说
2026-03-26 13:16:54
32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

小南看车
2026-03-25 22:59:29
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
特朗普被曝希望“快速”结束对伊朗战争

特朗普被曝希望“快速”结束对伊朗战争

界面新闻
2026-03-26 12:37:58
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

王二哥老搞笑
2026-03-26 13:56:44
张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

纪中百大事
2026-03-26 09:44:20
石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

阅识
2026-03-26 11:25:47
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

小小科普员
2026-03-25 19:25:13
台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

照亮你的前行之路
2026-03-23 00:17:18
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
2026-03-26 15:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
旅游
数码
公开课

2026年了,最好看的还是“这件针织”!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版