网易首页 > 网易号 > 正文 申请入驻

Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini

0
分享至

智东西7月16日消息,今日,谷歌和Meta前研究人员创立的AI初创公司Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列

该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口

Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3

Voxtral模型继承了Mistral Small 3.1基座模型的文本理解能力,除了基础的语音转文字功能外,还可以直接对音频内容进行问答交互,生成结构化摘要,并通过语音指令触发API调用。

在公告中,Mistral还给出了几个实例展现其语音生成能力,包括:

法国男人说法语:

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法国男人说英语:

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

还可以加背景音,例如在喧闹的大街上对话:

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就连印地语混杂英语都能生成:

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型应用场景中,Voxtral Mini转录版的性能优于OpenAI Whisper,而使用成本仅为后者的50%以下。在高阶应用场景中,Voxtral Small在保持与ElevenLabs Scribe相当性能水平的同时,使用成本同样控制在后者50%以下

开发者可以在Le Chat上试用,通过Hugging Face平台获取模型进行本地部署,也可以使用云端API服务。

针对企业级应用,该模型支持私有化部署方案,可进行特定领域的微调适配,并提供高级上下文处理功能以及专属集成支持。

未来两周内Voxtral模型将在网页和移动端的语音模式中向所有用户推出。

一、转录能力全面碾压Whisper,3项测试超越GPT-4o mini

在转录能力上,Voxtral通过多个英语及多语种基准测试进行验证,每个任务的评测结果均采用跨语言宏平均词错率呈现,即数值越低越好。针对英语任务,还分别统计了短音频(<30秒)和长音频(>30秒)的平均表现。

结果显示,Voxtral在各项指标上全面超越当前领先的开源语音转录模型Whisper large-v3。在英语短音频,以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上,Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe,在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe

在多语言基准测试FLEURS的评估中,Voxtral Small模型在所有任务上都超越了Whisper large-V3,并在法语和德语中占据榜单首位。

二、语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

为了更好地测试Voxtral Small和Mini版本的语音理解能力,Mistral的研究团队将三项标准文本理解任务转换为语音输入形式,并构建了包含40个长音频样本的内部音频理解基准(AU Benchmark),要求模型完成复杂问答任务。此外,还基于FLEURS-Translation基准测试了Voxtral的语音翻译性能。

测试结果显示,Voxtral Small在所有任务中与GPT-4o-mini及Gemini 2.5 Flash表现相当,并在语音翻译任务FLEURS Translation中,超越GPT-4o-mini及Gemini 2.5 Flash,位列第一

在文本方面,Voxtral保留了其基座语言模型的文本处理能力,在各项文本测试中与Mistral Small 3.1成绩相当,官方称可直接替代Ministral和Mistral Small 3.1模型使用

结语:Voxtral表现超越开源项目,但难敌商业模型

Mistral AI发布的Voxtral语音模型系列为开源语音AI领域带来了新的技术选择。

从测试结果上看,该模型在转录准确率上超越了同为开源的Whisper,但其与商业模型GPT-4o-mini及Gemini 2.5 Flash还是有着一定的差距,Scribe依旧是语音模型中的“老大”。

Mistral AI在公告中还特别提到,未来几个月,Voxtral模型的音频处理能力还会持续增强,并且将新增说话人分割、音频标记(如年龄和情绪)、词级时间戳、非语音音频识别等功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
2026-03-26 23:47:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
旅游
亲子
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

亲子要闻

看看把孩子吓得哈哈哈

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版