网易首页 > 网易号 > 正文 申请入驻

阿里千问开源Qwen3-ASR语音识别模型,支持52种语种与方言

0
分享至

IT之家 1 月 29 日消息,阿里千问团队今日正式开源 Qwen3-ASR 系列模型,该模型是由 Qwen 开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。

据官方介绍,依托创新的预训练 AuT 语音编码器与 Qwen3-Omni 基座模型的强大多模态能力,Qwen3-ASR 实现了精准与稳定的语音识别,其 1.7B 模型在中文、英文、中文口音与歌唱识别等场景下达到 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;0.6B 模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,即 10 秒钟处理五个小时以上的音频。

强制对齐模型 Qwen3-ForcedAligner-0.6B 是基于 NAR LLM 推理的时间戳预测模型,支持 11 个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的 WhisperX,Nemo-Forced-Aligner 等模型,单并发推理 RTF 达到了高效的 0.0089。

阿里千问团队称,希望 Qwen3-ASR 系列模型的开源能够推动语音识别与理解的研究与发展,三个模型的结构与权重、以及一个全面易用的推理框架将一并开源。


模型列表:


IT之家附官方介绍如下:

Qwen3-ASR 核心特性 All-in-one: Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均通过单一模型支持 30 个语种的语种识别与语音识别、22 个中文口音与方言语音识别、多个国家与地区的英文口音识别。 准确而快速的语音识别能力:在复杂的声学环境与文本模式的场景下,Qwen3-ASR 系列模型均能保持稳定鲁棒的语音识别能力,包括歌唱识别等。Qwen3-ASR-1.7B 实现了语音识别准确率的全面领先,在开源与闭源自建评测上较主流开源模型与众多商用 API 上更优。0.6B 模型则实现了性能与效率的均衡,在异步推理模式下,128 并发的该模型能够达到 2000 倍的吞吐,处理 5 个小时的音频仅需要 10 秒。Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均支持流式 / 非流式一体化推理,最长一次性处理 20 分钟的音频。 独创且强大的强制对齐模型:我们推出 Qwen3-ForcedAligner-0.6B,一个支持 11 个语种在 5 分钟之内语音的任意单元的时间戳预测,经评测其时间戳精度超越了一众基于传统端到端方案的强制对齐模型,其非自回归的推理逻辑保证了推理的高效性。 全面且易用的推理与微调工具:除了 Qwen3-ASR 系列模型的结构与权重开源,我们一次性推出强大且全面的推理框架,支持基于 vLLM 的 batch 推理、异步服务、流式推理、时间戳预测功能等。 ASR 模型效果 我们对 Qwen3-ASR 系列模型在中文 / 英文、多语种、中文方言、歌声识别,以及复杂声学与复杂语言场景下进行了系统评估。结果显示,Qwen3-ASR-1.7B 在多个维度的公开与内部基准上取得开源 SOTA;同时对比多家商业公司最新的 ASR API,在若干基准上也取得最佳成绩。具体来说: 英文:不仅在常见公开基准上达到最优,我们还在内部构建的覆盖 16 个国家口音的英文测试集上进行评测,整体表现全面优于 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列,以及综合能力最强的开源模型 Whisper-large-v3。 多语种:最高支持 30 种语言;在 20 个主流语种上,Qwen3-ASR-1.7B 全面超过现有开源模型,取得最佳平均 WER。 中文与方言:在普通话、粤语及 22 种地区方言上,Qwen3-ASR-1.7B 整体领先商业 API 与开源模型;尤其在方言上,相比 Doubao-ASR 平均错误率再降 20%(15.94 vs 19.85)。 复杂声学 / 语言场景:面对老人 / 儿童语音、极低信噪比、鬼畜重复等挑战场景,仍能稳定输出,保持极低的字 / 词错误率。 歌唱识别:支持带 BGM 的整首歌中 / 英文转写;中文 / 英文分别达到 13.91% / 14.60% 平均 WER。 Qwen3-ASR-0.6B 在性能与效率之间实现了良好平衡:不仅在多项中英文测试基准上表现稳健,而且无论离线还是在线推理,在高并发场景下都能保持极低 RTF 与极高吞吐。例如:单并发下 100 倍加速比;异步服务 128 并发下 2000 倍加速比,10 秒钟处理五个小时音频。 强制对齐模型效果 强制对齐模型 Qwen3-ForcedAligner-0.6B 支持 11 种语言的高精度强制对齐,可在音频中任意位置进行灵活、精准的时间戳标注。与常用主流对齐工具相比,我们在可支持语种覆盖与时间戳预测精度上均取得更优表现,整体超过 WhisperX、NeMo-ForcedAligner(NFA)等方案。

Qwen3-ASR

Github:

HuggingFace:

ModelScope:

Huggingface Demo:

ModelScope Demo:

论文:

阿里云百炼 API:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

福建睿平
2026-04-13 10:58:58
文亚班马官方第一球员第六,到底谁更懂篮球?

文亚班马官方第一球员第六,到底谁更懂篮球?

茅塞盾开本尊
2026-04-14 14:08:59
川崎工程师吐真言:整个日本摩托圈,看见张雪俩字,心就咯噔一下

川崎工程师吐真言:整个日本摩托圈,看见张雪俩字,心就咯噔一下

阿芒娱乐说
2026-04-14 13:17:29
4年2.12亿打水漂乔治坑完快船又诈76人,5167万年薪只配拿17分?

4年2.12亿打水漂乔治坑完快船又诈76人,5167万年薪只配拿17分?

体坛大风云
2026-04-14 14:31:52
台湾到底何时统一?原来李敖早就预言了,说得很精准

台湾到底何时统一?原来李敖早就预言了,说得很精准

顾史
2026-03-03 15:23:07
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

灿若银烂
2026-02-27 20:11:39
解放军这40天,要把美日韩逼疯!

解放军这40天,要把美日韩逼疯!

Ck的蜜糖
2026-04-13 07:27:43
全红婵被282人群嘲,矛头直指练俊杰父亲!冠军师兄评论区沦陷

全红婵被282人群嘲,矛头直指练俊杰父亲!冠军师兄评论区沦陷

情感大头说说
2026-04-14 12:21:28
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
危急!伦敦赛国乒阵容藏隐患,5大主力4人带伤,38岁马龙临危受命

危急!伦敦赛国乒阵容藏隐患,5大主力4人带伤,38岁马龙临危受命

罗纳尔说个球
2026-04-13 21:01:37
没想到吧?那辆“陪葬”的奔驰S级,后续比电视剧还离谱!

没想到吧?那辆“陪葬”的奔驰S级,后续比电视剧还离谱!

小娱乐悠悠
2026-04-13 09:51:49
演员文章在上海开陕西面馆:油泼面32元,肉夹馍18元,有食客称价格亲民,“32元放在上海真的不贵”;门口排队超过30米,有人排了4小时

演员文章在上海开陕西面馆:油泼面32元,肉夹馍18元,有食客称价格亲民,“32元放在上海真的不贵”;门口排队超过30米,有人排了4小时

扬子晚报
2026-04-14 14:45:40
S妈送别大S一年「再痛失至亲」 亲哥女儿曝遗愿:所以你才幽默离场吗

S妈送别大S一年「再痛失至亲」 亲哥女儿曝遗愿:所以你才幽默离场吗

ETtoday星光云
2026-04-14 10:36:13
“你真美,是不是嫌我老?”:手机被没收后,女子用手表录16分钟

“你真美,是不是嫌我老?”:手机被没收后,女子用手表录16分钟

江山挥笔
2026-04-14 10:48:18
甜馨亲手制作蛋糕陪42岁贾乃亮庆生,贾乃亮发文“谢谢我的大宝贝,最幸福的事就是有你在身边”;网友感慨父女俩基因强大:简直一模一样

甜馨亲手制作蛋糕陪42岁贾乃亮庆生,贾乃亮发文“谢谢我的大宝贝,最幸福的事就是有你在身边”;网友感慨父女俩基因强大:简直一模一样

鲁中晨报
2026-04-14 14:48:10
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
挪威重磅站队!正式向世界宣布:必须在全球范围内强烈孤立以色列

挪威重磅站队!正式向世界宣布:必须在全球范围内强烈孤立以色列

嫹笔牂牂
2026-04-14 09:49:56
惨烈英超?第6距第14仅6分!欧冠资格最新形势 曼联领先切尔西7分

惨烈英超?第6距第14仅6分!欧冠资格最新形势 曼联领先切尔西7分

我爱英超
2026-04-14 07:26:06
辟谣!整整40天:解放军突然“封锁”关键海域,大动作真要来了?

辟谣!整整40天:解放军突然“封锁”关键海域,大动作真要来了?

军武次位面
2026-04-13 14:29:20
张本智和:我放心让实力变强的松岛当主力,世乒赛和中国队五五开

张本智和:我放心让实力变强的松岛当主力,世乒赛和中国队五五开

懂球帝
2026-04-14 13:46:04
2026-04-14 15:20:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
338947文章数 607129关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

手机
本地
时尚
艺术
房产

手机要闻

安卓最强Pro!小米18 Pro首发高通骁龙8E6系列:电池突破7000mAh

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

今年科切拉的风吹向了谁?

艺术要闻

这位美女画家的夏天竟如此梦幻

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

无障碍浏览 进入关怀版