网易首页 > 网易号 > 正文 申请入驻

阿里千问开源Qwen3-ASR语音识别模型,支持52种语种与方言

0
分享至

IT之家 1 月 29 日消息,阿里千问团队今日正式开源 Qwen3-ASR 系列模型,该模型是由 Qwen 开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。

据官方介绍,依托创新的预训练 AuT 语音编码器与 Qwen3-Omni 基座模型的强大多模态能力,Qwen3-ASR 实现了精准与稳定的语音识别,其 1.7B 模型在中文、英文、中文口音与歌唱识别等场景下达到 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;0.6B 模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,即 10 秒钟处理五个小时以上的音频。

强制对齐模型 Qwen3-ForcedAligner-0.6B 是基于 NAR LLM 推理的时间戳预测模型,支持 11 个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的 WhisperX,Nemo-Forced-Aligner 等模型,单并发推理 RTF 达到了高效的 0.0089。

阿里千问团队称,希望 Qwen3-ASR 系列模型的开源能够推动语音识别与理解的研究与发展,三个模型的结构与权重、以及一个全面易用的推理框架将一并开源。


模型列表:


IT之家附官方介绍如下:

Qwen3-ASR 核心特性 All-in-one: Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均通过单一模型支持 30 个语种的语种识别与语音识别、22 个中文口音与方言语音识别、多个国家与地区的英文口音识别。 准确而快速的语音识别能力:在复杂的声学环境与文本模式的场景下,Qwen3-ASR 系列模型均能保持稳定鲁棒的语音识别能力,包括歌唱识别等。Qwen3-ASR-1.7B 实现了语音识别准确率的全面领先,在开源与闭源自建评测上较主流开源模型与众多商用 API 上更优。0.6B 模型则实现了性能与效率的均衡,在异步推理模式下,128 并发的该模型能够达到 2000 倍的吞吐,处理 5 个小时的音频仅需要 10 秒。Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均支持流式 / 非流式一体化推理,最长一次性处理 20 分钟的音频。 独创且强大的强制对齐模型:我们推出 Qwen3-ForcedAligner-0.6B,一个支持 11 个语种在 5 分钟之内语音的任意单元的时间戳预测,经评测其时间戳精度超越了一众基于传统端到端方案的强制对齐模型,其非自回归的推理逻辑保证了推理的高效性。 全面且易用的推理与微调工具:除了 Qwen3-ASR 系列模型的结构与权重开源,我们一次性推出强大且全面的推理框架,支持基于 vLLM 的 batch 推理、异步服务、流式推理、时间戳预测功能等。 ASR 模型效果 我们对 Qwen3-ASR 系列模型在中文 / 英文、多语种、中文方言、歌声识别,以及复杂声学与复杂语言场景下进行了系统评估。结果显示,Qwen3-ASR-1.7B 在多个维度的公开与内部基准上取得开源 SOTA;同时对比多家商业公司最新的 ASR API,在若干基准上也取得最佳成绩。具体来说: 英文:不仅在常见公开基准上达到最优,我们还在内部构建的覆盖 16 个国家口音的英文测试集上进行评测,整体表现全面优于 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列,以及综合能力最强的开源模型 Whisper-large-v3。 多语种:最高支持 30 种语言;在 20 个主流语种上,Qwen3-ASR-1.7B 全面超过现有开源模型,取得最佳平均 WER。 中文与方言:在普通话、粤语及 22 种地区方言上,Qwen3-ASR-1.7B 整体领先商业 API 与开源模型;尤其在方言上,相比 Doubao-ASR 平均错误率再降 20%(15.94 vs 19.85)。 复杂声学 / 语言场景:面对老人 / 儿童语音、极低信噪比、鬼畜重复等挑战场景,仍能稳定输出,保持极低的字 / 词错误率。 歌唱识别:支持带 BGM 的整首歌中 / 英文转写;中文 / 英文分别达到 13.91% / 14.60% 平均 WER。 Qwen3-ASR-0.6B 在性能与效率之间实现了良好平衡:不仅在多项中英文测试基准上表现稳健,而且无论离线还是在线推理,在高并发场景下都能保持极低 RTF 与极高吞吐。例如:单并发下 100 倍加速比;异步服务 128 并发下 2000 倍加速比,10 秒钟处理五个小时音频。 强制对齐模型效果 强制对齐模型 Qwen3-ForcedAligner-0.6B 支持 11 种语言的高精度强制对齐,可在音频中任意位置进行灵活、精准的时间戳标注。与常用主流对齐工具相比,我们在可支持语种覆盖与时间戳预测精度上均取得更优表现,整体超过 WhisperX、NeMo-ForcedAligner(NFA)等方案。

Qwen3-ASR

Github:

HuggingFace:

ModelScope:

Huggingface Demo:

ModelScope Demo:

论文:

阿里云百炼 API:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘满仓,被判无期

刘满仓,被判无期

新京报
2026-06-30 17:10:27
马斯克的“银行”:X Money美国上线,年化收益6%、消费返现3%

马斯克的“银行”:X Money美国上线,年化收益6%、消费返现3%

IT之家
2026-07-01 09:50:25
不要用国家安全的虚假信息吓唬老百姓了

不要用国家安全的虚假信息吓唬老百姓了

黔有虎
2026-06-30 21:27:56
美联储,重磅来袭!科技股,盘前大跌

美联储,重磅来袭!科技股,盘前大跌

证券时报
2026-07-01 18:33:09
赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

木子爱娱乐大号
2026-06-29 17:26:11
印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

A活着
2026-07-01 17:03:00
樊振东正式加盟德甲杜塞尔多夫俱乐部,首组红色战袍定妆照发布

樊振东正式加盟德甲杜塞尔多夫俱乐部,首组红色战袍定妆照发布

极目新闻
2026-07-01 20:02:22
女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

潇湘晨报
2026-07-01 17:21:20
妻子因丈夫同性恋取向,授意丈夫组织他人同自己发生性关系|聚众淫乱案判决书(全文)

妻子因丈夫同性恋取向,授意丈夫组织他人同自己发生性关系|聚众淫乱案判决书(全文)

微法官
2026-07-01 14:05:06
克罗斯:德国队目前没有任何一名世界级球员

克罗斯:德国队目前没有任何一名世界级球员

懂球帝
2026-07-01 18:05:24
基尼奥内斯1球1助,墨西哥2-0完胜南美劲旅,强势晋级世界杯16强

基尼奥内斯1球1助,墨西哥2-0完胜南美劲旅,强势晋级世界杯16强

侧身凌空斩
2026-07-01 12:01:39
再炸“杜布纳”!俄国防部大楼失去防空保护,普京瓦尔代官邸被拆

再炸“杜布纳”!俄国防部大楼失去防空保护,普京瓦尔代官邸被拆

鹰眼Defence
2026-07-01 16:24:17
王朔:我的财产要留给徐静蕾,在离婚后,只有她愿意给我房子住

王朔:我的财产要留给徐静蕾,在离婚后,只有她愿意给我房子住

胡一舸南游y
2026-07-01 17:46:24
桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

蓝鲸新闻
2026-07-01 09:45:46
义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

极目新闻
2026-07-01 18:30:15
王钰栋推掉门兴的5000欧为哪般?

王钰栋推掉门兴的5000欧为哪般?

体育全天候
2026-07-01 17:02:41
当伊朗革命卫队走进历史:第二个沙特诞生

当伊朗革命卫队走进历史:第二个沙特诞生

民间胡扯老哥
2026-07-01 07:32:21
关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

叶初七
2026-07-01 11:47:29
为哈梅内伊复仇仍是首要任务?伊朗专家会议中63名成员呼吁暗杀特朗普和内塔尼亚胡

为哈梅内伊复仇仍是首要任务?伊朗专家会议中63名成员呼吁暗杀特朗普和内塔尼亚胡

红星新闻
2026-07-01 17:22:11
高速上一特斯拉撞护栏起火,有人拍到一路过的理想车主拼命把特斯拉女司机救了出来,理想官方:我们也赞赏推崇这种善举

高速上一特斯拉撞护栏起火,有人拍到一路过的理想车主拼命把特斯拉女司机救了出来,理想官方:我们也赞赏推崇这种善举

都市快报橙柿互动
2026-07-01 17:38:55
2026-07-01 22:43:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
352658文章数 607326关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

前往日本周边海域的中国军舰 在日本防卫省网站"刷屏"

头条要闻

前往日本周边海域的中国军舰 在日本防卫省网站"刷屏"

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

张凌赫:我连心疼你都隔着时差

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

上半年累计销量突破142万辆 吉利6月销量出炉

态度原创

本地
健康
房产
数码
公开课

本地新闻

强烈建议,全国高校都向这所大学看齐!

年糕汤圆别油炸,水煮清蒸更健康

房产要闻

洞察新局 | 2026年天河置业红盘图鉴

数码要闻

GPD预告9.06" PC掌机WIN MAX 3,Max+ 395 / 388处理器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版