网易首页 > 网易号 > 正文 申请入驻

阿里端出最强语音模型!英文rap精准转文字,准确率干翻全球

0
分享至

▲头图由AI生成

智东西
作者 程茜
编辑 心缘

智东西9月9日报道,昨天,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR

具体来看,该模型支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。

下面是官方放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表、这场游戏的背景等。因此识别结果中,即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。

https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav

ModelScope地址:

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

Hugging Face地址:

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API调用地址:

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

一、能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满

官方放出了5个演示示例,包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。

第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,其中还会有不同人物之间切换对话,Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别,没有受到噪声干扰。

https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav

第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多,识别结果中很多歌词中的单词连读、长难句识别准确,且没有受到背景音乐的干扰。

https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav

第三个是方言的识别。这一场景中,音频中主人公正在开车,有主人公的方言和智能语音客服的普通话穿插出现,音频中智能语音客服将“纠正”错误识别成了“96”,Qwen3-ASR-Flash进行了准确识别。

https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav

第四个是多语种句子切换,7秒的音频里有英语、日语等5种语言,识别结果都进行了一一呈现。

https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav

最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词,以及音频中人物的语气词识别并未出错。

https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav

二、歌词识别错误率低于8%,可定制语音识别结果

性能表现,Qwen3-ASR-Flash的自动语音识别错误率,在中文、英文、多语言自动语音识别、歌词、关键信息识别的错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

在歌词识别中,Qwen3-ASR-Flash支持清唱和带毕竟音乐的整首歌识别,研究人员实测识别错误率低于8%

该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下一种,简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。

基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

结语:后续将迭代通用语音识别精度

一直以来,复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控,阿里研究人员上线了背景文本上传功能,使得这一生成结果能更加符合用户的预期。

下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最坏情况发生,美军舰载机在沿海被击中,白宫意识到大国出手了!

最坏情况发生,美军舰载机在沿海被击中,白宫意识到大国出手了!

丁丁鲤史纪
2026-03-28 14:03:22
自战事爆发以来 伊朗平均每天卖油多赚2400万美元

自战事爆发以来 伊朗平均每天卖油多赚2400万美元

财联社
2026-03-27 13:43:09
长不大的巨婴?那不勒斯向卢卡库发出最后通牒 再不归队直接除名

长不大的巨婴?那不勒斯向卢卡库发出最后通牒 再不归队直接除名

雪狼侃体育
2026-03-28 14:05:08
太丢人!美军4000万雷达被炸废,连夜跑路留空城,竟不如俄军能扛

太丢人!美军4000万雷达被炸废,连夜跑路留空城,竟不如俄军能扛

丁丁鲤史纪
2026-03-28 12:40:42
这就是溥仪皇后婉容的真实样貌,非演员扮演,货真价实的罕见照片

这就是溥仪皇后婉容的真实样貌,非演员扮演,货真价实的罕见照片

兴趣知识
2026-03-27 15:01:40
周杰伦一首新歌,把全国文旅圈都带活了

周杰伦一首新歌,把全国文旅圈都带活了

阿废冷眼观察所
2026-03-27 17:48:08
台媒:蔡正元入狱服刑,全程微笑走上囚车

台媒:蔡正元入狱服刑,全程微笑走上囚车

环球网资讯
2026-03-27 14:29:12
三年亏22亿元高管年薪4亿元,贾佳亚旗下思谋工业智能体IPO闯关存疑

三年亏22亿元高管年薪4亿元,贾佳亚旗下思谋工业智能体IPO闯关存疑

华夏时报
2026-03-28 11:34:32
重磅!曼联正式谈判巴萨巨星,库尼亚迎来完美搭档

重磅!曼联正式谈判巴萨巨星,库尼亚迎来完美搭档

澜归序
2026-03-28 05:38:37
妈妈带两个孩子忙得“露”屁股是时尚?韩国网友怒骂:把我们当傻子!

妈妈带两个孩子忙得“露”屁股是时尚?韩国网友怒骂:把我们当傻子!

奋斗在韩国
2026-03-28 14:04:28
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
三湾改编保留骨干中竟潜藏3位高级叛徒,其中1人曾任总政治部主任

三湾改编保留骨干中竟潜藏3位高级叛徒,其中1人曾任总政治部主任

鉴史录
2026-03-27 21:31:59
“哈佛老师能穿成这样?”老人吹嘘一家高学历,被网友一眼识破

“哈佛老师能穿成这样?”老人吹嘘一家高学历,被网友一眼识破

妍妍教育日记
2026-03-12 23:21:52
豪门悲喜夜:英格兰1-1,荷兰2-1,德国4-3,西班牙3-0

豪门悲喜夜:英格兰1-1,荷兰2-1,德国4-3,西班牙3-0

侧身凌空斩
2026-03-28 05:58:26
老人闯红灯遭“三车连撞”全身多处骨折 家属发声

老人闯红灯遭“三车连撞”全身多处骨折 家属发声

闪电新闻
2026-03-27 15:17:19
千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

利刃号
2026-02-02 19:07:20
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
香港马拉松成“照妖镜”!阿Sa脸馒化成蔡明,林志玲最人意外

香港马拉松成“照妖镜”!阿Sa脸馒化成蔡明,林志玲最人意外

阿策聊实事
2026-03-28 04:52:46
心源性猝死的人越来越多?医生再次强调:宁可喝茶水,也别做5事

心源性猝死的人越来越多?医生再次强调:宁可喝茶水,也别做5事

任医生聊健康
2026-03-28 10:13:36
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
2026-03-28 14:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11460文章数 117018关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

艺术
健康
旅游
教育
公开课

艺术要闻

细腻优雅的花卉静物画 | Henrietta Smith

干细胞抗衰4大误区,90%的人都中招

旅游要闻

这场“春季村晚”,点亮“江南桃花源”

教育要闻

健康学校怎么建?今晚19点35分,《教育纵深》聚焦山东如何深入落实“健康第一”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版