网易首页 > 网易号 > 正文 申请入驻

阿里端出最强语音模型!英文rap精准转文字,准确率干翻全球

0
分享至


▲头图由AI生成

智东西
作者 程茜
编辑 心缘

智东西9月9日报道,昨天,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR

具体来看,该模型支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。

下面是官方放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表、这场游戏的背景等。因此识别结果中,即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。

https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav


ModelScope地址:

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

Hugging Face地址:

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API调用地址:

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

一、能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满

官方放出了5个演示示例,包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。

第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,其中还会有不同人物之间切换对话,Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别,没有受到噪声干扰。

https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav


第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多,识别结果中很多歌词中的单词连读、长难句识别准确,且没有受到背景音乐的干扰。

https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav


第三个是方言的识别。这一场景中,音频中主人公正在开车,有主人公的方言和智能语音客服的普通话穿插出现,音频中智能语音客服将“纠正”错误识别成了“96”,Qwen3-ASR-Flash进行了准确识别。

https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav


第四个是多语种句子切换,7秒的音频里有英语、日语等5种语言,识别结果都进行了一一呈现。

https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav


最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词,以及音频中人物的语气词识别并未出错。

https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav


二、歌词识别错误率低于8%,可定制语音识别结果

性能表现,Qwen3-ASR-Flash的自动语音识别错误率,在中文、英文、多语言自动语音识别、歌词、关键信息识别的错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

在歌词识别中,Qwen3-ASR-Flash支持清唱和带毕竟音乐的整首歌识别,研究人员实测识别错误率低于8%


该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下一种,简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。

基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

结语:后续将迭代通用语音识别精度

一直以来,复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控,阿里研究人员上线了背景文本上传功能,使得这一生成结果能更加符合用户的预期。

下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

界面新闻
2025-09-15 08:37:27
8岁小学生公开呛蒋万安,台网友叹:被大人当成政治工具

8岁小学生公开呛蒋万安,台网友叹:被大人当成政治工具

海峡导报社
2025-09-15 09:52:06
看着都心疼!上海网红面包店竟把当天卖不完的面包全扔了?网友:为什么不打折?

看着都心疼!上海网红面包店竟把当天卖不完的面包全扔了?网友:为什么不打折?

新民晚报
2025-09-15 15:32:36
大连一洗浴中心六人获刑!退还损失360万元

大连一洗浴中心六人获刑!退还损失360万元

半岛晨报
2025-09-15 19:33:10
上海200万女性不结婚的真相:不是不想嫁,而是两件事导致太难嫁

上海200万女性不结婚的真相:不是不想嫁,而是两件事导致太难嫁

诗词中国
2025-09-15 16:23:39
劝阻工友回家奔丧、逼肺癌同事加班:这哪是劳模,是活阎王

劝阻工友回家奔丧、逼肺癌同事加班:这哪是劳模,是活阎王

常识传播局
2025-09-15 10:33:44
固态电池超级独角兽来袭,IPO或借壳,剑指寒武纪、宁德时代!

固态电池超级独角兽来袭,IPO或借壳,剑指寒武纪、宁德时代!

月下七
2025-09-15 14:06:09
石破茂辞职,继任者出现:两人主张对华“强硬”,一人坚定反女权

石破茂辞职,继任者出现:两人主张对华“强硬”,一人坚定反女权

天气观察站
2025-09-16 01:13:18
前皇马主教练:C罗不如萨拉赫全面!梅西是最佳前锋!

前皇马主教练:C罗不如萨拉赫全面!梅西是最佳前锋!

氧气是个地铁
2025-09-15 23:06:11
黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

乡野小珥
2025-09-16 03:38:10
美国知名歌手竟同时带四个女友购物,如此 “坦然”,前妻怒批!

美国知名歌手竟同时带四个女友购物,如此 “坦然”,前妻怒批!

橙星文娱
2025-09-12 19:52:06
施罗德:并不想和诺维茨基比谁是德国GOAT,我只是尽我所能

施罗德:并不想和诺维茨基比谁是德国GOAT,我只是尽我所能

懂球帝
2025-09-15 08:47:05
糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

宝哥精彩赛事
2025-09-10 16:48:27
唐鹤德反击了!晒出了给张国荣庆生照片,疑辟谣向太曝哥哥的死因

唐鹤德反击了!晒出了给张国荣庆生照片,疑辟谣向太曝哥哥的死因

郑丁嘉话
2025-09-13 11:41:45
中国男排在逆转胜利后,积分榜更新,位列第三,日本队排名末位。

中国男排在逆转胜利后,积分榜更新,位列第三,日本队排名末位。

三秋体育
2025-09-15 15:11:25
18岁的全红婵也没想到,大学报到后的一个举动,轻松实现口碑暴涨

18岁的全红婵也没想到,大学报到后的一个举动,轻松实现口碑暴涨

简读视觉
2025-09-15 18:05:21
黄岩岛设保护区后, 美国务卿公然反对, 话音刚落, 中方发5词霸气回击

黄岩岛设保护区后, 美国务卿公然反对, 话音刚落, 中方发5词霸气回击

起喜电影
2025-09-16 02:14:24
论文被指大量错误,武大杨某媛回复

论文被指大量错误,武大杨某媛回复

中国新闻周刊
2025-09-15 19:56:06
美军司令警告中国:南海不能见血,菲军只要死一人,美军就会备战

美军司令警告中国:南海不能见血,菲军只要死一人,美军就会备战

星辰故事屋
2025-09-01 12:13:25
大量日系“电视棒”流入闲鱼,跟打火机一样小,预装安卓系统

大量日系“电视棒”流入闲鱼,跟打火机一样小,预装安卓系统

科技拌饭
2025-09-08 19:21:46
2025-09-16 04:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10466文章数 116855关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

时尚
艺术
本地
房产
教育

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

教育要闻

告别“无效刷题”!海淀这所特色校的作业设计有妙招

无障碍浏览 进入关怀版