网易首页 > 网易号 > 正文 申请入驻

阿里甩出AI语音转写神器!准确率击败字节腾讯,连方言都能写对

0
分享至


智东西
作者 王涵
编辑 心缘

智东西4月20日报道,刚刚,阿里发布语音识别大模型Fun-ASR1.5,该模型是千问端到端语音识别大模型的新一代版本。

该模型可以识别30种语言,覆盖中文七大方言体系20余种地方口音,并强化了古诗词诵读的专项识别。Fun-ASR1.5可以分辨出语音中的抑扬顿挫,重点优化了标点预测和文本归一化能力,可以应用于会议纪要、新闻采访整理、法律笔录等场景。

技术团队介绍称,与Seed-ASR和Tencent-ASR模型相比,Fun-ASR1.5在西班牙语、葡萄牙语和英语方面的识别准确率成绩较为突出,均在96分以上。


▲Fun-ASR1.5在开源多语言测试集中获得多项SOTA

中文方言方面,Fun-ASR1.5则在四川话、闽南话、长沙话、苏州话等13种方言识别准确率上,超越Seed-ASR和Tencent-ASR模型。


▲Fun-ASR1.5在工业方言测试集中获得多项SOTA

智东西第一时间体验了其音频转写功能。我们上传了一段三星CES 2026“First Look”演讲的录音音频。在原音频中,背景环境声音嘈杂,演讲人使用英语演讲但带有韩语口音,且录制声音较小。

Fun-ASR1.5不仅将演讲内容准确完整地转写了出来,还根据演讲人的语气和内容,对相关语句进行了大写强调处理,提高了会议转写的效率。


▲智东西实测体验音频转写

目前用户可以在魔搭社区体验该模型,开发者可以通过阿里云百炼平台调用API。

体验地址:

https://modelscope.cn/studios/iic/FunAudio-ASR

API调用地址:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能识别30种语言,跨语言切换无需预设

Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言


韩语:

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

▲ASR结果:저는 이 주제에 따라 한 말씀 드리자면, 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다.

马来语:

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

▲ASR结果:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙语:

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

▲ASR结果:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨语言切换(Code-Switching)场景下,Fun-ASR1.5可以做到无需预设语种标签,就自动识别并切换,保证转写的准确性。比如,同一段对话里夹杂多种语言,模型也能准确识别,无需提前告诉它接下来要说哪种语言。

英语日语切换:

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

▲ASR结果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技术团队介绍称,这种多语言能力,源于模型的架构和训练创新。Fun-ASR1.5采取MoE(混合专家)架构,模型内部可以分工协作,听到特定语言时仅激活相关部分进行处理,因而更为灵活高效。

同时,技术团队在模型的训练阶段分级、分阶段地使用精准数据,也可以使模型更能适配真实世界中的复杂语音场景。

二、错字率下降56.2%,古诗词准确率达97%

在中文本土化方面,基于数十万小时真实方言语音数据训练,技术团队称,Fun-ASR1.5的平均字错误率(CER)相比上一版本下降56.2%


上海话:

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

▲ASR结果:现在发展了蛮快个现在伊拉用户算大户唻。

客家话:

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR结果:呃,那些吃的不就这样的土笋冻啊,我觉得不好吃。

闽南话:

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

▲ASR识别结果:但是一个人若是两三两百箍一百外箍安无算贵吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜点咯,啥物计有咯。

粤语:

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

▲ASR结果:诶,其实可能有时候觉得去超市都几远下噶。

此外,该模型不仅听得懂,还能“写得地道”,Fun-ASR1.5可原汁原味还原方言,如上海话的“侬”、苏州话“倷”(均指“你”),为下游模型处理方言文字提供了准确的基础语料。

不同于现代口语,文言语法特殊、典故生僻字繁多,具有不少挑战。例如,文言语法简练,省略主谓宾;押韵严格,节奏固定(如五言、七言律诗);多用典故、异体字、古今异义词;诵读时存在拖腔、停顿、吟咏等非自然语流特征。

Fun-ASR1.5对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中,Fun-ASR1.5对古诗词的字符级准确率达到97%,可应用于国学在线课程和有声诗词,助力文化传承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

▲ASR结果:蓬山此去无多路,青鸟殷勤为探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

▲ASR结果:子夏曰,博学而笃志,切问而近思,仁在其中矣。

三、能自动插入标点符号,口语表达一键规范

语音识别最终都要落脚于生成可直接使用的文本,Fun-ASR1.5在后处理环节也重点优化了标点预测和文本归一化两项能力,大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本,具体如下:

1、标点预测:更加智能模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如:

输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”输出文本:“今天天气怎么样啊?我想出去走走,但又怕下雨。”

2、文本归一化(ITN)表现:进一步提升将口语中的非标准表达自动转换为规范格式:

数字:“三千五百六十二” → “3562”

日期:“二零二六年三月二十九号” → “2026年3月29日”

金额:“五万八千块” → “58000元”

电话:“幺三八零零幺三八零零零” → “13800138000”

结语:AI语音模型正稳步落地应用

会议纪要、法律笔录等场景,长期处于“半自动”应用状态,核心痛点是AI识别结果需人工进行大量校对,不仅未能有效提升工作效率,还影响了实际工作推进。

阿里Fun-ASR1.5针对这一痛点进行定向优化,补齐了传统语音识别的部分短板,也降低了各行业引入AI语音技术的门槛。

目前,科大讯飞、百度、字节等企业的语音模型均在持续迭代,AI语音大模型正从技术研发逐步向实际应用推进,语音识别作为AI与人交互的重要入口,其实用性直接关系到行业落地的实际效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爆笑经典美女糗事冷笑话,有一天老婆在我一本旧书里面,翻出来一张美女的照片遂找我追问!

爆笑经典美女糗事冷笑话,有一天老婆在我一本旧书里面,翻出来一张美女的照片遂找我追问!

天天明星
2026-07-02 19:22:13
1958年,李锐问毛主席:您在农村长大,相信一亩地产几万斤粮食?

1958年,李锐问毛主席:您在农村长大,相信一亩地产几万斤粮食?

文史季季红
2026-07-04 10:15:03
《花少8》生图,吴君如太朴素,王星越帅,殷桃美翻,娜扎赢麻了

《花少8》生图,吴君如太朴素,王星越帅,殷桃美翻,娜扎赢麻了

八卦南风
2026-07-04 18:16:33
一场同学聚会让我发现:有钱的人不爱炫耀,没钱的人特别喜欢显摆

一场同学聚会让我发现:有钱的人不爱炫耀,没钱的人特别喜欢显摆

小马达情感故事
2026-07-04 17:32:23
整整4.46亿美金!东契奇别高兴太早,湖人自己选的路跪着也要走完

整整4.46亿美金!东契奇别高兴太早,湖人自己选的路跪着也要走完

世界体育圈
2026-07-03 17:52:57
加拿大vs摩洛哥前瞻:加拿大没有“主场”,难阻摩洛哥晋级8强

加拿大vs摩洛哥前瞻:加拿大没有“主场”,难阻摩洛哥晋级8强

智道足球
2026-07-04 14:50:47
英格兰大乱!世界杯生死战突发变故!图赫尔遭背刺

英格兰大乱!世界杯生死战突发变故!图赫尔遭背刺

澜归序
2026-07-04 06:41:23
破案!小杨G联赛大杀四方,回国却成4不像原因找到,名记说出实情

破案!小杨G联赛大杀四方,回国却成4不像原因找到,名记说出实情

后仰大风车
2026-07-04 09:10:20
日媒叹严子怡“冷血终结者”!世界业内人士集体臣服!!

日媒叹严子怡“冷血终结者”!世界业内人士集体臣服!!

手工制作阿歼
2026-07-04 18:06:30
黄瓜再次成为关注对象!提醒:中老年吃黄瓜时,要多留意这几点!

黄瓜再次成为关注对象!提醒:中老年吃黄瓜时,要多留意这几点!

芹姐说生活
2026-07-04 15:31:18
湖南省委:坚决拥护国家监委决定

湖南省委:坚决拥护国家监委决定

政知新媒体
2026-07-04 11:51:19
惨败日本!名记灵魂3连问嘲讽CBA改革,3条件不利男篮出线成奢望

惨败日本!名记灵魂3连问嘲讽CBA改革,3条件不利男篮出线成奢望

后仰大风车
2026-07-04 07:10:13
国足天塌了!又一夜封神后,佛得角喊话中国足协,理由竟无法拒绝

国足天塌了!又一夜封神后,佛得角喊话中国足协,理由竟无法拒绝

笑一个吧
2026-07-04 21:03:31
睡到曾经的女神是什么体验?网友说你不舍得的车其实早已千人骑了

睡到曾经的女神是什么体验?网友说你不舍得的车其实早已千人骑了

黯泉
2026-07-03 12:42:38
官方:CCTV5+转播U17国少vs澳大利亚U17

官方:CCTV5+转播U17国少vs澳大利亚U17

懂球帝
2026-07-04 12:17:32
南美第2蹊跷出局,英格兰或轰然倒下,球迷:冠军提前预定了?

南美第2蹊跷出局,英格兰或轰然倒下,球迷:冠军提前预定了?

我就是一个说球的
2026-07-04 16:53:46
情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

台州交通广播
2026-07-04 06:52:20
新规好啊,新规得学!王大雷示意裁判不是角球,VAR及时纠正

新规好啊,新规得学!王大雷示意裁判不是角球,VAR及时纠正

懂球帝
2026-07-04 21:19:37
我一直被领导边缘化,拿到涨薪40%的offer后提了离职,没想到领导说:“其实你挺笨的,之所以一直留着你,是因为你还算听话!”

我一直被领导边缘化,拿到涨薪40%的offer后提了离职,没想到领导说:“其实你挺笨的,之所以一直留着你,是因为你还算听话!”

励职派
2026-07-04 19:15:50
黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

阿讯说天下
2026-07-02 09:56:50
2026-07-04 22:56:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117119关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
旅游
教育
时尚
房产

数码要闻

中国空调在欧洲卖爆 多品牌正加急补货

旅游要闻

“津旅时光号”7月线路上新!增开广阳站、塘沽站,串联京津冀

教育要闻

UCAS补录全攻略:clearing其实是速度和信息差之战!

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

无障碍浏览 进入关怀版