网易首页 > 网易号 > 正文 申请入驻

阿里甩出AI语音转写神器!准确率击败字节腾讯,连方言都能写对

0
分享至


智东西
作者 王涵
编辑 心缘

智东西4月20日报道,刚刚,阿里发布语音识别大模型Fun-ASR1.5,该模型是千问端到端语音识别大模型的新一代版本。

该模型可以识别30种语言,覆盖中文七大方言体系20余种地方口音,并强化了古诗词诵读的专项识别。Fun-ASR1.5可以分辨出语音中的抑扬顿挫,重点优化了标点预测和文本归一化能力,可以应用于会议纪要、新闻采访整理、法律笔录等场景。

技术团队介绍称,与Seed-ASR和Tencent-ASR模型相比,Fun-ASR1.5在西班牙语、葡萄牙语和英语方面的识别准确率成绩较为突出,均在96分以上。


▲Fun-ASR1.5在开源多语言测试集中获得多项SOTA

中文方言方面,Fun-ASR1.5则在四川话、闽南话、长沙话、苏州话等13种方言识别准确率上,超越Seed-ASR和Tencent-ASR模型。


▲Fun-ASR1.5在工业方言测试集中获得多项SOTA

智东西第一时间体验了其音频转写功能。我们上传了一段三星CES 2026“First Look”演讲的录音音频。在原音频中,背景环境声音嘈杂,演讲人使用英语演讲但带有韩语口音,且录制声音较小。

Fun-ASR1.5不仅将演讲内容准确完整地转写了出来,还根据演讲人的语气和内容,对相关语句进行了大写强调处理,提高了会议转写的效率。


▲智东西实测体验音频转写

目前用户可以在魔搭社区体验该模型,开发者可以通过阿里云百炼平台调用API。

体验地址:

https://modelscope.cn/studios/iic/FunAudio-ASR

API调用地址:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能识别30种语言,跨语言切换无需预设

Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言


韩语:

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

▲ASR结果:저는 이 주제에 따라 한 말씀 드리자면, 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다.

马来语:

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

▲ASR结果:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙语:

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

▲ASR结果:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨语言切换(Code-Switching)场景下,Fun-ASR1.5可以做到无需预设语种标签,就自动识别并切换,保证转写的准确性。比如,同一段对话里夹杂多种语言,模型也能准确识别,无需提前告诉它接下来要说哪种语言。

英语日语切换:

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

▲ASR结果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技术团队介绍称,这种多语言能力,源于模型的架构和训练创新。Fun-ASR1.5采取MoE(混合专家)架构,模型内部可以分工协作,听到特定语言时仅激活相关部分进行处理,因而更为灵活高效。

同时,技术团队在模型的训练阶段分级、分阶段地使用精准数据,也可以使模型更能适配真实世界中的复杂语音场景。

二、错字率下降56.2%,古诗词准确率达97%

在中文本土化方面,基于数十万小时真实方言语音数据训练,技术团队称,Fun-ASR1.5的平均字错误率(CER)相比上一版本下降56.2%


上海话:

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

▲ASR结果:现在发展了蛮快个现在伊拉用户算大户唻。

客家话:

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR结果:呃,那些吃的不就这样的土笋冻啊,我觉得不好吃。

闽南话:

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

▲ASR识别结果:但是一个人若是两三两百箍一百外箍安无算贵吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜点咯,啥物计有咯。

粤语:

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

▲ASR结果:诶,其实可能有时候觉得去超市都几远下噶。

此外,该模型不仅听得懂,还能“写得地道”,Fun-ASR1.5可原汁原味还原方言,如上海话的“侬”、苏州话“倷”(均指“你”),为下游模型处理方言文字提供了准确的基础语料。

不同于现代口语,文言语法特殊、典故生僻字繁多,具有不少挑战。例如,文言语法简练,省略主谓宾;押韵严格,节奏固定(如五言、七言律诗);多用典故、异体字、古今异义词;诵读时存在拖腔、停顿、吟咏等非自然语流特征。

Fun-ASR1.5对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中,Fun-ASR1.5对古诗词的字符级准确率达到97%,可应用于国学在线课程和有声诗词,助力文化传承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

▲ASR结果:蓬山此去无多路,青鸟殷勤为探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

▲ASR结果:子夏曰,博学而笃志,切问而近思,仁在其中矣。

三、能自动插入标点符号,口语表达一键规范

语音识别最终都要落脚于生成可直接使用的文本,Fun-ASR1.5在后处理环节也重点优化了标点预测和文本归一化两项能力,大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本,具体如下:

1、标点预测:更加智能模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如:

输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”输出文本:“今天天气怎么样啊?我想出去走走,但又怕下雨。”

2、文本归一化(ITN)表现:进一步提升将口语中的非标准表达自动转换为规范格式:

数字:“三千五百六十二” → “3562”

日期:“二零二六年三月二十九号” → “2026年3月29日”

金额:“五万八千块” → “58000元”

电话:“幺三八零零幺三八零零零” → “13800138000”

结语:AI语音模型正稳步落地应用

会议纪要、法律笔录等场景,长期处于“半自动”应用状态,核心痛点是AI识别结果需人工进行大量校对,不仅未能有效提升工作效率,还影响了实际工作推进。

阿里Fun-ASR1.5针对这一痛点进行定向优化,补齐了传统语音识别的部分短板,也降低了各行业引入AI语音技术的门槛。

目前,科大讯飞、百度、字节等企业的语音模型均在持续迭代,AI语音大模型正从技术研发逐步向实际应用推进,语音识别作为AI与人交互的重要入口,其实用性直接关系到行业落地的实际效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文回应“大陆武统”,作出满分回答,还给民进党指了一条明路

郑丽文回应“大陆武统”,作出满分回答,还给民进党指了一条明路

头条爆料007
2026-04-19 20:27:52
7.5级地震, 海啸抵达日本! 日媒提醒: 立即逃生

7.5级地震, 海啸抵达日本! 日媒提醒: 立即逃生

每日经济新闻
2026-04-20 17:47:38
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
到底得有多坏,才能做出这么丧尽天良的事!

到底得有多坏,才能做出这么丧尽天良的事!

胖胖说他不胖
2026-04-19 09:00:30
“最难对付的敌人”:周末,真主党消灭以军超过一个排!

“最难对付的敌人”:周末,真主党消灭以军超过一个排!

胜研集
2026-04-20 18:04:11
特朗普:如未能达成协议“几无可能”再延长停火

特朗普:如未能达成协议“几无可能”再延长停火

界面新闻
2026-04-20 23:21:47
空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

千秋文化
2026-04-17 20:01:45
MVP选票结果流出!!他居然才1票啊!!!

MVP选票结果流出!!他居然才1票啊!!!

柚子说球
2026-04-20 22:29:11
052D穿过日本横当水道!这步棋有多狠?

052D穿过日本横当水道!这步棋有多狠?

牲产队
2026-04-20 22:21:15
世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

余蹮搞笑段子
2026-04-21 01:25:36
最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

项鹏飞
2026-04-20 20:13:15
ASML总裁炮轰中国:若再继续自主研究光刻机,将会破坏全球产业链

ASML总裁炮轰中国:若再继续自主研究光刻机,将会破坏全球产业链

泠泠说史
2026-04-20 17:52:42
《我在故宫修文物》导演去世,享年43岁

《我在故宫修文物》导演去世,享年43岁

界面新闻
2026-04-20 12:37:14
国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

21世纪经济报道
2026-04-20 06:46:08
官宣!台州两大知名景区免费开放,取消门票收费

官宣!台州两大知名景区免费开放,取消门票收费

台州交通广播
2026-04-20 19:26:23
李亚鹏,官宣了!4月17日晚,嫣然天使儿童医院告别14年租房模式

李亚鹏,官宣了!4月17日晚,嫣然天使儿童医院告别14年租房模式

一盅情怀
2026-04-20 14:38:27
55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

股经纵横谈
2026-04-19 19:03:09
伊朗媒体:伊朗不参加谈判的决定尚未改变

伊朗媒体:伊朗不参加谈判的决定尚未改变

财联社
2026-04-20 23:03:06
台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

老范谈史
2026-04-20 22:13:51
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
2026-04-21 05:56:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11639文章数 117035关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

亲子
本地
艺术
公开课
军事航空

亲子要闻

居家防夹刻不容缓,多名儿童在家玩闹时手指被夹断

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

春天最适合小住三五天的地方

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版