网易首页 > 网易号 > 正文 申请入驻

刚刚!阿里发新模型,幻觉率爆降70%

0
分享至

智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。

FunAudio-ASR使用了数千万小时的音频数据,融合了大语言模型的语义理解能力,从而提升语音识别的上下文一致性与跨语言切换能力。

通义实验室打造了5大类测试集,重点关注语音识别在远场、嘈杂背景等挑战性场景下的表现,并结合开源测试集评估了模型的性能。FunAudio-ASR实现了超越Seed-ASR、KimiAudio-8B等业内知名模型的表现。

同时,FunAudio-ASR在实际落地方面也进行了全面优化,支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别,能够覆盖视频会议、实时字幕、智能终端等多样化应用场景。

FunAudio-ASR提供两个版本,满血版由0.7B参数量的编码器和7B参数量的大语言模型组成,追求最高精度;轻量的nano版本由0.2B参数量的编码器和0.6B参数量的大语言模型,平衡效率与精度。目前,FunAudio-ASR已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用。

FunAudio-ASR已上线阿里云百炼平台,API定价为0.00022元/秒,转录一段一小时的音频大约需要8毛钱。这款模型的技术报告已经发布,开发者也可在魔搭社区体验其效果。

魔搭社区体验:

https://modelscope.cn/studios/iic/FunAudio-ASR

阿里云百炼平台:

https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

技术报告:

https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

一、幻觉、串语种问题获针对性优化,一手体验高噪声环境识别效果

相比于文本大模型,语音大模型的“幻觉”问题尤为突出。这是因为声学特征与文本特征在向量空间上天然存在差异,导致模型在“听”完音频后,容易“脑补”出大量不存在的内容。

尽管通过训练,可以将将声学特征对齐到文本特征空间,但声学特征Embedding与真实的文本Embedding仍然存在这一定的差距,这会导致大语言模型在生成文本时发生幻觉的现象。

▲声学特征Embedding与真实的文本Embedding分布差异(图片来源:https://arxiv.org/pdf/2410.18908)

通义实验室发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。为此,他们设计了Context增强模块:该模块通过CTC解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入大语言模型,辅助其理解音频内容。

由于CTC结构轻量且为非自回归模型,几乎不增加额外推理耗时。

例如,对于这段由AI生成、模仿海盗说话风格的音频,FunAudio-ASR做到了一字不差的识别。

(待插入)

此外,通义实验室还观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。

为评估模型在高噪声情况下的表现,他们构建了一个包含28条易触发幻觉音频的测试集,经优化后,幻觉率从78.5%下降至10.7%。

智东西在实测中体验了FunAudio-ASR在嘈杂场景的识别能力。这段音频是在嘈杂的展会现场录制的。可以听到,模型基本准确识别了片段中男性说话者的声音,但在声音音量骤降后识别错误了。

(待插入)

同时,这段音频中有两位说话者,FunAudio-ASR在识别两人同时说话的部分时,遗漏了一些信息。

与OpenAI Whisper Large V3的识别结果对比,FunAudio-ASR识别出了更多正确的信息。

“串语种”是语音大模型落地中的另一类典型问题,例如,输入音频内容为英文,模型输出却为中文文本。

这是因为文本大模型本身具备翻译能力,在声学特征映射不够精确时,模型可能在推理过程中“自动启动”翻译功能,从而影响语音识别的准确性。

在FunAudio-ASR的Context增强模块中,CTC解码器经过高质量数据训练,本身发生串语种的概率极低。通过将CTC的第一遍解码结果作为提示词输入给大语言模型,可有效引导模型聚焦于语音识别任务,缓解“翻译”行为的发生。

二、支持术语定制化识别,召回率提升明显

在企业运用语音识别模型时,个性化定制是必不可少的技术。所谓定制化,是指在识别过程中对特定词/短语(如人名、地名、品牌、专业术语等)施加额外概率偏好,从而显著提高它们的识别召回率,同时尽量不损伤通用识别准确率。

当前行业的主流做法是将用户提供的领域词,直接作为提示词输入大语言模型。该方法虽简单有效,但随着词量增加,干扰也随之上升,导致召回率下降——即“定制化能力衰减”。

为缓解这一问题,通义实验室在Context增强结构中引入RAG(检索增强生成)机制,这一机制的运作方式如下:

(1)构建知识库:将用户配置的定制词构建成专属RAG库;

(2)动态检索:依据CTC第一遍解码结果,从RAG库中抽取相关词汇;

(3)精准注入:仅将相关词汇注入大语言模型的提示词中,避免无关信息干扰。

该方案在不增加推理复杂度的前提下,将定制化上文数量扩充到上千个以上,并且保持较高的定制化识别效果。

为验证模型的定制化效果,通义实验室在微积分学、有机化学、物理学、哲学、人名等5个领域,选取了1000个专业词汇进行测试。FunAudio-ASR在关键词准确率上表现超越了支持同类功能的语音识别模型。

例如,采用FunAudio-ASR模型的钉钉“AI听记”,拥有对互联网、科技、家装、畜牧、汽车等10+领域、200+细分行业术语的识别能力,并支持在企业授权前提下,结合通讯录、日程等上下文信息进行推理优化,进一步提升结果可靠性。

三、预训练使用数千万小时数据,仅用8张A100完成强化学习

技术报告中,通义实验室阐述了FunAudio-ASR的技术细节。这一模型包含四个核心组件:

(1)音频编码器(Audio Encoder):提取语音特征,使用多层Transformer Encoder。

(2)音频适配器(Audio Adaptor):连接编码器和LLM,使用两层Transformer Encoder。

(3)CTC解码器:用于初步识别假设,支持热词定制。

(4)基于大语言模型的解码器:结合音频特征和CTC预测生成最终输出。

▲FunAudio-ASR模型架构

预训练阶段,FunAudio-ASR使用了数千万小时的音频数据,包括无标注音频和有标注的音频-文本数据,数据涵盖AI、生物、电商、教育等多个领域。

预训练分为自监督预训练和有监督预训练。在自监督阶段,FunAudio-ASR创新地使用Qwen3的权重初始化编码器,加速收敛并提升表示质量。

有监督预训练则在编码器-解码器架构(AED)下进行,使编码器能够从大规模标注数据中学习更丰富的声学-语言特征,为后续与大语言模型的整合奠定基础。

▲FunAudio-ASR预训练管线

在此基础上,FunAudio-ASR进入有监督微调(SFT)阶段,该阶段进一步分为五个子阶段,逐步优化不同模块:

(1)训练适配器以对齐音频表示与大语言模型的语义空间;

(2)优化编码器和适配器;

(3)使用LoRA微调大语言模型以防止灾难性遗忘;

(4)全参数微调阶段;

(5)引入CTC解码器用于后续的热词检索与增强生成(RAG)。

整个SFT过程使用了数百万小时的多源数据,包括人工标注语料、伪标注数据、合成语音和噪声增强数据等,确保了模型在多样化场景下的泛化能力。

为了进一步提升模型对长音频和上下文信息的理解能力,团队还构建了超过5万小时的上下文增强训练数据。

通过提取关键词、合成相关上下文并混合无关语境,模型学会了在保持高识别精度的同时,有效利用对话历史信息,显著提升了在复杂语境下的表现。

在强化学习(RL)阶段,团队提出了专为音频-语言模型设计的FunRL框架,支持多模块高效协同训练。

▲FunRL框架

该框架采用GRPO算法,并设计了多目标奖励函数,综合优化识别准确率、关键词召回、幻觉抑制和语言一致性。模型仅使用8张A100显卡,在一天内完成RL训练。

RL训练数据涵盖硬样本、长音频、幻觉样本、关键词样本和常规ASR数据,显著提升了模型在困难场景下的鲁棒性和用户体验。

最后,FunAudio-ASR还针对实际应用需求进行了全面优化,包括流式识别支持、噪声鲁棒性增强、中英代码切换处理、热词定制和幻觉抑制等。

结语:生成式AI赋能新一代ASR系统,或成智能交互重要入口

基于生成式AI的新一代语音识别模型,正在从“能听清”走向“能理解”,并在幻觉抑制、跨语种识别、上下文一致性等关键问题上展现出进展。

与传统以声学建模与统计学习为主的语音识别系统相比,这类模型不仅具备更强的语义理解与任务适配能力,还能在复杂噪声、多说话人、跨领域等场景中保持更高的鲁棒性和可控性。可以预见,未来语音识别有望告别单纯的“输入工具”,成为终端智能交互的重要入口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

每日经济新闻
2026-03-26 19:00:13
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
为什么一定要多接高中孩子放学?这5个答案点醒无数家长

为什么一定要多接高中孩子放学?这5个答案点醒无数家长

户外阿毽
2026-03-26 12:33:16
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

大象新闻
2026-03-24 13:53:11
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
诺利托:尽管我曾效力于巴萨,但为了生活我也愿意效力于皇马

诺利托:尽管我曾效力于巴萨,但为了生活我也愿意效力于皇马

懂球帝
2026-03-26 22:42:03
恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

影像温度
2026-03-26 11:25:05
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

刘蕳爱下厨
2026-03-24 17:29:01
美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

每日经济新闻
2026-03-26 20:18:05
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-27 03:39:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
手机
教育
军事航空

400万人爱过的女孩,被黄谣网暴180天后

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版