网易首页 > 网易号 > 正文 申请入驻

Umair Khan用2遍LLM把语音转写错误率砍半

0
分享至


语音转文字的错误率,在英语场景下已经低到能用了。但换成乌尔都语、斯瓦希里语这类资源匮乏的语言,错漏百出是常态。Umair Ali Khan博士最近公布了一套双遍LLM后处理方案,把多个主流模型的词错误率(Word Error Rate)压了下去,而且适配新语言只需要改提示词。

核心思路很朴素:第一遍修拼写和一致性,第二遍补上下文逻辑。两遍分工明确,不抢活。Khan在Medium专栏详细拆解了实现路径,我们按时间线还原这套方案是怎么从问题清单里长出来的。

第一步:先给错误分类,别急着动手

Khan团队先跑了大量转写样本,把高频错误归类。拼写错误最常见,比如"accomodate"少写一个m。一致性错误次之,同一个人名前后三种写法。最隐蔽的是上下文错误:复合词该不该加连字符、功能词(介词、冠词)有没有漏掉,这些单靠局部文本判断不了。

传统后处理用规则引擎硬编码,新语言来了得重写规则。Khan的解法是把规则换成LLM的推理能力,用提示词封装语言知识,换语言时只换提示词。

第一遍:拼写和一致性修复

TranscriptEnhancer组件的第一遍处理,输入是原始转写文本,输出是"干净版"。提示词设计得很克制:只修明显拼写错误,统一专有名词写法,不碰句子结构。

Khan特别提到一个细节:第一遍要"保守"。LLM有幻觉倾向,给太多自由度会擅自改写正确内容。提示词里加了明确约束——"如果拼写存在争议,保留原样"。

实测下来,第一遍单独跑能把纯拼写类错误清掉七成以上。但复合词拆分错误、连字符滥用这些问题,第一遍基本不动,留给第二遍。

第二遍:上下文推理补漏

第二遍的输入是第一遍的输出,加上一个关键上下文窗口。Khan把前后各50词喂给LLM,让它判断"longterm"该写成"long-term"还是"long term","New York based"要不要加连字符变成"New York-based"。

功能词缺失是另一块硬骨头。口语转写常漏掉"the""a""of",第一遍看不出来,第二遍结合上下文能补个七七八八。Khan举了个例子:原文本"meeting scheduled next Monday",第二遍会推断成"the meeting is scheduled for next Monday"。

两遍串联后,词错误率降幅明显。Khan没公布具体数字,但强调"across multiple speech-to-text models"都有效,说明方案不挑底层模型。

适配新语言:只改提示词,不动代码

这套架构的最大卖点是语言迁移成本极低。Khan在文章第6节专门讲适配流程:准备该语言的常见错误样本,重写两遍提示词里的示例和约束,跑一批测试集调优。

不需要重新训练模型,不需要标注大量数据。对于缺乏语音语料的小语种,这是现阶段最现实的提质路径。Khan本人的背景也印证了这点——他的GitHub主页列着乌尔都语NLP项目,这套方案显然是从实际痛点里磨出来的。

TranscriptEnhancer的代码结构他没完全开源,但核心逻辑讲得很透:两遍调用同一LLM,用不同系统提示词区分角色,中间状态缓存避免重复计算。工程上没什么黑魔法,胜在把LLM的推理能力用在了对的环节。

语音转文字的赛道,头部玩家都在卷端到端模型。Khan的方案反其道而行,承认现有模型的局限,用轻量后处理补短板。对于预算有限、又要支持多语言的团队,这种"缝合"思路可能比追新模型更务实。

最后留个细节:Khan在提示词里埋了一个自检指令,让LLM输出修改理由。调试时能看到第一遍为什么把"color"改成"colour",第二遍为什么加了那个"the"。这种可解释性设计,在LLM应用里比准确率本身更难能可贵。

如果你的产品要支持小语种语音输入,会先赌下一代ASR模型,还是试试这种双遍后处理?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!FCC拟禁止中国三大运营商!中方回应

突发!FCC拟禁止中国三大运营商!中方回应

EETOP半导体社区
2026-04-10 08:36:04
澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

环球网资讯
2026-04-09 14:51:06
郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

小熊看国际
2026-04-10 12:29:18
杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

湖人崛起
2026-04-10 10:25:47
政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

混沌录
2026-04-09 16:05:29
全红婵被网暴被孤立的内幕,似乎被职场人给参透了

全红婵被网暴被孤立的内幕,似乎被职场人给参透了

穿透
2026-04-10 13:25:56
日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

三言四拍
2026-04-09 13:59:27
全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

念洲
2026-04-10 08:40:37
苏林,再次首访中国

苏林,再次首访中国

新民周刊
2026-04-10 09:05:29
陈丽华的富华国际集团旗下有哪些知名品牌

陈丽华的富华国际集团旗下有哪些知名品牌

蓝色海边
2026-04-10 03:35:13
开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

潮鹿逐梦
2026-04-10 12:03:49
中国通用技术(集团)原总经理助理李克全接受监察调查

中国通用技术(集团)原总经理助理李克全接受监察调查

界面新闻
2026-04-10 10:01:37
故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

诡谲怪谈
2025-01-18 14:09:34
父亲40年攒下的千亿帝国,儿子4年败光……

父亲40年攒下的千亿帝国,儿子4年败光……

快刀财经
2026-04-09 22:12:48
SpaceX去年营收超185亿美元,亏损近50亿美元

SpaceX去年营收超185亿美元,亏损近50亿美元

界面新闻
2026-04-10 08:27:09
南京图书馆原副馆长吴政接受审查调查

南京图书馆原副馆长吴政接受审查调查

界面新闻
2026-04-10 10:02:05
黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

贴小君
2026-04-10 13:26:42
郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

新华社
2026-04-09 15:36:11
被问针织比基尼透不透气?你穿一次不就知道了!

被问针织比基尼透不透气?你穿一次不就知道了!

飛娱日记
2026-04-06 09:14:56
宝尊三年改造,一个跨国品牌的中国式重生

宝尊三年改造,一个跨国品牌的中国式重生

晚点LatePost
2026-04-08 18:07:59
2026-04-10 15:07:00
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
1082文章数 14关注度
往期回顾 全部

教育要闻

2026对口招生开始啦!欢迎报考河南林业职业学院

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

本地
教育
数码
健康
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

二年级培优,难倒99%的学生

数码要闻

微星推出Cubi NUC TWG系列商用迷你主机,可选无风扇被动散热款

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版