Praxel Ventures:合成音频让印度语AI实现真实世界实体语音识别|英语|语料库|印地语

分享至

来源：市场资讯

（来源：科技行者）

这项由Praxel Ventures独立完成的研究，以预印本形式发布于2026年5月，编号为arXiv:2605.03073v1，有兴趣深入了解的读者可通过该编号在arXiv上查阅完整论文。

**研究背景：语音识别为什么会在"报电话号码"这件事上彻底崩溃**

假设你是一位在印度工作的客服系统工程师，你的系统需要处理用户打进来的电话。用户可能用泰卢固语（Telugu）说："我的订单号是9876543210，地址在海得拉巴的Banjara Hills，金额是五万卢比。"

对人来说，这句话再普通不过。但对目前市面上最先进的语音识别系统来说，这句话简直就是噩梦——它们能流利地转写泰卢固语的诗歌和新闻播报，却往往对这类掺杂着数字串、地址、英文品牌名和金额的"混合型"话语束手无策。

研究者把这类内容统称为"实体密集型音频"（entity-dense audio），指的是那些充斥着电话号码、邮政编码、货币金额、印度地址、品牌名称以及印地语/英语混合表达的真实语音。这类内容在外卖派送、金融科技、呼叫中心等场景里无处不在，却恰恰是现有AI系统的软肋。

研究团队用一个具体数字揭示了这个问题有多严重。他们选取了两个代表性系统来测试：一个是来自IIT马德拉斯语音实验室开源的vasista22（基于Whisper架构专门针对印度语言微调，是当前开源领域的顶尖水平），另一个是商业API服务Deepgram Nova-3（一个专为印度语言优化的商业产品）。在一组专门构造的泰卢固语实体密集测试集上，vasista22的"实体命中率"仅有0.027——也就是说，一百个实体里它只能正确识别不到三个。商业系统Deepgram的表现稍好，但也只有0.16，同样惨不忍睹。

这就像两位号称"精通厨艺"的大厨，在烤面包和做汤方面表现出色，但一旦让他们识别菜单上的商品编号、供应商代码和进价金额，就完全找不到北了。问题不在于他们不够聪明，而在于他们从来没有在这类数据上受过训练。

研究团队由此提出了一个核心问题：能否用一种低成本、自动化的方式，专门为这个"实体识别盲区"生成训练数据，并让模型快速补上这块短板？

**一、核心思路：让"文字转语音"反过来训练"语音转文字"**

这个比喻来自机械领域：飞轮是一种储能装置，一旦启动就会持续旋转，把能量一圈圈积累起来。在这个研究框架里，飞轮的转动方式是这样的：首先用TTS系统批量生成大量包含各种实体的合成语音，然后用这些合成语音来训练STT模型，让它学会识别这些在真实世界中频繁出现的内容。整个过程不需要昂贵的人工录音，也不需要花大量时间让真人朗读数千条含有电话号码和地址的句子。

更关键的是，这个"飞轮"不需要依赖任何商业API或昂贵资源——研究团队的核心声明是整套流程的边际成本不超过50美元。这就好比你想教一个学生认识所有商品条形码，但不需要花钱让人把每个条形码都对着麦克风念一遍，而是直接用软件生成几万条朗读录音来训练他，几乎零成本。

**二、构建"实体密集型合成音频"语料库：从零开始造数据**

为了让飞轮转起来，研究团队首先需要一批高质量的训练数据。他们专门设计了一个名为EDSA（Entity-Dense Synthetic Audio，实体密集型合成音频）的语料库构建流程，像一条精密的生产线，每个环节都有明确分工。

整个生产线分为三个主要阶段。第一阶段是"原材料准备"：研究团队为泰卢固语、印地语（Hindi）和泰米尔语（Tamil）三种语言，分别整理了六大类实体的词典——数字串（十位电话号码等）、货币金额（包括拉丁数字和印度语词汇两种形式，比如"?50,000"和"??? ?????"，即泰卢固语的"五拉克"）、印度式地址（含嵌入式门牌号和邮政编码）、品牌名称（嵌入印度语句子中的英文商标）、语码混合表达（英语动词配印度语名词，或反之），以及专有名词（人名和地名）。每类实体在每种语言下约有500个种子实体，数据来源是维基数据、AI4Bharat词库以及母语者的人工整理。

第二阶段是"批量生产句子"：研究团队使用Anthropic公司的Haiku-4.5大语言模型（一种能理解和生成文本的AI）来批量生成包含上述实体的例句。给这个AI的指令要求非常具体：生成的句子必须用原生脚本（不能乱用其他文字），句子里的实体位置必须被标注出来，句子长度在3到25个词之间，而且实体出现在句子中的位置要有变化（不能总在句末）。经过去重和脚本纯洁性过滤之后，最终存活下来22,193条有效句子，覆盖三种语言和六大类别。这一步在Anthropic平台上花费的费用是13.95美元。

第三阶段最有意思，也最体现研究者的工程智慧。生成了句子之后，需要把文字变成语音。但如果所有句子都用同一个TTS系统来朗读，训练出来的STT模型可能只会识别那个TTS系统特有的发音腔调，而不是真正学会识别实体本身。这就好比你只让一个人朗读所有例子，训练出来的学生只能认出那个人的声音，换一个人念就傻了。

为了避免这个问题，研究团队设计了一套"多系统合成路由"机制，把句子分配给五个不同的TTS系统来朗读。泰卢固语和泰米尔语的非语码混合句子交给自家开发的开源系统Praxy R6处理；印地语非语码混合句子则用vanilla Chatterbox多语言系统；任何涉及语码混合的句子（英语印度语混合那种）交给IndicF5处理，输入时将文字转写成罗马字母；此外还有ElevenLabs v3和Cartesia sonic-3两个商业系统，分别使用了8个和12个不同声线的声音。整体分配比例是60%给Praxy，20%给ElevenLabs，20%给Cartesia。

在生成语音之后，还有一道质量控制关卡：用vasista22（那个被当作基线的开源模型）来"试听"每一条合成语音，如果识别出来的字符错误率超过50%，这条语音就会被丢弃——因为连基线模型都听不懂的录音，对训练来说价值有限。这道过滤大约淘汰了10%到15%的素材。经过所有过滤之后，最终得到约19,500条音频，总时长约22小时，分布在三种语言和五个TTS系统之间。

研究团队还在整个过程中发现并修正了一个微妙的数据错误。早期版本的标注存在"数字形式不匹配"问题：文本标注写的是"OTP 54235"，但TTS系统朗读出来的是"五拉克四万两千三百五十"（因为TTS内部把数字展开成了大写形式）。如果用原始标注来训练，模型就会在音频内容和文字之间学到错误的对应关系。研究团队发现这个问题后，对约5,174条涉及数字的句子进行了重写，把所有数字串改成对应语言的拼写形式，确保文字标注和实际发音内容一致。

最后一个关键设计是"实验组与对照组分离"：所有来自Cartesia系统的约1,270条音频被完整地从训练集中抽出，专门留作测试集。这样一来，模型在训练时完全没有见过Cartesia的声音风格，测试时才能真正衡量它学到的是"识别实体的能力"，而不是"模仿Cartesia声音的能力"。

**三、用LoRA技术给模型做"定向强化"：最低成本的精准升级**

有了语料库之后，下一步是如何用这批数据来提升模型的能力。研究团队选择了一种叫做LoRA（Low-Rank Adaptation，低秩适应）的技术。

普通的模型训练需要更新模型里所有的参数，就像把一栋大楼的每一块砖都重新烧制；而LoRA只在原有模型旁边加上一组轻薄的"适配层"，就像在大楼的关键承重柱上再套一层钢结构，整体框架不动，但针对性地强化了特定功能。这样做的好处是速度快、成本低，而且不会破坏模型原有的基础能力。

研究团队实际上训练了两套LoRA模型。第一套叫Praxy-STT-r2，是在原版Whisper-large-v3基础上加的适配层，主要目的是修复泰卢固语的"脚本崩溃"问题（这个问题后面会详细说）。第二套是正式的核心成果，叫Praxy-STT-rb，是在vasista22这个已经针对印度语言优化过的模型上再加一层实体密集型适配——相当于在已经会说印度语的基础上，专门强化"听懂电话号码和品牌名"的能力。

两套模型的训练配置有一些关键差异。在Praxy-STT-rb的训练中，学习率被刻意设得比较低，只有4×10??，这是因为vasista22已经经过了大量训练，如果学习率太高，新数据的冲击可能会让模型"忘掉"原来学会的阅读朗读识别能力，就像一个熟练的厨师被强行改造成专职糕点师，反而把原来的炒菜手艺给丢了。为了进一步防止这种"灾难性遗忘"，训练数据中特意混入了真实录音：IndicVoices（约40小时）、Common Voice 25.0（约5到30小时不等）和FLEURS（约10小时）的真实语音，加上EDSA合成语音（约22小时），合成数据占比约在20%到30%之间。

训练在Modal云平台的单块A10G图形处理器上进行，每个语言大约需要7小时，花费约13美元。三个语言加上评估矩阵，整个计算费用约130美元。

**四、一把新尺子：为什么需要重新定义"识别准确率"**

在报告结果之前，研究团队还解决了一个容易被忽视但至关重要的问题：如何衡量"实体识别是否成功"？

传统语音识别用的是WER（Word Error Rate，词错误率），本质上就是数错误的词有多少。但这把尺子用在实体识别上非常不公平。如果系统把"五拉克"识别成了"500000"，从含义上来说完全正确，但WER会判定为错误，因为字面上不一样。如果系统把品牌名"Swiggy"正确认出来了，但用拉丁字母写出来而参考答案用的是泰卢固语转写，WER同样会扣分。

为此研究团队设计了一套叫做EHR（Entity Hit Rate，实体命中率）的新指标，针对每类实体分别制定了"算对了"的判定规则。数字串要求NFKC标准化后完全一致；邮政编码除了标准化之外还必须是六位；货币金额只要数值误差在0.5%以内就算正确，系统会同时解析拉丁数字和印度语词汇形式的金额（"lakh"、"crore"、"?????"等都能处理）；品牌名称做大小写折叠后与别名表进行匹配；专有名词用词集合相似度来衡量，相似度达到0.8就算对，这样可以容忍音译差异；拼写数字要求子序列保留度达到0.8；门牌号要求标准化后完全匹配。

最终报告的指标是宏平均EHR（Macro-EHR），即各类实体的命中率简单平均，这样可以避免某类实体数量太多把整体结果带偏。

研究团队也坦诚地指出了这个指标的局限性：EHR在类内要求形式精确匹配，跨形式的语义等价不算分。举个例子，如果系统把参考答案里写成泰卢固语"???? ????"（二十拉克）的内容识别成了"200000"，数值完全正确，但因为参考文本里没有拉丁数字，EHR的货币解析无法建立起对应关系，所以这条会被判为错误。研究者注意到这种情况在泰卢固语测试中反复出现，并表示未来版本会改进这一点，但当前报告的是严格版本的数字，这使得结果偏于保守。

**五、实验结果：飞轮实际转出了多少动力**

核心结论可以用一个简单的对比来描述：在泰卢固语实体密集测试集（102条Cartesia语音）上，vasista22的EHR是0.027，Deepgram的EHR是0.160，而研究团队训练的β-Te（即Praxy-STT-rb泰卢固语版本）达到了0.473。这意味着相比开源顶尖水平提升了17倍，相比商业系统提升了约3倍。

按类别分解来看，这个0.473是由各类实体的不同表现综合得来的。地址类（28个样本）的命中率高达0.786，品牌类（17个样本）为0.529，货币类（12个样本）为0.500，语码混合类（93个样本）为0.366。数字串和专有名词类在这批测试集中没有对应样本，所以标记为不适用。

研究团队同时也诚实地承认，这个0.473距离他们预先设定的目标——泰卢固语EHR达到0.75——仍有相当距离。实体密集型印度语音识别远未被"解决"，当前的成果只是从接近于零的基线上迈出了一大步。

为了验证这个提升不只是对合成语音的"认腔认调"，研究团队特意做了一个人工录制的小规模测试。一位泰卢固语母语者（研究团队成员之一）用消费级麦克风在安静环境里朗读了20个句子，这些句子按类别平衡地从测试集中抽取（4个品牌、4个地址、3个货币、4个语码混合、3个数字、2个专有名词）。在这20个真人录音上，β-Te的EHR达到了0.516，不仅没有下降，还略高于合成语音上的0.473。同时，WER（词错误率）是0.358，脚本保真率（后面会解释这是什么）是0.881，与在合成语音上的表现基本持平。这个结果有力地说明，模型学到的是真正的实体识别能力，而不仅仅是某个TTS系统的声音特征。

跨语言结果同样值得关注。在印地语上，vasista22的EHR是0.049，Deepgram是0.485，β-Hi是0.337——飞轮相比开源基线提升了7倍，但没有追上商业系统。这个例外恰恰印证了一个有趣的逻辑：Deepgram在印地语实体覆盖上明显优于泰卢固语（0.485对比0.160），说明商业公司对印地语投入了更多专项资源。在商业系统已经有大量实体覆盖的语言上，飞轮能补的缺口就比较有限。

泰米尔语是最干净的对照实验：vasista22的EHR是0.025，Deepgram的EHR也是0.025（两个系统几乎同样糟糕），而β-Ta达到了0.543，对两个基线都实现了22倍的提升。这说明飞轮的价值正好体现在那些开源和商业系统都没有投入的语言实体识别上。

**六、"脚本崩溃"：一个意外发现的有趣问题**

研究团队在实验过程中还意外发现了一个被他们称为"脚本崩溃"（Script Collapse）的现象，并为此引入了另一个评估指标——SFR（Script Fidelity Rate，脚本保真率），即识别结果中属于正确语言文字系统的字符占比。

具体来说，泰卢固语有自己独特的文字系统，卡纳达语也有，两者看起来相似但实际不同。原版Whisper-large-v3在处理泰卢固语音频时，有时会把输出"滑"到卡纳达文字或梵文（印地语使用的天城体字母），这种情况下转写结果从技术上看是合法的文字，但完全不是正确的语言，导致SFR只有0.46到0.71。

有趣的是，在图表数据中可以看到，原版Whisper-large-v3在泰卢固语上的EHR竟然高达0.560，比vasista22的0.027要高得多！但仔细看就会发现这是一个假象——它能"命中"实体，是因为实体里包含的数字和品牌名本来就用拉丁字母书写，即使转写语言混乱，数字部分还是对的。而vasista22之所以EHR接近于零，是因为它把脚本保真率守得很好（SFR=1.000），但没学过识别实体本身。换句话说，前者是"字写错了但数字对了"，后者是"字写对了但数字一个都认不出来"。

研究团队开发的Praxy-STT-r2（在原版Whisper-large-v3上加LoRA适配层）把泰卢固语的SFR从0.46~0.71提升到了0.81~0.97，同时WER也大幅改善。但这里有一个重要的警告：同样的LoRA配方用在印地语和泰米尔语上，效果完全相反。这两种语言的原版Whisper-large-v3根本不存在脚本崩溃问题（SFR始终≥0.98），强行加上LoRA之后不仅没有改善，还让WER恶化了20%到160%，SFR甚至跌到0.43。

这个发现催生了一个实用的工程建议：在决定是否对某个语言做LoRA微调之前，先用30条样本测一下原版模型的SFR。只有当SFR在两个以上测试集上都低于0.85时，才应该启用这套修复配方；否则就是画蛇添足，反而会破坏原本正常运作的系统。

**七、开源模型与商业系统在普通朗读上的正面较量**

除了实体密集场景，研究团队也比较了vasista22和Deepgram在普通朗读语音上的表现，使用了三个独立测试集：FLEURS（100条标准朗读片段）、Common Voice 25.0（86到3326条志愿者录音不等）和IndicVoices-General（100条对话/即兴发言片段）。

结果相当有趣：在不属于vasista22训练集的测试数据上，开源模型大约在一半的测试格中赢过或追平了商业系统。印地语CV25表现出了最大的开源优势（vasista22 0.278对比Deepgram 0.363）。泰米尔语在CV25格中Deepgram明显更好（0.246对比0.455），但在IV对话格中几乎持平。

值得一提的是，Deepgram在印地语上有一个脚本保真率问题：它的SFR在每个测试集上都只有0.83到0.87，这意味着它偶尔会用拉丁字母来转写印地语——而这个失误是vasista22从来不会犯的。总体来看，"商业溢价"在普通朗读场景下并不能保证全面胜出，开源系统在大约一半的测试条件下是有竞争力的替代方案。

**八、消融实验：证明合成数据才是真正的"秘密武器"**

为了彻底证明提升来自EDSA语料库本身，而不只是LoRA这个训练技术的功劳，研究团队做了一个对照实验：用完全相同的LoRA配方，但把训练数据换成FLEURS-Te的朗读语音（约2,281条，不含任何实体密集合成音频），然后在同一批Cartesia测试集上测试。

结果一目了然：使用FLEURS朗读数据训练的LoRA，在实体密集测试集上的EHR是0.020，比vasista22基线的0.027还略低。换句话说，LoRA这个工具本身并不会凭空产生实体识别能力，它只是一个传导机制——真正起作用的是EDSA合成语料库提供的训练信号。两者加在一起才产生了0.473的结果，去掉任何一个，实体识别能力就不复存在。

**九、真实的成本账单：50美元能买到什么**

研究团队在论文末尾列出了经过审计的真实支出：Anthropic Haiku-4.5用于生成实体文本花费13.95美元，Modal云平台的语料合成加上六套LoRA训练加上完整的评估矩阵共花费约130美元，Deepgram Nova-3的商业基线测试花费约5美元，ElevenLabs和Cartesia的合成部分使用的是免费额度。整个项目的实际总支出约241美元。

研究者特别指出，如果去掉商业TTS系统（ElevenLabs和Cartesia），只使用开源的Praxy R6和IndicF5来生成语音，系统的多样性会有所降低，但边际成本可以控制在50美元以下（主要是Modal的计算时间）。相比之下，如果用雇人来录制同等规模（22小时）的印度语实体密集语音，按印度市场标准报价约每分钟0.50美元，总成本约660美元，而且还要考虑数据质量控制和转录核验的额外时间。合成数据路径在成本上低了一到两个数量级，同时还保留了可控的数据质量过滤机制。

**十、诚实面对的局限性**

研究团队在论文的限制部分花了相当多篇幅，列举了这项研究的真实局限，读来颇为诚实。

首先，核心测试集只有102条合成语音（每语言），样本规模较小，无法代表工业部署所需的统计可信度。人工录制的验证只有20条句子，且来自单一说话者。研究者明确表示v2版本计划委托Karya平台进行多说话者、多录音环境的人工录制，这才是真正严格的迁移验证。

其次，整个体系没有汇报置信区间。研究结果的方向性是稳定的（多个测试集都指向同样的结论），但各格的具体数值存在未经正式量化的不确定性。

第三，商业系统只对比了Deepgram一家。ElevenLabs Scribe因为速率限制无法测试，Sarvam STT在评估时API状态不明确，所以都被排除了。此外，Deepgram开启了智能格式化（smart_format=true），会自动调整大小写和标点，这与其他系统的输出格式不完全对等，给跨系统比较带来了残余误差。

第四，实体密集测试集中有些类别（数字串、专有名词）在Cartesia持出集里的样本数为零，导致那些类别的per-class EHR无法报告。

第五，LoRA配方还有大量消融实验没做：比如合成数据比例从10%到90%的梯度测试、不同真实数据来源组合的效果对比。以研究团队当前的计算预算，这些实验（大约24次重训练）无法负担，所以没有进行。

飞轮的转速还远不够快——三种语言的EHR全部低于预先设定的目标（泰卢固语0.75、印地语和泰米尔语0.65），但从接近于零到0.337~0.543，这个跨越已经证明了方向是对的。对于那些需要在真实业务场景中处理印度语言语音的工程团队来说，这套以不到250美元总成本完成的方法论，或许比任何一个现有的商业API都更值得认真参考。

更宏观地看，这项研究给语音识别领域提出了一个值得持续思考的问题：当普通朗读场景已经接近饱和，下一个真正需要被解决的问题是什么？研究者的答案是：那些真实用户每天在说，但训练数据里几乎不存在的内容。不管是印度的电话号码，还是其他任何语言的专业术语和领域实体，这个"实体盲区"问题都不是印度语音识别独有的挑战，而是整个低资源、专业领域语音识别的共同困境。

有兴趣深入研究这个课题的读者，可以通过arXiv编号2605.03073查阅完整论文，也可以在GitHub上找到研究团队开放的全部代码、测试集、预测结果、EDSA语料库和实体词典（代码使用MIT许可证，数据使用CC-BY-4.0许可证）。六套LoRA适配器权重也在HuggingFace上以Apache-2.0许可证公开发布，可以直接下载使用或进行二次研究。

Q&A

Q1：实体命中率（EHR）和传统词错误率（WER）有什么区别？

A：传统词错误率只看字面是否匹配，把"五拉克"和"500000"当成完全不同的答案。EHR专为实体识别设计，能识别语义等价的不同表达形式：货币金额只要数值误差在0.5%以内就算对，品牌名允许大小写变化，专有名词允许音译差异。这样才能公平衡量模型是否真正"听懂"了实体内容，而不只是字面复述。

A：如果全部训练数据都来自同一个合成系统，STT模型可能只学会识别那个系统特有的发音腔调和声学特征，换一个声音来源就会失效。使用Praxy R6、Chatterbox、IndicF5、ElevenLabs和Cartesia五个系统，每个系统有不同的声线和声学分布，训练出的模型泛化能力更强，能应对不同说话者的真实语音。

Q3：为什么对印地语和泰米尔语做LoRA微调会让识别效果变差？

A：原版Whisper-large-v3在印地语和泰米尔语上本来就没有"脚本崩溃"问题，脚本保真率已经接近100%，模型运行良好。强行加上针对脚本修复设计的LoRA，相当于对一个正常工作的系统做了不必要的改造，引入了干扰而没有解决任何实际问题，结果词错误率恶化了20%到160%，脚本保真率反而下降。这个发现说明LoRA脚本修复配方只在存在真实脚本崩溃问题的语言（如泰卢固语）上才应该使用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.