网易首页 > 网易号 > 正文 申请入驻

aiOla发布Drax模型,在噪音环境中实现可靠的AI语音识别

0
分享至


人工智能创业公司aiOla表示,它已准备好在语音识别领域与OpenAI集团和阿里巴巴控股等巨头展开竞争,推出了一款基于流匹配训练技术的新型语音AI模型。

这款新模型被称为Drax,它重新定义了AI语音算法的训练方式,能够更好地捕捉真实环境中语音的细微差别。据该创业公司介绍,这使得该模型能够消除当今最佳语音模型的延迟和不准确性。该公司声称,Drax能够在最嘈杂的环境中识别口语单词,其准确性和低延迟性能都超越了以往任何产品——包括OpenAI的Whisper和阿里巴巴的Qwen2。

该创业公司表示,其目标是变革AI驱动的语音识别技术,使其足够可靠,能够在日常生活和商业环境中使用。目前,现有的AI模型还无法很好地满足这一需求,因为它们的训练方式意味着必须在速度或性能之间做出牺牲。

据aiOla介绍,OpenAI的Whisper表现令人印象深刻,但其准确性源于逐个Token处理语音的方式,这种方式太慢,在许多情况下无法发挥实用价值。虽然对于录制简短笔记或听写很有用,但Whisper难以跟上长篇音频,比如长达一小时的办公室会议或可能拖延很久的复杂客户通话。

为了提高语音识别的速度,OpenAI的一些竞争对手转而研究使用基于扩散的模型,这种模型可以同时处理多个Token。阿里巴巴是这一领域的领导者之一,其Qwen2系统比Whisper快得多,但在准确性方面难以匹敌。部分问题在于,它是在干净、理想化的数据上训练的,而不是在真实环境中听到的嘈杂且不可预测的语音上训练,这些语音可能会在一定程度上被背景中的窃窃私语或嘈杂的办公室环境所淹没。

基于并行流处理

通过Drax,AIOla表示已经找到了一种训练语音识别系统的新颖技术,最终能够在速度和准确性之间取得正确的平衡。与试图从随机噪音中提炼图片的扩散模型类似,Drax试图从嘈杂的表示中重构人类语音。

训练过程涉及一个三步概率路径,首先从无意义的噪音开始,然后过渡到"类似语音"但仍不完美的中间状态。这使Drax接触到现实世界中发生的现实、声学上合理的错误,提高了它在背景噪音中理解语音的能力,包括带口音的语音。最后,它将收敛到清晰正确的转录文本。

AI副总裁Gil Hetz表示,在语音技术的最关键应用中,不允许出现任何错误。例如,如果AI聊天机器人无法理解人们试图告诉它的内容,公司就无法使用AI聊天机器人来处理客户支持。它需要在所有情况下都可靠的技术。

"这就是为什么Drax是如此重大的突破,"他说。"它结合了准确性和速度,没有妥协,能够处理真实世界的语音,无论背景噪音、口音或术语如何。"

虽然OpenAI的Whisper和大多数其他自动语音识别模型按顺序处理口语单词,一次预测一个Token,但Drax可以并行输出整个Token序列,一次性捕捉整个对话。该公司称这是训练语音模型的"并行、基于流的方法",成功消除了延迟,同时防止了在较长转录过程中发生的复合错误。

该创业公司认为Drax是一个重大发展,因为语音是迄今为止最自然、最高效的数据输入媒介,很可能成为人类与机器沟通的默认方式。目前这种情况尚未发生,因为AI转录无法跟上节奏。但Drax承诺会有所不同。

"我们正在缩小这一差距,使语音技术在大规模应用中真正实用,"aiOla总裁Amir Haramty说。"这就是为什么推进语音识别如此重要——这是企业的未来。"

开源发布

该创业公司表示,它正在GitHub和Hugging Face上以宽松的开源许可证提供Drax,有三种模型规模可供选择。它们包括轻量级Flash版本、中等规模模型和全规模基础模型,因此可以在处理能力最小的低功耗设备上运行,或者在云端大规模运行。

"通过开源,我们希望激发社区的进一步发现和协作,"aiOla首席科学家Yossi Keshet说。

与模型一起,aiOla发布了显示Drax与主要竞争对手性能对比的研究。该公司称,在英语基准测试中,Drax的平均词错误率为7.4%,领先于OpenAI的Whisper-large-v3,后者达到了7.6%。该公司表示,它在各种选定数据集上也优于Whisper和阿里巴巴的Qwen2-audio,同时运行速度快达32倍。在法语、德语、中文和西班牙语基准测试中,它保持了相当或更好的准确性,同时保持了相似的性能水平。

该创业公司最终希望看到Drax在企业中得到广泛采用,并以语音速度运行几乎任何业务流程。它设想了一个世界,其中AI智能体能够理解自然语言命令并将其转换为结构化数据和现实世界的任务执行,即使在嘈杂且充满术语的环境中也是如此。

Q&A

Q1:Drax语音识别模型有什么特别之处?

A:Drax是aiOla公司开发的AI语音识别模型,采用了基于流匹配的新型训练技术。它能够在速度和准确性之间取得完美平衡,在最嘈杂的环境中也能准确识别语音,同时保持低延迟。与传统模型逐个Token处理不同,Drax可以并行输出整个Token序列,运行速度比竞争对手快达32倍。

Q2:Drax与OpenAI的Whisper和阿里巴巴的Qwen2相比有何优势?

A:在准确性方面,Drax在英语基准测试中的平均词错误率为7.4%,略优于Whisper-large-v3的7.6%。在速度方面,Drax比现有模型快达32倍。Whisper虽然准确但处理速度慢,难以应对长时间音频;Qwen2速度快但准确性不足。Drax成功解决了这一矛盾,在保持高准确性的同时实现了高速处理。

Q3:普通用户如何使用Drax模型?

A:aiOla已经在GitHub和Hugging Face平台上以开源许可证发布了Drax模型,提供三种不同规模的版本:轻量级Flash版本、中等规模模型和全规模基础模型。用户可以根据设备性能选择合适的版本,既可以在低功耗设备上运行,也可以在云端大规模部署。开源发布旨在促进社区的进一步研究和协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
17年无冠!哈登直言骑士争冠还很遥远:健康运气缺一不可

17年无冠!哈登直言骑士争冠还很遥远:健康运气缺一不可

仰卧撑FTUer
2026-03-07 08:31:25
中兴通讯2025年报发布:营收1339亿元创历史新高

中兴通讯2025年报发布:营收1339亿元创历史新高

快科技
2026-03-07 10:19:05
太惨了!米兰大将遭爆头门牙齐飞,下巴骨折恐无缘世界杯

太惨了!米兰大将遭爆头门牙齐飞,下巴骨折恐无缘世界杯

仰卧撑FTUer
2026-03-06 19:35:04
中国驻岘港总领馆:部分中国公民因参与当地黄赌毒、民间借贷等遭遇消费陷阱、殴打拘禁、威胁恐吓等问题,请在越中国公民提高警惕

中国驻岘港总领馆:部分中国公民因参与当地黄赌毒、民间借贷等遭遇消费陷阱、殴打拘禁、威胁恐吓等问题,请在越中国公民提高警惕

环球网资讯
2026-03-06 17:45:43
回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

新时代的两性情感
2026-02-23 18:01:52
里程碑之夜!克莱7记三分追平雷-阿伦,独行侠1分惜败魔术

里程碑之夜!克莱7记三分追平雷-阿伦,独行侠1分惜败魔术

大眼瞄世界
2026-03-06 11:39:46
军工景气度上行!军费增速定调,核心赛道与龙头股曝光!

军工景气度上行!军费增速定调,核心赛道与龙头股曝光!

小白鸽财经
2026-03-06 20:30:03
挂断王毅电话后,以色列大军突然向北进攻,第二场大战爆发

挂断王毅电话后,以色列大军突然向北进攻,第二场大战爆发

Ck的蜜糖
2026-03-04 17:58:13
75岁张纪中为7岁儿子庆生,4个孩子排开坐,44岁妻子主持大局

75岁张纪中为7岁儿子庆生,4个孩子排开坐,44岁妻子主持大局

素素娱乐
2026-03-06 09:01:37
比姆贝莫还拉跨!曼联核心毫无斗志,卡里克必须果断弃用

比姆贝莫还拉跨!曼联核心毫无斗志,卡里克必须果断弃用

澜归序
2026-03-07 04:55:44
一汽丰田全系推春日限时福利 购车至高补贴2万元

一汽丰田全系推春日限时福利 购车至高补贴2万元

答答买车
2026-03-07 10:10:19
西班牙拟派护卫舰向塞浦路斯提供防御支持

西班牙拟派护卫舰向塞浦路斯提供防御支持

新华社
2026-03-05 21:52:05
制衣厂抢人月薪轻松过万?工人:一天15小时,吃饭只给10分钟……

制衣厂抢人月薪轻松过万?工人:一天15小时,吃饭只给10分钟……

柴狗夫斯基
2026-03-06 11:00:21
穿“鸟”的人少了,穿“山”的人多了?商场这一幕,太真实了

穿“鸟”的人少了,穿“山”的人多了?商场这一幕,太真实了

白色得季节
2026-03-06 10:44:56
上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

浩舞纆画
2026-03-05 18:41:23
美军B2轰炸机来了,伊朗外长致电王毅,提一个请求,中方斩钉截铁

美军B2轰炸机来了,伊朗外长致电王毅,提一个请求,中方斩钉截铁

面包夹知识
2026-03-06 14:15:50
战争升级:一吨弹头砸向特拉维夫,白宫电话打爆,日本蠢蠢欲动

战争升级:一吨弹头砸向特拉维夫,白宫电话打爆,日本蠢蠢欲动

井普椿的独白
2026-03-06 14:31:46
家族聚会,姑妈把我赶走,姑父领导看见我后,走到我面前向我问好

家族聚会,姑妈把我赶走,姑父领导看见我后,走到我面前向我问好

奶茶麦子
2026-03-05 23:14:12
为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

大鱼简科
2026-02-15 22:00:23
军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

唠叨说历史
2026-03-03 11:55:40
2026-03-07 10:48:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16583文章数 49694关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

体育要闻

中国象棋,正在被一个越南人攻陷?

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

亲子
家居
本地
数码
公开课

亲子要闻

中医4招帮你稳住情绪,宝妈情绪崩溃不是矫情!

家居要闻

暖棕撞色 轻法奶油风

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

英特尔酷睿Ultra 5 250K Plus处理器PassMark跑分曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版