网易首页 > 网易号 > 正文 申请入驻

aiOla发布Drax模型,在噪音环境中实现可靠的AI语音识别

0
分享至


人工智能创业公司aiOla表示,它已准备好在语音识别领域与OpenAI集团和阿里巴巴控股等巨头展开竞争,推出了一款基于流匹配训练技术的新型语音AI模型。

这款新模型被称为Drax,它重新定义了AI语音算法的训练方式,能够更好地捕捉真实环境中语音的细微差别。据该创业公司介绍,这使得该模型能够消除当今最佳语音模型的延迟和不准确性。该公司声称,Drax能够在最嘈杂的环境中识别口语单词,其准确性和低延迟性能都超越了以往任何产品——包括OpenAI的Whisper和阿里巴巴的Qwen2。

该创业公司表示,其目标是变革AI驱动的语音识别技术,使其足够可靠,能够在日常生活和商业环境中使用。目前,现有的AI模型还无法很好地满足这一需求,因为它们的训练方式意味着必须在速度或性能之间做出牺牲。

据aiOla介绍,OpenAI的Whisper表现令人印象深刻,但其准确性源于逐个Token处理语音的方式,这种方式太慢,在许多情况下无法发挥实用价值。虽然对于录制简短笔记或听写很有用,但Whisper难以跟上长篇音频,比如长达一小时的办公室会议或可能拖延很久的复杂客户通话。

为了提高语音识别的速度,OpenAI的一些竞争对手转而研究使用基于扩散的模型,这种模型可以同时处理多个Token。阿里巴巴是这一领域的领导者之一,其Qwen2系统比Whisper快得多,但在准确性方面难以匹敌。部分问题在于,它是在干净、理想化的数据上训练的,而不是在真实环境中听到的嘈杂且不可预测的语音上训练,这些语音可能会在一定程度上被背景中的窃窃私语或嘈杂的办公室环境所淹没。

基于并行流处理

通过Drax,AIOla表示已经找到了一种训练语音识别系统的新颖技术,最终能够在速度和准确性之间取得正确的平衡。与试图从随机噪音中提炼图片的扩散模型类似,Drax试图从嘈杂的表示中重构人类语音。

训练过程涉及一个三步概率路径,首先从无意义的噪音开始,然后过渡到"类似语音"但仍不完美的中间状态。这使Drax接触到现实世界中发生的现实、声学上合理的错误,提高了它在背景噪音中理解语音的能力,包括带口音的语音。最后,它将收敛到清晰正确的转录文本。

AI副总裁Gil Hetz表示,在语音技术的最关键应用中,不允许出现任何错误。例如,如果AI聊天机器人无法理解人们试图告诉它的内容,公司就无法使用AI聊天机器人来处理客户支持。它需要在所有情况下都可靠的技术。

"这就是为什么Drax是如此重大的突破,"他说。"它结合了准确性和速度,没有妥协,能够处理真实世界的语音,无论背景噪音、口音或术语如何。"

虽然OpenAI的Whisper和大多数其他自动语音识别模型按顺序处理口语单词,一次预测一个Token,但Drax可以并行输出整个Token序列,一次性捕捉整个对话。该公司称这是训练语音模型的"并行、基于流的方法",成功消除了延迟,同时防止了在较长转录过程中发生的复合错误。

该创业公司认为Drax是一个重大发展,因为语音是迄今为止最自然、最高效的数据输入媒介,很可能成为人类与机器沟通的默认方式。目前这种情况尚未发生,因为AI转录无法跟上节奏。但Drax承诺会有所不同。

"我们正在缩小这一差距,使语音技术在大规模应用中真正实用,"aiOla总裁Amir Haramty说。"这就是为什么推进语音识别如此重要——这是企业的未来。"

开源发布

该创业公司表示,它正在GitHub和Hugging Face上以宽松的开源许可证提供Drax,有三种模型规模可供选择。它们包括轻量级Flash版本、中等规模模型和全规模基础模型,因此可以在处理能力最小的低功耗设备上运行,或者在云端大规模运行。

"通过开源,我们希望激发社区的进一步发现和协作,"aiOla首席科学家Yossi Keshet说。

与模型一起,aiOla发布了显示Drax与主要竞争对手性能对比的研究。该公司称,在英语基准测试中,Drax的平均词错误率为7.4%,领先于OpenAI的Whisper-large-v3,后者达到了7.6%。该公司表示,它在各种选定数据集上也优于Whisper和阿里巴巴的Qwen2-audio,同时运行速度快达32倍。在法语、德语、中文和西班牙语基准测试中,它保持了相当或更好的准确性,同时保持了相似的性能水平。

该创业公司最终希望看到Drax在企业中得到广泛采用,并以语音速度运行几乎任何业务流程。它设想了一个世界,其中AI智能体能够理解自然语言命令并将其转换为结构化数据和现实世界的任务执行,即使在嘈杂且充满术语的环境中也是如此。

Q&A

Q1:Drax语音识别模型有什么特别之处?

A:Drax是aiOla公司开发的AI语音识别模型,采用了基于流匹配的新型训练技术。它能够在速度和准确性之间取得完美平衡,在最嘈杂的环境中也能准确识别语音,同时保持低延迟。与传统模型逐个Token处理不同,Drax可以并行输出整个Token序列,运行速度比竞争对手快达32倍。

Q2:Drax与OpenAI的Whisper和阿里巴巴的Qwen2相比有何优势?

A:在准确性方面,Drax在英语基准测试中的平均词错误率为7.4%,略优于Whisper-large-v3的7.6%。在速度方面,Drax比现有模型快达32倍。Whisper虽然准确但处理速度慢,难以应对长时间音频;Qwen2速度快但准确性不足。Drax成功解决了这一矛盾,在保持高准确性的同时实现了高速处理。

Q3:普通用户如何使用Drax模型?

A:aiOla已经在GitHub和Hugging Face平台上以开源许可证发布了Drax模型,提供三种不同规模的版本:轻量级Flash版本、中等规模模型和全规模基础模型。用户可以根据设备性能选择合适的版本,既可以在低功耗设备上运行,也可以在云端大规模部署。开源发布旨在促进社区的进一步研究和协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乱套了!男单8强赛出炉,世界冠军2-3被淘汰,林昀儒下轮对阵确定

乱套了!男单8强赛出炉,世界冠军2-3被淘汰,林昀儒下轮对阵确定

卿子书
2026-01-09 08:44:25
郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

无心小姐姐
2026-01-09 17:46:24
2月1日起,北京超市买菜要身份证?为啥没身份证的肉蛋蔬菜别买

2月1日起,北京超市买菜要身份证?为啥没身份证的肉蛋蔬菜别买

三农雷哥
2026-01-09 21:29:54
别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

知识圈
2026-01-09 20:01:22
万科创始人王石妻子疑似评论郁亮“抓”

万科创始人王石妻子疑似评论郁亮“抓”

地产微资讯
2026-01-09 18:00:51
太原一康养公寓经理电梯内死亡,董事长取保期间涉该起命案被收押

太原一康养公寓经理电梯内死亡,董事长取保期间涉该起命案被收押

澎湃新闻
2026-01-09 17:08:29
“一家三口被撞亡案”被告廖某宇被判死缓,被害人母亲:他面无表情,其父全程戴口罩;被害人律师:将会申请抗诉

“一家三口被撞亡案”被告廖某宇被判死缓,被害人母亲:他面无表情,其父全程戴口罩;被害人律师:将会申请抗诉

极目新闻
2026-01-09 11:19:24
山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

极目新闻
2026-01-09 12:45:05
伊朗步入十字路口:抗议者焚烧革命卫队总部!撕毁哈梅内伊肖像

伊朗步入十字路口:抗议者焚烧革命卫队总部!撕毁哈梅内伊肖像

项鹏飞
2026-01-09 19:37:50
英伟达一夜蒸发989亿,逼中方全款买单!特朗普:世界秩序已消亡

英伟达一夜蒸发989亿,逼中方全款买单!特朗普:世界秩序已消亡

影孖看世界
2026-01-09 16:47:54
美女老板食言6天后 某车企砸200万赠永州队13台车 湘超卫冕继续送

美女老板食言6天后 某车企砸200万赠永州队13台车 湘超卫冕继续送

我爱英超
2026-01-09 20:21:47
冲突升级!美抓捕影子油轮与俄核潜艇大西洋对峙,强行登船扣船

冲突升级!美抓捕影子油轮与俄核潜艇大西洋对峙,强行登船扣船

史政先锋
2026-01-08 12:50:30
闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

奇思妙想草叶君
2026-01-08 22:47:02
这么冷,那么贵:河北农村的第八个寒冬

这么冷,那么贵:河北农村的第八个寒冬

水瓶纪元
2026-01-07 18:27:32
李在明访华刚回国,就通告全球,与高市共进晚餐,3亿大单白签?

李在明访华刚回国,就通告全球,与高市共进晚餐,3亿大单白签?

南宫一二
2026-01-09 17:57:40
周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

懂球帝
2026-01-09 19:34:07
彭清华会见伊朗确定国家利益委员会考察团

彭清华会见伊朗确定国家利益委员会考察团

新华社
2026-01-09 20:27:05
看到委内瑞拉的情况,李显龙在怕什么?

看到委内瑞拉的情况,李显龙在怕什么?

新民周刊
2026-01-09 09:09:48
特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

博览历史
2026-01-09 18:17:28
中国通告全球对日下禁令,日本威胁反击,高市早苗手上仅剩一张牌

中国通告全球对日下禁令,日本威胁反击,高市早苗手上仅剩一张牌

博览历史
2026-01-09 18:05:34
2026-01-10 06:51:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15370文章数 49684关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

特朗普:美扣押一艘离开委内瑞拉油轮 石油将出售

头条要闻

特朗普:美扣押一艘离开委内瑞拉油轮 石油将出售

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

本地
旅游
艺术
家居
房产

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

想看雾凇别瞎跑!吉林阿什哈达这 5 个观赏秘诀,帮你避开空跑遗憾

艺术要闻

15位著名画家的女性之美:哪一张触动了你的心?

家居要闻

木色留白 演绎现代自由

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

无障碍浏览 进入关怀版