网易首页 > 网易号 > 正文 申请入驻

Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半

0
分享至

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。

正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。

的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。

(来源:STEPHANIE ARNETT/MITTR | ENVATO)

他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。

“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”

“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”

研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。

他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。


然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子网购50条观赏鱼,到货只有一袋水!商家:怕鱼被冻死,放了加热包,路太远鱼被煮熟后分解了

男子网购50条观赏鱼,到货只有一袋水!商家:怕鱼被冻死,放了加热包,路太远鱼被煮熟后分解了

掌上春城
2025-11-14 12:38:41
资金用完!全国多地已暂停汽车报废更新补贴

资金用完!全国多地已暂停汽车报废更新补贴

极目新闻
2025-11-12 22:48:27
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
雷军大变脸,小米车主遭背刺,天塌了

雷军大变脸,小米车主遭背刺,天塌了

新浪财经
2025-11-13 20:48:47
南宁地铁站大便后续:眼镜男身份被扒,已社死,车企无辜遭牵连

南宁地铁站大便后续:眼镜男身份被扒,已社死,车企无辜遭牵连

鋭娱之乐
2025-11-14 12:41:34
背后不简单!取消访华、再砸165亿拆除5G,这个代价德国能承受吗?

背后不简单!取消访华、再砸165亿拆除5G,这个代价德国能承受吗?

白梦日记
2025-11-12 21:07:30
正在被饿死的县医院们

正在被饿死的县医院们

医脉圈
2025-11-12 12:14:28
反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

火山诗话
2025-11-14 07:08:14
英媒采访陈志合伙人和举报人:陈志曾亲口透露其净资产近人民币4300亿元

英媒采访陈志合伙人和举报人:陈志曾亲口透露其净资产近人民币4300亿元

霹雳炮
2025-11-13 22:34:10
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

奇思妙想草叶君
2025-11-13 22:05:49
河北一家五口遇害案未当庭宣判,被害人家属身穿印有遇害者照片T恤走出法院,律师:被告认罪认罚

河北一家五口遇害案未当庭宣判,被害人家属身穿印有遇害者照片T恤走出法院,律师:被告认罪认罚

极目新闻
2025-11-14 13:54:58
上海通报“绿捷食安事件”:已查明违法犯罪事实,公司8名责任人被依法执行逮捕

上海通报“绿捷食安事件”:已查明违法犯罪事实,公司8名责任人被依法执行逮捕

澎湃新闻
2025-11-14 14:08:43
大陆发布悬赏通告后,岛内网民的反应来了

大陆发布悬赏通告后,岛内网民的反应来了

参考消息
2025-11-13 21:19:09
腾讯选择在微信里“躺平”

腾讯选择在微信里“躺平”

36氪
2025-11-14 08:10:07
【专访】用“卷质量”、“卷服务”步入“卷2.0”的时代——上汽大众整车终身质保开启汽车服务新时代

【专访】用“卷质量”、“卷服务”步入“卷2.0”的时代——上汽大众整车终身质保开启汽车服务新时代

轿车情报
2025-04-08 15:57:27
主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

环球网资讯
2025-11-14 06:45:32
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
高市早苗发表涉台错误言论,中方密集发声!

高市早苗发表涉台错误言论,中方密集发声!

上游新闻
2025-11-14 15:11:04
这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

懂球帝
2025-11-14 12:03:09
2025-11-14 15:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15857文章数 514295关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

中方密集就日首相言论发声 孙卫东连用五个"严重"表态

头条要闻

中方密集就日首相言论发声 孙卫东连用五个"严重"表态

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

家居
教育
旅游
手机
公开课

家居要闻

现代简逸 寻找生活的光

教育要闻

上海市教委发布最新情况通报!关于“绿捷”事件!

旅游要闻

北京青龙峡景区11月17日起暂停对外开放

手机要闻

OPPO Find X9 Pro卫星通信版今日开售:天玑9500助力首款国产eSIM旗舰登场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版