网易首页 > 网易号 > 正文 申请入驻

Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半

0
分享至

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。

正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。

的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。

(来源:STEPHANIE ARNETT/MITTR | ENVATO)

他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。

“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”

“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”

研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。

他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。


然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

懂球帝
2026-05-06 13:54:47
“李大嘴终于娶了佟湘玉!”戏里戏外都是暖男,和妻子蜗居45平小屋也幸福

“李大嘴终于娶了佟湘玉!”戏里戏外都是暖男,和妻子蜗居45平小屋也幸福

二胡的岁月如歌
2026-05-06 08:33:17
专家一致认为马拉多纳并非猝死,而是有长时间濒死期的迹象

专家一致认为马拉多纳并非猝死,而是有长时间濒死期的迹象

林子说事
2026-05-06 14:42:16
恭喜!国乒21岁王牌复苏轰3-0:霸气握拳庆祝,王皓等到他觉醒

恭喜!国乒21岁王牌复苏轰3-0:霸气握拳庆祝,王皓等到他觉醒

李喜林篮球绝杀
2026-05-06 19:11:33
她是武官之女,22岁与姐夫私奔,共患难15年,姐夫说:我们不合适

她是武官之女,22岁与姐夫私奔,共患难15年,姐夫说:我们不合适

史之铭
2026-05-07 00:42:17
格力五位大佬轮番上阵,如今全落马!董明珠为何能笑到最后?

格力五位大佬轮番上阵,如今全落马!董明珠为何能笑到最后?

荒野老五
2026-05-07 04:09:17
那个从华莱士出走的“叛徒”,如今带着10000家店,强势归来

那个从华莱士出走的“叛徒”,如今带着10000家店,强势归来

凡人说体育
2026-03-18 19:37:41
老了才明白:尽量不要跟身边任何人!包括你的亲人,分享这5件事

老了才明白:尽量不要跟身边任何人!包括你的亲人,分享这5件事

三农老历
2026-04-30 18:20:46
新加坡主帅:希望挑战强队走出舒适区,对阵中国队是宝贵机会

新加坡主帅:希望挑战强队走出舒适区,对阵中国队是宝贵机会

懂球帝
2026-05-06 22:24:01
第48届东盟峰会将于本周在菲律宾举行,中方是否派遣代表团?外交部回应

第48届东盟峰会将于本周在菲律宾举行,中方是否派遣代表团?外交部回应

北青网-北京青年报
2026-05-06 20:00:05
北京17岁女学生教室产子,孩子生父身份曝光后,父母崩溃了

北京17岁女学生教室产子,孩子生父身份曝光后,父母崩溃了

清茶浅谈
2025-04-16 13:39:37
五粮液:五粮液集团拟增持公司股票30亿至50亿元,不设定价格区间

五粮液:五粮液集团拟增持公司股票30亿至50亿元,不设定价格区间

澎湃新闻
2026-05-06 21:08:28
警惕,日本向南海发射两枚反舰导弹,精准命中一艘军舰

警惕,日本向南海发射两枚反舰导弹,精准命中一艘军舰

爱吃醋的猫咪
2026-05-06 20:48:49
女子川东第一高瀑体验荡秋千坠亡,跌落前惊呼四遍“绳子没拴紧”,律师称家属可获赔约100万,责任人最高可判7年

女子川东第一高瀑体验荡秋千坠亡,跌落前惊呼四遍“绳子没拴紧”,律师称家属可获赔约100万,责任人最高可判7年

大风新闻
2026-05-06 20:18:12
连续两个赛季进入欧冠决赛,巴黎是本世纪第五队

连续两个赛季进入欧冠决赛,巴黎是本世纪第五队

懂球帝
2026-05-07 05:18:09
花几百万,换17岁男孩的血?

花几百万,换17岁男孩的血?

中国新闻周刊
2026-05-04 12:36:50
两性关系:女人最爱这2种肢体触摸,99%女人都会动情

两性关系:女人最爱这2种肢体触摸,99%女人都会动情

皓皓情感说
2026-05-05 10:06:10
詹俊:拜仁的中场控制和协防差一些,巴黎快攻独步江湖

詹俊:拜仁的中场控制和协防差一些,巴黎快攻独步江湖

懂球帝
2026-05-07 05:37:07
中美同时向全球下达禁令,各国都傻眼了!美媒:中国此举史无前例

中美同时向全球下达禁令,各国都傻眼了!美媒:中国此举史无前例

桑启红原
2026-05-06 05:00:41
俄媒:中国重庆至莫斯科航班因无人机威胁紧急迫降!

俄媒:中国重庆至莫斯科航班因无人机威胁紧急迫降!

达文西看世界
2026-05-06 13:44:36
2026-05-07 05:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16668文章数 514923关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

手机
亲子
时尚
教育
军事航空

手机要闻

红米Turbo 6 Max硬刚iQOO Neo12,谁才是卷王?

亲子要闻

国家儿童医学中心和区域医疗中心双双扩容,分布在这些省份

有些路,不必每一步都走得那么用力

教育要闻

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版