网易首页 > 网易号 > 正文 申请入驻

Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半

0
分享至

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。

正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。

的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。

(来源:STEPHANIE ARNETT/MITTR | ENVATO)

他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。

“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”

“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”

研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。

他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。


然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梁小龙头七,徒弟集体守夜,前妻女儿现身治丧名单,陈光标也在

梁小龙头七,徒弟集体守夜,前妻女儿现身治丧名单,陈光标也在

叨唠
2026-01-21 21:07:00
新成立的应急管理大学,挂牌

新成立的应急管理大学,挂牌

澎湃新闻
2026-01-22 12:13:31
我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

千秋文化
2026-01-22 17:10:43
南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

武器纵论
2026-01-21 22:11:41
纽约德比13连胜!尼克斯54分狂胜篮网 布伦森20分引6人上双

纽约德比13连胜!尼克斯54分狂胜篮网 布伦森20分引6人上双

醉卧浮生
2026-01-22 10:56:10
李大双儿子周岁宴:金锁、金手镯太亮眼,豪宅曝光,妻子穿戴显眼

李大双儿子周岁宴:金锁、金手镯太亮眼,豪宅曝光,妻子穿戴显眼

八斗小先生
2026-01-22 14:26:44
A股宽基持续放量谜团揭晓,中央汇金出手了!密集赎回各大宽基ETF,最新持仓曝光

A股宽基持续放量谜团揭晓,中央汇金出手了!密集赎回各大宽基ETF,最新持仓曝光

金融界
2026-01-22 15:06:36
昔年混入红军的土匪头子,建国后毛主席指示贺晋年:此人一定要抓

昔年混入红军的土匪头子,建国后毛主席指示贺晋年:此人一定要抓

鹤羽说个事
2026-01-22 11:51:54
珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

罗说NBA
2026-01-22 06:59:25
2-0!3-0!中国男足双喜临门,U23和国足都赢了,邵佳一首秀完美

2-0!3-0!中国男足双喜临门,U23和国足都赢了,邵佳一首秀完美

绿茵舞着
2026-01-22 13:26:39
就在刚刚,36家A股上市公司发布重大利空 利好消息,看看都有哪些?

就在刚刚,36家A股上市公司发布重大利空 利好消息,看看都有哪些?

股市皆大事
2026-01-22 18:47:40
视源股份32岁程序员猝死:底薪3千24小时待岗,公司多岗位要求“抗压能力强”

视源股份32岁程序员猝死:底薪3千24小时待岗,公司多岗位要求“抗压能力强”

蓝鲸新闻
2026-01-22 19:26:26
猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

小徐讲八卦
2026-01-21 08:19:44
中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

史之铭
2026-01-18 17:31:05
1换1!交易达成!你好,天才十号秀!

1换1!交易达成!你好,天才十号秀!

篮球实战宝典
2026-01-22 15:30:28
赖清德弹劾会仅三位绿营民代出席,徐巧芯讽:替自己辩护都做不到

赖清德弹劾会仅三位绿营民代出席,徐巧芯讽:替自己辩护都做不到

海峡导报社
2026-01-22 17:34:18
宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

史之铭
2026-01-12 16:26:19
赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

土澳的故事
2026-01-20 22:21:57
喜家德水饺托盘被曝发霉存在大量霉斑,公司回应

喜家德水饺托盘被曝发霉存在大量霉斑,公司回应

大象新闻
2026-01-22 13:05:03
ESPN:湖人选中布朗尼,珍妮巴斯认为詹姆斯没有感恩球队!

ESPN:湖人选中布朗尼,珍妮巴斯认为詹姆斯没有感恩球队!

爱体育
2026-01-22 22:03:08
2026-01-22 22:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16165文章数 514519关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

艺术
家居
旅游
教育
健康

艺术要闻

一场雪,飘进了唐诗

家居要闻

法式风情 南洋中古居

旅游要闻

全球连线|跳民族舞、找阿诗玛,泰国姑娘探访世界遗产地云南石林

教育要闻

青春不应是一张模糊的脸!技术赋能,成都这所中学让每一分成长真实可见

打工人年终总结!健康通关=赢麻了

无障碍浏览 进入关怀版