网易首页 > 网易号 > 正文 申请入驻

Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半

0
分享至

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。

正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。

的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。

(来源:STEPHANIE ARNETT/MITTR | ENVATO)

他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。

“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”

“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”

研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。

他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。


然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突传死讯!39岁“东邪”李镇东去世,多次登央视,疑过度熬夜导致

突传死讯!39岁“东邪”李镇东去世,多次登央视,疑过度熬夜导致

裕丰娱间说
2025-11-16 08:53:27
受贿1.17亿、侵吞168万,黑龙江省人大常委会原副主任李显刚被判无期

受贿1.17亿、侵吞168万,黑龙江省人大常委会原副主任李显刚被判无期

界面新闻
2025-11-17 17:26:00
0-3!全运会新争议:国乒名将输球摔拍泄愤,对手大度帮他捡起来

0-3!全运会新争议:国乒名将输球摔拍泄愤,对手大度帮他捡起来

篮球看比赛
2025-11-17 11:41:44
重磅!朝鲜将在台海爆发战争时保卫中国,以防美国及其盟友参战

重磅!朝鲜将在台海爆发战争时保卫中国,以防美国及其盟友参战

环球热点快评
2025-11-17 16:31:34
网传71岁成龙去世,最新消息来了

网传71岁成龙去世,最新消息来了

台州交通广播
2025-11-17 01:13:46
刚刚!杨兰兰澳洲案惊天逆转! 开庭后律师一句话让全场哗然! 所有人都难以置信,不认!

刚刚!杨兰兰澳洲案惊天逆转! 开庭后律师一句话让全场哗然! 所有人都难以置信,不认!

澳洲红领巾
2025-11-17 11:27:48
KD35+5+6中关键球火箭OT险胜魔术4连胜,申京30+13+8

KD35+5+6中关键球火箭OT险胜魔术4连胜,申京30+13+8

湖人崛起
2025-11-17 11:03:46
G联赛:杨瀚森21+9+3+3帽连中两记续命三分 混音惜败吞首败

G联赛:杨瀚森21+9+3+3帽连中两记续命三分 混音惜败吞首败

醉卧浮生
2025-11-17 11:23:37
茅台紧急制动:谁敢超过1499指导价就关店!五粮液:新建850家直营

茅台紧急制动:谁敢超过1499指导价就关店!五粮液:新建850家直营

户外钓鱼哥阿旱
2025-11-17 13:54:38
遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

我爱英超
2025-11-17 07:45:51
血迹太空可见,苏丹这场大屠杀何以发生?

血迹太空可见,苏丹这场大屠杀何以发生?

新京报
2025-11-17 13:13:52
高市早苗的面相:阴阳蛇相三角克夫克家,所以丈夫瘫痪,没有子女

高市早苗的面相:阴阳蛇相三角克夫克家,所以丈夫瘫痪,没有子女

风月观主
2025-11-17 11:54:57
海航杭州飞北京航班降落时复飞,乘客称遇大风飞机一直颠簸,有小孩哭还有人呕吐,航司回应

海航杭州飞北京航班降落时复飞,乘客称遇大风飞机一直颠簸,有小孩哭还有人呕吐,航司回应

极目新闻
2025-11-17 14:58:37
为何西贝没垮,罗永浩乱拳打死了绿捷?

为何西贝没垮,罗永浩乱拳打死了绿捷?

智识漂流
2025-11-17 07:05:16
1963年,许光达做眼部手术,被碰伤角膜,给予中央保健局三条指示

1963年,许光达做眼部手术,被碰伤角膜,给予中央保健局三条指示

大运河时空
2025-11-16 17:40:02
钱没白出,中方援助菲灾民后,菲媒回馈一份大礼:黄岩岛主权属华

钱没白出,中方援助菲灾民后,菲媒回馈一份大礼:黄岩岛主权属华

时时有聊
2025-11-16 19:27:52
单县县委原常委、县政府原党组副书记、副县长吕玉民被“双开”

单县县委原常委、县政府原党组副书记、副县长吕玉民被“双开”

鲁中晨报
2025-11-17 16:49:02
中方反制开始,高市支持率不降反升,近半数民众赞成武力介入台海

中方反制开始,高市支持率不降反升,近半数民众赞成武力介入台海

时时有聊
2025-11-17 07:32:57
学生网购40件演出服,7天后成功退货,校方回应来了!商家:都脏得没法再次销售;有商家防“蹭穿”绝招亮了

学生网购40件演出服,7天后成功退货,校方回应来了!商家:都脏得没法再次销售;有商家防“蹭穿”绝招亮了

每日经济新闻
2025-11-17 16:51:08
突发!多部日本电影撤档,发行人员透露“下午临时接到通知”

突发!多部日本电影撤档,发行人员透露“下午临时接到通知”

极目新闻
2025-11-17 17:07:38
2025-11-17 19:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15867文章数 514305关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

媒体:日本着急派高官来华背后 中方回应有两罕见用词

头条要闻

媒体:日本着急派高官来华背后 中方回应有两罕见用词

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

教育
健康
本地
数码
公开课

教育要闻

“行走的50万!”老师讲抗战被家长举报:我女儿可是中日混血!

血液科专家揭秘白血病七大误区

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

锐龙AI Max+ 395领衔!AMD启动中国高校AI教育“春雨”计划

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版