网易首页 > 网易号 > 正文 申请入驻

100种语言任意翻译!科幻电影中的“巴别鱼”,Meta用AI实现了

0
分享至

在科幻小说《银河系漫游指南》中,作家道格拉斯·亚当斯描绘了一种神奇的宇宙生物——巴别鱼,它以脑电波能量为生,能够使人们在将其塞进耳朵后,即刻理解任何语言的内容,轻松与外星人交流。同名电影也已于 2005 年上映。

自从小说问世以来,“巴别鱼”便成为了即时语音翻译的象征。然而,当时人类的翻译技术距离这一设想仍有很大的差距,始终未出现统一的语音到语音翻译模型。

如今,科幻电影中的“巴别鱼”,Meta 用 AI 真的实现了——推出大规模多语言和多模态机器翻译模型——SeamlessM4T。

据介绍,SeamlessM4T 可以在语音和文本之间实现即时翻译和转录,支持以下五种功能:

  • 近 100 种语言的自动语音识别;
  • 近 100 种输入和输出语言的语音到文本翻译;
  • 语音到语音翻译,支持近 100 种输入语言和 35 种(加上英语)输出语言;
  • 近 100 种语言的文本到文本翻译;
  • 文本到语音翻译,支持近 100 种输入语言和 35 种(加上英语)输出语言。

为了构建这一模型,Meta 重新设计了 Fairseq 序列建模工具包,从而创建更轻量级的模型,处理更多信息。

在模型方面,Meta 采用了多任务 UnitY 模型架构,这一架构能够直接生成翻译文本和语音。这个新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译,这些功能已经成为基本 UnitY 模型的一部分。多任务 UnitY 模型由三个主要的顺序组件组成,其中文本和语音编码器负责识别近 100 种语言的语音输入。随后,文本解码器将这一意义转化为近 100 种语言的文本,然后是文本到单元模型,用于将其解码为 36 种语音语言的离散声学单元。

为了提高模型质量和训练稳定性,自监督编码器、语音到文本、文本到文本翻译组件以及文本到单元模型都经过预训练。最终,解码得到的离散单元通过多语言 HiFi-GAN 单元声码器转化为语音。

利用自监督语音编码器 w2v-BERT 2.0,研究人员分析了数百万小时的多语种语音来学习在语音中找到结构和含义。该编码器可以接收音频信号,将其分解为较小的部分,并构建所述内容的内部表示。由于口语词汇由许多声音和字符组成,研究人员使用长度适配器将它们大致映射到实际单词中。

同样,Meta 利用一个基于 NLLB 模型的文本编码器,将其训练成能够理解近 100 种语言的文本,并生成对于翻译有用的表示。

Meta AI 于2022年在一篇名为“No Language Left Behind: Scaling Human-Centered Machine Translation”的论文中提出了 NLLB 模型,该模型支持 200 种语言,是一种多语言机器翻译系统。

经过训练的文本解码器能够接收编码的语音表示或文本表示。这可应用于同一语言的任务,如自动语音识别和多语种翻译任务。例如,有人可以说法语中的“bonjour”,然后期望斯瓦希里语中的翻译文本是“habari”。通过多任务训练,Meta 利用 NLLB 模型来通过 token 级别的知识蒸馏,来引导他们的语音到文本翻译模型。

另外,Meta 使用声学单元来表示目标语音。UnitY 模型中的文本到单元(T2U)组件根据文本输出生成这些离散的语音单元,并在 UnitY 微调之前在 ASR 数据上进行了预训练。然后,使用多语言 HiFi-GAN 单元声码器将这些离散单元转换为音频波形。

在上述功能的加持下,SeamlessM4T 可以识别说话者何时进行代码切换,或者何时在一句话中在两种或更多语言之间切换

此外,Meta 还构建了一个可涵盖 200 种语言的多语言多模态文本嵌入空间——SONAR。然后,利用师生方法将其扩展到语音领域,涵盖 36 种语言。通过在网络数据和语音数据中进行挖掘,他们自动对齐了超过 443000 小时的语音和文本,并创造了 29000 小时的语音对齐数据。这个名为 SeamlessAlign 的语料库是迄今最大的开放式语音、语音和语音以及文本平行语料库。

测评结果显示,SeamlessM4T 在近 100 种语言中实现了最先进的结果,并跨自动语音识别、语音到文本、语音到语音、文本到语音以及文本到文本翻译的多任务支持,全部由单一模型完成。此外,Meta 还显著提升了对低资源和中资源语言的性能,同时在高资源语言上保持了强大的表现。

为了更准确地评估系统,不仅依赖于基于文本的度量标准,Meta 将无文本度量标准扩展到了 BLASER 2.0,这使得在语音和文本单元之间进行评估时,与其前身相比能够获得类似的准确性。在鲁棒性测试中,与当前最先进的模型相比,该系统在语音到文本任务中对抗背景噪音和说话者变化的性能表现更好(分别平均提升了 37% 和 48% )。

确保翻译系统准确性至关重要,Meta 采用负责任的 AI 框架,通过研究毒性和偏见等敏感问题,来提升模型表现。他们也在语音中扩展了多语言毒性分类器,过滤了不平衡的毒性训练数据。此外,他们还在性别偏见方面进行评估,并努力改进模型以减少毒性。未来,他们将持续致力于安全性和可靠性方面的工作。

SeamlessM4T 就像一个 AI 版“巴别鱼”,但它不需要进入我们的耳朵中。

作者:闫一米 编辑:学术君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈皮是个宝,春天喝最好,6款搭配气顺湿消人精神

陈皮是个宝,春天喝最好,6款搭配气顺湿消人精神

开心美食白科
2026-04-11 16:29:13
日本改口:中日关系变了?

日本改口:中日关系变了?

陆弃
2026-04-11 08:50:03
储量实在惊人,暴力开采200年也挖不完!看似臭水沟蕴藏巨大财富

储量实在惊人,暴力开采200年也挖不完!看似臭水沟蕴藏巨大财富

小小科普员
2026-04-11 17:25:27
史上最抢手皇后,6位帝王轮番霸占60年不停歇,48岁还被人争着要

史上最抢手皇后,6位帝王轮番霸占60年不停歇,48岁还被人争着要

小豫讲故事
2026-04-12 06:00:09
骑士收官战全员轮休,哈登终于迎来休息

骑士收官战全员轮休,哈登终于迎来休息

鸿锦篮球
2026-04-12 08:13:54
过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

白话电影院
2026-04-09 14:36:58
随着尤文图斯1-0,AC米兰0-3,意甲最新积分榜出炉

随着尤文图斯1-0,AC米兰0-3,意甲最新积分榜出炉

凌空倒钩
2026-04-12 04:44:26
跑高速时,车速120其实最费油,内行人:保持这个速度才最省油

跑高速时,车速120其实最费油,内行人:保持这个速度才最省油

西莫的艺术宫殿
2026-04-11 18:58:45
热议上海德比:海港中场控制力下降;申花终于买对人了

热议上海德比:海港中场控制力下降;申花终于买对人了

懂球帝
2026-04-11 22:46:11
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
169元路由器塞了星闪芯片,TP-LINK把牙膏挤爆了

169元路由器塞了星闪芯片,TP-LINK把牙膏挤爆了

薛定谔的BUG
2026-04-10 09:07:18
尹力会见中国国民党主席郑丽文

尹力会见中国国民党主席郑丽文

BRTV新闻
2026-04-11 19:03:07
说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

醉卧浮生
2026-04-11 21:37:39
鏖战78场+场均出场联盟第三!37岁杜兰特比30岁还猛 最佳阵容稳了

鏖战78场+场均出场联盟第三!37岁杜兰特比30岁还猛 最佳阵容稳了

颜小白的篮球梦
2026-04-12 08:20:33
1988年乔丹凭什么包揽MVP和DPOY?NBA常规赛历史最逆天表演

1988年乔丹凭什么包揽MVP和DPOY?NBA常规赛历史最逆天表演

仰卧撑FTUer
2026-04-12 08:36:04
小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

鲁中晨报
2026-04-10 09:32:05
全皇马都看清了!只有他还在装睡,姆巴佩 + 维尼修斯彻底崩盘

全皇马都看清了!只有他还在装睡,姆巴佩 + 维尼修斯彻底崩盘

奶盖熊本熊
2026-04-12 04:45:31
孔帕尼:卡恩让小鹿放弃世界杯?他自己手脚断了都会去世界杯

孔帕尼:卡恩让小鹿放弃世界杯?他自己手脚断了都会去世界杯

懂球帝
2026-04-12 03:41:17
中国篮协正在核查篮坛新秀年龄存疑一事

中国篮协正在核查篮坛新秀年龄存疑一事

新京报
2026-04-12 07:23:14
医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

熊猫医学社
2026-04-03 11:35:03
2026-04-12 09:52:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

时尚
本地
游戏
家居
军事航空

春季穿衣别死气沉沉,看看这27套日常穿搭,活力时尚又减龄

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

因为蓝色星原实在是太大了,急不可耐的玩家们纷纷用梗图表达不满

家居要闻

复古风格 自然简约

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版