网易首页 > 网易号 > 正文 申请入驻

100种语言任意翻译!科幻电影中的“巴别鱼”,Meta用AI实现了

0
分享至

在科幻小说《银河系漫游指南》中,作家道格拉斯·亚当斯描绘了一种神奇的宇宙生物——巴别鱼,它以脑电波能量为生,能够使人们在将其塞进耳朵后,即刻理解任何语言的内容,轻松与外星人交流。同名电影也已于 2005 年上映。

自从小说问世以来,“巴别鱼”便成为了即时语音翻译的象征。然而,当时人类的翻译技术距离这一设想仍有很大的差距,始终未出现统一的语音到语音翻译模型。

如今,科幻电影中的“巴别鱼”,Meta 用 AI 真的实现了——推出大规模多语言和多模态机器翻译模型——SeamlessM4T。

据介绍,SeamlessM4T 可以在语音和文本之间实现即时翻译和转录,支持以下五种功能:

  • 近 100 种语言的自动语音识别;
  • 近 100 种输入和输出语言的语音到文本翻译;
  • 语音到语音翻译,支持近 100 种输入语言和 35 种(加上英语)输出语言;
  • 近 100 种语言的文本到文本翻译;
  • 文本到语音翻译,支持近 100 种输入语言和 35 种(加上英语)输出语言。

为了构建这一模型,Meta 重新设计了 Fairseq 序列建模工具包,从而创建更轻量级的模型,处理更多信息。

在模型方面,Meta 采用了多任务 UnitY 模型架构,这一架构能够直接生成翻译文本和语音。这个新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译,这些功能已经成为基本 UnitY 模型的一部分。多任务 UnitY 模型由三个主要的顺序组件组成,其中文本和语音编码器负责识别近 100 种语言的语音输入。随后,文本解码器将这一意义转化为近 100 种语言的文本,然后是文本到单元模型,用于将其解码为 36 种语音语言的离散声学单元。

为了提高模型质量和训练稳定性,自监督编码器、语音到文本、文本到文本翻译组件以及文本到单元模型都经过预训练。最终,解码得到的离散单元通过多语言 HiFi-GAN 单元声码器转化为语音。

利用自监督语音编码器 w2v-BERT 2.0,研究人员分析了数百万小时的多语种语音来学习在语音中找到结构和含义。该编码器可以接收音频信号,将其分解为较小的部分,并构建所述内容的内部表示。由于口语词汇由许多声音和字符组成,研究人员使用长度适配器将它们大致映射到实际单词中。

同样,Meta 利用一个基于 NLLB 模型的文本编码器,将其训练成能够理解近 100 种语言的文本,并生成对于翻译有用的表示。

Meta AI 于2022年在一篇名为“No Language Left Behind: Scaling Human-Centered Machine Translation”的论文中提出了 NLLB 模型,该模型支持 200 种语言,是一种多语言机器翻译系统。

经过训练的文本解码器能够接收编码的语音表示或文本表示。这可应用于同一语言的任务,如自动语音识别和多语种翻译任务。例如,有人可以说法语中的“bonjour”,然后期望斯瓦希里语中的翻译文本是“habari”。通过多任务训练,Meta 利用 NLLB 模型来通过 token 级别的知识蒸馏,来引导他们的语音到文本翻译模型。

另外,Meta 使用声学单元来表示目标语音。UnitY 模型中的文本到单元(T2U)组件根据文本输出生成这些离散的语音单元,并在 UnitY 微调之前在 ASR 数据上进行了预训练。然后,使用多语言 HiFi-GAN 单元声码器将这些离散单元转换为音频波形。

在上述功能的加持下,SeamlessM4T 可以识别说话者何时进行代码切换,或者何时在一句话中在两种或更多语言之间切换

此外,Meta 还构建了一个可涵盖 200 种语言的多语言多模态文本嵌入空间——SONAR。然后,利用师生方法将其扩展到语音领域,涵盖 36 种语言。通过在网络数据和语音数据中进行挖掘,他们自动对齐了超过 443000 小时的语音和文本,并创造了 29000 小时的语音对齐数据。这个名为 SeamlessAlign 的语料库是迄今最大的开放式语音、语音和语音以及文本平行语料库。

测评结果显示,SeamlessM4T 在近 100 种语言中实现了最先进的结果,并跨自动语音识别、语音到文本、语音到语音、文本到语音以及文本到文本翻译的多任务支持,全部由单一模型完成。此外,Meta 还显著提升了对低资源和中资源语言的性能,同时在高资源语言上保持了强大的表现。

为了更准确地评估系统,不仅依赖于基于文本的度量标准,Meta 将无文本度量标准扩展到了 BLASER 2.0,这使得在语音和文本单元之间进行评估时,与其前身相比能够获得类似的准确性。在鲁棒性测试中,与当前最先进的模型相比,该系统在语音到文本任务中对抗背景噪音和说话者变化的性能表现更好(分别平均提升了 37% 和 48% )。

确保翻译系统准确性至关重要,Meta 采用负责任的 AI 框架,通过研究毒性和偏见等敏感问题,来提升模型表现。他们也在语音中扩展了多语言毒性分类器,过滤了不平衡的毒性训练数据。此外,他们还在性别偏见方面进行评估,并努力改进模型以减少毒性。未来,他们将持续致力于安全性和可靠性方面的工作。

SeamlessM4T 就像一个 AI 版“巴别鱼”,但它不需要进入我们的耳朵中。

作者:闫一米 编辑:学术君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉凌晨下起大冰雹!网友:“睡不着睡不着”

武汉凌晨下起大冰雹!网友:“睡不着睡不着”

极目新闻
2026-04-09 08:50:32
潘石屹再预言未来楼市,前两次已应验,今明两年或大概率也是对的

潘石屹再预言未来楼市,前两次已应验,今明两年或大概率也是对的

专业聊房君
2026-04-06 17:35:09
你也有小鸟依人的时候?哈兰德与瑟洛特的合照引发关注

你也有小鸟依人的时候?哈兰德与瑟洛特的合照引发关注

懂球帝
2026-04-09 10:37:01
巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

人生录
2026-04-08 00:37:17
跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

界面新闻
2026-04-08 12:41:59
重磅!比特币创始人“中本聪”真实身份浮出

重磅!比特币创始人“中本聪”真实身份浮出

新浪财经
2026-04-09 01:09:01
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

世界圈
2026-04-04 13:13:03
“走人福 休假1天”!四川一店铺张贴告示登上热搜,网友:懵圈了

“走人福 休假1天”!四川一店铺张贴告示登上热搜,网友:懵圈了

火山詩话
2026-04-09 09:22:00
伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

极目新闻
2026-04-09 01:03:19
突然确定!中国3人全部离队!杨瀚森未能入选!

突然确定!中国3人全部离队!杨瀚森未能入选!

左右为篮
2026-04-08 12:34:18
浙媒:浙江队就铜梁龙球员李镇全的违规行为提出追责申请

浙媒:浙江队就铜梁龙球员李镇全的违规行为提出追责申请

懂球帝
2026-04-09 11:30:09
涉嫌严重违纪违法,刘昌卫被查

涉嫌严重违纪违法,刘昌卫被查

吉刻新闻
2026-04-09 09:38:24
瑾汐和温州爸爸不再来往,爸爸账号清空,各自安好,大家各有说法

瑾汐和温州爸爸不再来往,爸爸账号清空,各自安好,大家各有说法

以茶带书
2026-04-08 16:34:40
贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

房产衫哥
2026-04-09 05:09:46
当你觉得自己没用时,可以点进来看看元宇宙的现状。

当你觉得自己没用时,可以点进来看看元宇宙的现状。

差评XPIN
2026-04-08 00:13:54
看到杜锋无人可用才想起黄明依,才知道小崔为啥这么久还打不出来

看到杜锋无人可用才想起黄明依,才知道小崔为啥这么久还打不出来

后仰大风车
2026-04-09 09:50:15
如果没有扣分,这才是真实的中超积分榜排名

如果没有扣分,这才是真实的中超积分榜排名

足球大腕
2026-04-08 21:53:28
全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

番外行
2026-04-09 09:25:53
中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

阿器谈史
2026-04-02 15:36:40
NBA调查!国王回应故意犯规罚球高手小库里:战术失误而非摆烂

NBA调查!国王回应故意犯规罚球高手小库里:战术失误而非摆烂

罗说NBA
2026-04-09 06:14:42
2026-04-09 12:47:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

达赖深度卷入爱泼斯坦权色网 印媒再披露惊人新证据

头条要闻

达赖深度卷入爱泼斯坦权色网 印媒再披露惊人新证据

体育要闻

40岁,但实力倒退12年

娱乐要闻

具俊晔最新露面,又黑又瘦情绪低迷

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

本地
亲子
手机
时尚
公开课

本地新闻

建水Color Walk | 古城慢调,掉进春天的调色盘里

亲子要闻

福州儿童/青少年配眼镜推荐:专业验光+定制方案+售后无忧,家长关心的都在这

手机要闻

vivo、荣耀、OPPO一个比一个火,小米按兵不动

ED网红病,正在掏空年轻女性

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版