网易首页 > 网易号 > 正文 申请入驻

Nature重磅:科幻“巴别鱼”真来了?AI实现人类101种语言语音互译

0
分享至

《银河系漫游指南》中的神奇“巴别鱼”,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中「高效语言交流」的终极形式。

如今,我们距离实现这一梦想或许不远了

就在今天,权威科学期刊 Nature 报道了由 Meta 开发的开源多语言、多模态机器翻译模型 SeamlessM4T,其突破性地实现了 100 多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。

具体而言,SeamlessM4T 能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译为 36 种语言的语音。

不仅如此,SeamlessM4T 在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系统平均高出约 50%,展现出强大的鲁棒性。

对此,塔林理工大学语言处理教授 Tanel Alumäe 在评论文章中表示,“作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路,有望与科幻作品中的技术相媲美。”

他还写道,“这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述为‘基础模型’,这意味着它可以在精心策划的数据集上进行微调,以实现特定目的,例如提高某些语言对或专业术语的翻译质量。”

当前,在这项研究的基础上,Meta 基于 UnitY2 架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出了改进版本 SeamlessM4T V2,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。

AI 正在打破人类语言壁垒

尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。

现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。

为了解决这些问题,SeamlessM4T 应运而生。该模型基于 SONAR 多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。

另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。

图 | SEAMLESSM4T-V2 系统架构

在数据层面,SeamlessM4T 通过新的语言识别(LID)模型识别 100 多种语言。在研究过程中,Meta 团队基于 SONAR 嵌入空间为 200 种语言提供了单一的文本编码器和解码器,并为 37 种语言提供了语音编码器,且通过文本到文本翻译(T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利用 SONAR 的文本和语音编码器,Meta 团队挖掘出三种对齐数据,构建了涵盖 37 种语言、时长超 47 万小时的 SeamlessAlign 语料库。

SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与 AudioPaLM、WHISPER 等大型语音理解和生成模型相比,SeamlessM4T 优势明显。

在语音到文本翻译(S2TT)任务的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比传统级联系统提高了 4.6 分,性能提升显著;对比 AudioPaLM 2 - 8B AST 等直接 S2TT 模型,提高了 6.9 分,展现出其在多语种翻译中的强大优势。

在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE 比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进以后的SeamlessM4T-V2 进一步提升了 3.9 分,显著领先于其他同类系统。

在语音到文本翻译的 CVSS 任务中,SeamlessM4T - V2 相较于两阶段级联模型,ASR - BLEU 得分提高了 9.6 分。

图 | SOTA 语音到文本翻译/语音到语音翻译模型

在零样本文本到语音翻译(T2ST)任务中,SeamlessM4T - LARGE V2 部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。

这表明,SeamlessM4T 在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。

SeamlessM4T 在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中,SeamlessM4T - V2 比 WHISPER - LARGE - V2 的表现提升近 50%。

在语音到语音翻译任务中,SeamlessM4T - V2 抗背景噪声能力提高 42%,对说话人变化的适应性提升 66%。这些改进使 SeamlessM4T 在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。

图 | 多任务处理结果

此外,随着 AI 技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注。Meta 团队对 SeamlessM4T 进行了严格的毒性和性别偏见评估,并采取了缓解措施。

图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果

在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。

警惕潜在风险

尽管 SeamlessM4T 已经可以翻译约 100 种语言,但仍然存在一些局限性。

世界上约有 7000 种语言,该工具在许多人类易处理的场景中仍面临困难。而且,在实际应用中,SEAMLESSM4T 系统的 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。

在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时,语音的韵律和情感信息在当前系统输出中未得到充分体现,影响信息准确传达。

研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。

在评论文章中,康奈尔大学助理教授 Allison Koenecke 则从安全方面提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在医疗检查中做笔记或转录法律程序,像 Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”

Koenecke 提到,鉴于现有模型的性能在不同语言之间差异很大,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。

此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。

https://www.nature.com/articles/s41586-024-08359-z

https://www.nature.com/articles/d41586-024-04095-6

作者:田小婷

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
马英九专访中途喊停,原因曝光

马英九专访中途喊停,原因曝光

郭茂辰海峡传真
2026-03-26 21:32:49
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
2026-03-27 00:24:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
数码
健康
教育

家居要闻

傍海而居 静观蝴蝶海

400万人爱过的女孩,被黄谣网暴180天后

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

转头就晕的耳石症,能开车上班吗?

教育要闻

天天学习|走进课堂的“大朋友”

无障碍浏览 进入关怀版