网易首页 > 网易号 > 正文 申请入驻

Nature重磅:科幻“巴别鱼”真来了?AI实现人类101种语言语音互译

0
分享至

《银河系漫游指南》中的神奇“巴别鱼”,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中「高效语言交流」的终极形式。

如今,我们距离实现这一梦想或许不远了

就在今天,权威科学期刊 Nature 报道了由 Meta 开发的开源多语言、多模态机器翻译模型 SeamlessM4T,其突破性地实现了 100 多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。

具体而言,SeamlessM4T 能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译为 36 种语言的语音。

不仅如此,SeamlessM4T 在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系统平均高出约 50%,展现出强大的鲁棒性。

对此,塔林理工大学语言处理教授 Tanel Alumäe 在评论文章中表示,“作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路,有望与科幻作品中的技术相媲美。”

他还写道,“这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述为‘基础模型’,这意味着它可以在精心策划的数据集上进行微调,以实现特定目的,例如提高某些语言对或专业术语的翻译质量。”

当前,在这项研究的基础上,Meta 基于 UnitY2 架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出了改进版本 SeamlessM4T V2,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。

AI 正在打破人类语言壁垒

尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。

现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。

为了解决这些问题,SeamlessM4T 应运而生。该模型基于 SONAR 多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。

另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。

图 | SEAMLESSM4T-V2 系统架构

在数据层面,SeamlessM4T 通过新的语言识别(LID)模型识别 100 多种语言。在研究过程中,Meta 团队基于 SONAR 嵌入空间为 200 种语言提供了单一的文本编码器和解码器,并为 37 种语言提供了语音编码器,且通过文本到文本翻译(T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利用 SONAR 的文本和语音编码器,Meta 团队挖掘出三种对齐数据,构建了涵盖 37 种语言、时长超 47 万小时的 SeamlessAlign 语料库。

SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与 AudioPaLM、WHISPER 等大型语音理解和生成模型相比,SeamlessM4T 优势明显。

在语音到文本翻译(S2TT)任务的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比传统级联系统提高了 4.6 分,性能提升显著;对比 AudioPaLM 2 - 8B AST 等直接 S2TT 模型,提高了 6.9 分,展现出其在多语种翻译中的强大优势。

在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE 比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进以后的SeamlessM4T-V2 进一步提升了 3.9 分,显著领先于其他同类系统。

在语音到文本翻译的 CVSS 任务中,SeamlessM4T - V2 相较于两阶段级联模型,ASR - BLEU 得分提高了 9.6 分。

图 | SOTA 语音到文本翻译/语音到语音翻译模型

在零样本文本到语音翻译(T2ST)任务中,SeamlessM4T - LARGE V2 部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。

这表明,SeamlessM4T 在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。

SeamlessM4T 在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中,SeamlessM4T - V2 比 WHISPER - LARGE - V2 的表现提升近 50%。

在语音到语音翻译任务中,SeamlessM4T - V2 抗背景噪声能力提高 42%,对说话人变化的适应性提升 66%。这些改进使 SeamlessM4T 在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。

图 | 多任务处理结果

此外,随着 AI 技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注。Meta 团队对 SeamlessM4T 进行了严格的毒性和性别偏见评估,并采取了缓解措施。

图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果

在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。

警惕潜在风险

尽管 SeamlessM4T 已经可以翻译约 100 种语言,但仍然存在一些局限性。

世界上约有 7000 种语言,该工具在许多人类易处理的场景中仍面临困难。而且,在实际应用中,SEAMLESSM4T 系统的 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。

在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时,语音的韵律和情感信息在当前系统输出中未得到充分体现,影响信息准确传达。

研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。

在评论文章中,康奈尔大学助理教授 Allison Koenecke 则从安全方面提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在医疗检查中做笔记或转录法律程序,像 Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”

Koenecke 提到,鉴于现有模型的性能在不同语言之间差异很大,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。

此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。

https://www.nature.com/articles/s41586-024-08359-z

https://www.nature.com/articles/d41586-024-04095-6

作者:田小婷

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《老舅》霍东风杀了大涛!杨小姐算计太狠,才懂她为何离开崔国明

《老舅》霍东风杀了大涛!杨小姐算计太狠,才懂她为何离开崔国明

悠悠说世界
2025-12-22 08:22:11
甩卖!月最佳球员也上货架,场均21分+1289万合同,抢手货啊

甩卖!月最佳球员也上货架,场均21分+1289万合同,抢手货啊

球童无忌
2025-12-22 23:35:19
白崇禧之子,一生无妻无儿,相伴38年高中同学死后,他公开性取向

白崇禧之子,一生无妻无儿,相伴38年高中同学死后,他公开性取向

墨说古今
2025-12-16 23:10:42
2025年,3个月不发工资已是常态

2025年,3个月不发工资已是常态

诗词中国
2025-12-21 21:18:00
基辛格生前大胆预测:第三次世界大战爆发,敢打美国的国家就3个

基辛格生前大胆预测:第三次世界大战爆发,敢打美国的国家就3个

云舟史策
2025-12-21 07:11:57
徐湖平履历被扒!曾是印刷厂工人,掌管南博25年,高中学历成院长

徐湖平履历被扒!曾是印刷厂工人,掌管南博25年,高中学历成院长

叶公子
2025-12-21 22:41:27
我被辞退,收拾东西时,经理问我谁介绍来的,我答:你儿子

我被辞退,收拾东西时,经理问我谁介绍来的,我答:你儿子

兰姐说故事
2025-12-19 20:15:03
绝了!姆巴佩伊万卡CP引爆全网,姐弟恋背后竟是千亿流量密码

绝了!姆巴佩伊万卡CP引爆全网,姐弟恋背后竟是千亿流量密码

罗氏八卦
2025-12-22 12:12:35
超美网红晒观战热火被驱逐视频:老娘是公主!微笑+嚣张步伐离场

超美网红晒观战热火被驱逐视频:老娘是公主!微笑+嚣张步伐离场

Emily说个球
2025-12-22 11:33:47
惊呆!中国网民刷屏感谢“泰国特别军事行动”!

惊呆!中国网民刷屏感谢“泰国特别军事行动”!

深度报
2025-12-22 22:41:09
打虎!尹建业被查

打虎!尹建业被查

新京报政事儿
2025-12-21 16:27:03
兵马俑中有一张令人诧异的脸,无法用科学解释,被禁止出国展览

兵马俑中有一张令人诧异的脸,无法用科学解释,被禁止出国展览

浩渺青史
2025-12-21 20:13:07
中国已向美方提出严正交涉。中国人民解放军已经做好备战准备。

中国已向美方提出严正交涉。中国人民解放军已经做好备战准备。

安安说
2025-12-21 14:49:28
关于杨兰兰,终于破解出几条她的关键信息

关于杨兰兰,终于破解出几条她的关键信息

诗意世界
2025-12-19 12:00:03
李洁已任杭州滨江区委副书记、杭州高新区管委会主任

李洁已任杭州滨江区委副书记、杭州高新区管委会主任

都市快报橙柿互动
2025-12-22 20:22:17
秦岚的脚部照片在网上爆红,这背后是否有利益链的争议?

秦岚的脚部照片在网上爆红,这背后是否有利益链的争议?

动物奇奇怪怪
2025-12-22 05:25:09
冬至前夜探访成都“羊肉汤一条街”:生意不如往年火爆 有商家表示“不涨价”

冬至前夜探访成都“羊肉汤一条街”:生意不如往年火爆 有商家表示“不涨价”

封面新闻
2025-12-21 10:33:14
美媒曾公开全球最差的7艘航母:辽宁舰上榜,福建舰和山东舰呢?

美媒曾公开全球最差的7艘航母:辽宁舰上榜,福建舰和山东舰呢?

策略述
2025-12-20 13:26:47
至今健在的开国将帅只剩一位,已经102岁高龄,身体依旧健朗

至今健在的开国将帅只剩一位,已经102岁高龄,身体依旧健朗

兴趣知识
2025-12-21 01:51:04
美国对台军售闯大祸,大陆沉寂两日发文促统,赖清德或被解除职务

美国对台军售闯大祸,大陆沉寂两日发文促统,赖清德或被解除职务

老范谈史
2025-12-22 14:54:08
2025-12-23 00:23:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1427文章数 5081关注度
往期回顾 全部

科技要闻

商汤联创亲自下场 痛批主流机器人技术大错

头条要闻

德铁下单200辆中国巴士 德财长:这决定让我十分恼火

头条要闻

德铁下单200辆中国巴士 德财长:这决定让我十分恼火

体育要闻

戴琳,中国足球的反向代言人

娱乐要闻

张柏芝不再隐瞒,三胎生父早有答案?

财经要闻

央行信用新政:为失信者提供"纠错"通道

汽车要闻

可享88元抵2000元等多重权益 昊铂A800开启盲订

态度原创

本地
手机
游戏
房产
公开课

本地新闻

云游安徽|走进铜陵,照见三千年不灭的炉火

手机要闻

OPPO Find X9 Ultra再曝,双 2 亿影像配置

德玛西亚杯:Viper完美首秀,BLG零封LNG

房产要闻

重磅!海南发布岛内居民免税商品经营主体及免税店管理办法征求意见稿!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版