网易首页 > 网易号 > 正文 申请入驻

Nature重磅:科幻“巴别鱼”真来了?AI实现人类101种语言语音互译

0
分享至

《银河系漫游指南》中的神奇“巴别鱼”,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中「高效语言交流」的终极形式。

如今,我们距离实现这一梦想或许不远了

就在今天,权威科学期刊 Nature 报道了由 Meta 开发的开源多语言、多模态机器翻译模型 SeamlessM4T,其突破性地实现了 100 多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。

具体而言,SeamlessM4T 能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译为 36 种语言的语音。

不仅如此,SeamlessM4T 在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系统平均高出约 50%,展现出强大的鲁棒性。

对此,塔林理工大学语言处理教授 Tanel Alumäe 在评论文章中表示,“作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路,有望与科幻作品中的技术相媲美。”

他还写道,“这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述为‘基础模型’,这意味着它可以在精心策划的数据集上进行微调,以实现特定目的,例如提高某些语言对或专业术语的翻译质量。”

当前,在这项研究的基础上,Meta 基于 UnitY2 架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出了改进版本 SeamlessM4T V2,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。

AI 正在打破人类语言壁垒

尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。

现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。

为了解决这些问题,SeamlessM4T 应运而生。该模型基于 SONAR 多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。

另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。

图 | SEAMLESSM4T-V2 系统架构

在数据层面,SeamlessM4T 通过新的语言识别(LID)模型识别 100 多种语言。在研究过程中,Meta 团队基于 SONAR 嵌入空间为 200 种语言提供了单一的文本编码器和解码器,并为 37 种语言提供了语音编码器,且通过文本到文本翻译(T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利用 SONAR 的文本和语音编码器,Meta 团队挖掘出三种对齐数据,构建了涵盖 37 种语言、时长超 47 万小时的 SeamlessAlign 语料库。

SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与 AudioPaLM、WHISPER 等大型语音理解和生成模型相比,SeamlessM4T 优势明显。

在语音到文本翻译(S2TT)任务的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比传统级联系统提高了 4.6 分,性能提升显著;对比 AudioPaLM 2 - 8B AST 等直接 S2TT 模型,提高了 6.9 分,展现出其在多语种翻译中的强大优势。

在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE 比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进以后的SeamlessM4T-V2 进一步提升了 3.9 分,显著领先于其他同类系统。

在语音到文本翻译的 CVSS 任务中,SeamlessM4T - V2 相较于两阶段级联模型,ASR - BLEU 得分提高了 9.6 分。

图 | SOTA 语音到文本翻译/语音到语音翻译模型

在零样本文本到语音翻译(T2ST)任务中,SeamlessM4T - LARGE V2 部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。

这表明,SeamlessM4T 在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。

SeamlessM4T 在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中,SeamlessM4T - V2 比 WHISPER - LARGE - V2 的表现提升近 50%。

在语音到语音翻译任务中,SeamlessM4T - V2 抗背景噪声能力提高 42%,对说话人变化的适应性提升 66%。这些改进使 SeamlessM4T 在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。

图 | 多任务处理结果

此外,随着 AI 技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注。Meta 团队对 SeamlessM4T 进行了严格的毒性和性别偏见评估,并采取了缓解措施。

图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果

在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。

警惕潜在风险

尽管 SeamlessM4T 已经可以翻译约 100 种语言,但仍然存在一些局限性。

世界上约有 7000 种语言,该工具在许多人类易处理的场景中仍面临困难。而且,在实际应用中,SEAMLESSM4T 系统的 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。

在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时,语音的韵律和情感信息在当前系统输出中未得到充分体现,影响信息准确传达。

研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。

在评论文章中,康奈尔大学助理教授 Allison Koenecke 则从安全方面提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在医疗检查中做笔记或转录法律程序,像 Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”

Koenecke 提到,鉴于现有模型的性能在不同语言之间差异很大,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。

此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。

https://www.nature.com/articles/s41586-024-08359-z

https://www.nature.com/articles/d41586-024-04095-6

作者:田小婷

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
教会徒弟饿死师傅?中国手机份额跌至25%,印度正在横扫美国市场

教会徒弟饿死师傅?中国手机份额跌至25%,印度正在横扫美国市场

说宇宙
2025-09-03 09:51:47
8年敛财14个亿,一顿饭吃82万,“金融才女”朱丽丽今下场如何?

8年敛财14个亿,一顿饭吃82万,“金融才女”朱丽丽今下场如何?

时尚的弄潮
2025-08-26 18:54:14
许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

良工说
2025-09-04 00:53:34
金正恩的体型之谜:朝鲜社会和民众心理的复杂反映

金正恩的体型之谜:朝鲜社会和民众心理的复杂反映

近史阁
2025-07-18 15:16:42
医学界要地震?日本发明强效止痛药!只止痛不成瘾,究竟咋回事?

医学界要地震?日本发明强效止痛药!只止痛不成瘾,究竟咋回事?

徐德文科学频道
2025-09-05 09:00:32
两名儿童遭蜂群蜇伤身亡:当地已组建工作专班处置,明确养殖胡蜂由农业农村局监管

两名儿童遭蜂群蜇伤身亡:当地已组建工作专班处置,明确养殖胡蜂由农业农村局监管

红星新闻
2025-09-05 18:05:14
真比周琦强!杨瀚森狂暴增重,上半身明显变宽,练成魔鬼筋肉人了

真比周琦强!杨瀚森狂暴增重,上半身明显变宽,练成魔鬼筋肉人了

嘴炮体坛
2025-09-05 12:22:17
惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

深度报
2025-09-02 22:45:04
癌症专家楼钦元患癌离世,健康生活方式无效?临终悔恨令人唏嘘!

癌症专家楼钦元患癌离世,健康生活方式无效?临终悔恨令人唏嘘!

柳絮忆史
2025-09-04 08:49:32
23年,59岁傅艺伟独子离世,账号2年未更新,儿子同学透露死因

23年,59岁傅艺伟独子离世,账号2年未更新,儿子同学透露死因

山河月明史
2025-09-05 13:14:38
提前1轮出线!637万人口小国狂欢:晋级2026世界杯,全国放假一天

提前1轮出线!637万人口小国狂欢:晋级2026世界杯,全国放假一天

侃球熊弟
2025-09-05 09:27:50
38岁梅西亲承:考虑年龄或不踢明年世界杯!身体感觉不好宁愿不去

38岁梅西亲承:考虑年龄或不踢明年世界杯!身体感觉不好宁愿不去

我爱英超
2025-09-05 10:17:52
美媒评论东风5C:恐怖;如果丢一枚到美国,会造成怎样的景象

美媒评论东风5C:恐怖;如果丢一枚到美国,会造成怎样的景象

井普椿的独白
2025-09-05 16:33:37
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

书雁飞史oh
2025-08-15 19:58:29
不是迷信!七月十五中元节,记得:1不烧、2不晒、3不供、4不动

不是迷信!七月十五中元节,记得:1不烧、2不晒、3不供、4不动

小嵩
2025-09-05 14:49:01
一场9.3文艺晚会,将科班演员和流量明星的差距,体现得淋漓尽致

一场9.3文艺晚会,将科班演员和流量明星的差距,体现得淋漓尽致

涵豆说娱
2025-09-04 16:27:38
赶在特朗普对中国船只收费前,中国先发制人,中企集体弃用美港口

赶在特朗普对中国船只收费前,中国先发制人,中企集体弃用美港口

别人都叫我阿腈
2025-09-05 12:37:15
中美日激光武器射程差距太大:美8000米、日1200米,中国是多少?

中美日激光武器射程差距太大:美8000米、日1200米,中国是多少?

铁锤简科
2025-08-31 00:02:22
普京通告全球,中俄已统一战线,日本敢做一件事,就是自取灭亡

普京通告全球,中俄已统一战线,日本敢做一件事,就是自取灭亡

通文知史
2025-09-04 17:45:06
被九三阅兵刺激后,特朗普对欧洲下两道死命令,又要对中国动手

被九三阅兵刺激后,特朗普对欧洲下两道死命令,又要对中国动手

博览历史
2025-09-05 13:38:55
2025-09-05 20:48:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注人工智能、生命科学等前沿科学进展。
1366文章数 5078关注度
往期回顾 全部

科技要闻

DeepSeek被曝年底或"放大招",业内怎么看

头条要闻

有网友质疑兄妹被蜂蜇亡系捅蜂窝导致 家属:蜂窝完整

头条要闻

有网友质疑兄妹被蜂蜇亡系捅蜂窝导致 家属:蜂窝完整

体育要闻

西甲最穷的“草台班子”,竟然打进欧战了

娱乐要闻

!被骂“恋爱脑”的董璇玩脱了?

财经要闻

拖欠订单 立讯精密被供应商索赔3343万

汽车要闻

华为乾崑技术日 实测ADS4已无限接近人类司机

态度原创

亲子
家居
游戏
教育
旅游

亲子要闻

她宣布怀上第一胎,去年4月与圈外男性结婚

家居要闻

亲子空间 舒适家居氛围

前R星开发者驳斥GTA 6延期传闻:博取关注!

教育要闻

“零食诱惑” 暗藏危机——识破毒品“隐身术”

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

无障碍浏览 进入关怀版