网易首页 > 网易科技 > 网易科技 > 正文

谷歌翻译是如何借助多项新兴AI技术提高翻译质量的

0
分享至

网易科技讯6月6日消息,据国外媒体报道,谷歌表示,它已在提高没有大量书面文本语料的语言的翻译质量上取得了进展。在一篇即将正式发表的博客文章中,该公司详细介绍了助力提升谷歌翻译(Google Translate)所支持的108种语言翻译质量的新创新技术(特别是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译服务平均每天翻译1500亿个单词。

自谷歌翻译首次亮相以来的13年里,神经机器翻译、基于重写的范式和设备端处理等技术的出现和改进,助力该平台的翻译准确性取得不小的飞跃。但直到近年,即便是最先进的翻译支持算法也一直落后于人类的表现。谷歌以外的努力充分说明了这个问题的严重性——旨在使得非洲大陆的数千种语言可自动翻译的Masakhane项目,至今还没有走出数据收集和转录阶段。Mozilla致力于建立一个开源的语音转录数据收集平台Common Voice,自2017年6月推出以来也只审查了40种语音。

谷歌称,它在翻译领域所取得的突破并不是由单一技术驱动的,而是针对低资源语言、高资源语言、总体质量、延迟和整体推理速度的多项技术共同作用产生的。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

这些技术中的第一个是转换模型架构——一种混合架构,包括一个Transformer编码器和一个用Lingvo实现的递归神经网络(RNN)解码器,后者是一个用于序列建模的TensorFlow框架。

在机器翻译中,编码器通常将单词和短语编码为内部表示形式,然后由解码器生成目标语言的文本。基于Transformer的模型是谷歌研究人员在2017年首次提出的,在这一点上它比RNN更有效,但谷歌表示,它的研究表明,翻译质量的提高主要来自Transformer的一个部件:编码器。这可能是因为虽然RNN和Transformer都是为处理有序的数据序列而设计的,但后者并不要求按顺序处理数据序列。换句话说,如果涉及的数据是自然语言,Transformer不必先处理好句子的开头才处理句子的结尾。

然而,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。原来使用的RNN神经机器翻译模型已有4年历史。

2006年上线不久以来,谷歌翻译模型各种语言的BLEU得分提升趋势

除了打造新颖的混合模型架构之外,谷歌还升级了一个有几十年历史的爬虫程序。该程序用来从文章、书籍、文档和网络搜索结果等内容中的数百万条示例翻译中编制训练语料。该新数据挖掘器基于支持14个语言对的嵌入模式,而非基于词典模式,也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

噪声数据和迁移学习

翻译性能提升的另一来源是一种建模方法,它能更好地处理训练数据中的噪声。据观察,噪声数据(含有大量无法正确理解或解释的信息的数据)会损害语料数据丰富的语言的翻译质量。所以,谷歌翻译团队部署系统来给使用噪声数据训练的模型的示例打分,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。(机器翻译传统上依赖于源语言和目标语言成对句子的语料库的统计。)在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

谷歌地图自带的翻译功能

谷歌翻译现在还采用M4建模方法,即用一个单一的巨型模型——M4——来在多种语言和英语之间进行翻译。(M4最初是在去年的一篇论文中提出的,该论文证明,在基于来自100多种语言的250亿对句子进行训练后,M4提高了30多种低资源语言的翻译质量。)M4建模让谷歌翻译中的迁移学习成为可能,因此,通过基于法语、德语、西班牙语等高资源语言 (它们有数十亿条并行示例语料)的训练获得的见解,可以应用于低资源语言的翻译,如约鲁巴语、信德语和夏威夷语(它们只有数万条示例)。

展望未来

谷歌称,自2010年以来,按照BLEU标准(满分100分,谷歌翻译水平每年至少提高1分,但自动化机器翻译的问题并没有得到解决。谷歌承认,即使是它的增强模型,也会出现各种错误,如合并一种语言的不同方言,产生明显的字面翻译,以及在特定主题内容和非正式语言或口语上表现糟糕等等。

这家科技巨头正想方设法来解决这一挑战,包括借助它的谷歌翻译社区。该游戏化项目招募志愿者来翻译单词和短语或者检查翻译是否正确,借助他们来提高低资源语言的翻译质量。就在今年2月,结合新兴的机器学习技术,该项目为谷歌翻译增加了对总共7500万人使用的五种语言的支持,包括基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一家追求真正通用的翻译工具的公司。2018年8月,Facebook公布了一种人工智能模型,该模型结合使用逐字翻译、语言模型和回译来超越语言配对系统。最近,麻省理工学院计算机科学和人工智能实验室的研究人员也提出了一种无监督学习模型——一种从没有明确标记或分类的测试数据中学习的模型——它可以在没有直接的双语翻译数据的情况下在两种语言的文本之间进行翻译。

谷歌在一份声明中表示,它“非常感谢”学术界和产业界在机器翻译领域的研究成果,其中一些研究为谷歌自身的项目带来了启发。 “通过结合利用和拓展近期的各种技术进步,我们完成了谷歌翻译最近的改进。” 该公司说,“经过此次升级,我们很自豪能够提供相对连贯的自动翻译,哪怕是所支持的108种语言中语料资源最少的一种语言。”(乐邦)

延伸阅读
相关推荐
热点推荐
48岁范晓萱现身陕西,打扮一言难尽!一头绿毛,脸好肿,状态好差

48岁范晓萱现身陕西,打扮一言难尽!一头绿毛,脸好肿,状态好差

小娱乐悠悠
2025-12-18 10:12:41
湖南三甲医院突紧急辟谣:从未与柬埔寨生命科学院合作!

湖南三甲医院突紧急辟谣:从未与柬埔寨生命科学院合作!

凡知
2025-12-18 16:05:54
杜兰特:2019年总决赛没人提醒我带伤打会跟腱断裂,不然我可能不会上

杜兰特:2019年总决赛没人提醒我带伤打会跟腱断裂,不然我可能不会上

懂球帝
2025-12-18 11:18:56
中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

蜉蝣说
2025-12-18 14:44:00
网友:许亚军祖宗18代都要感谢何晴,她生了一个“男版的自己”

网友:许亚军祖宗18代都要感谢何晴,她生了一个“男版的自己”

小丸子的娱乐圈
2025-12-18 18:09:07
张学友陈奕迅演唱会现场,2人受贿放行126名无票粉丝,判了

张学友陈奕迅演唱会现场,2人受贿放行126名无票粉丝,判了

大风新闻
2025-12-17 21:35:03
当听泉鉴宝直播的“博物馆一件,我一件”玩笑话成为现实

当听泉鉴宝直播的“博物馆一件,我一件”玩笑话成为现实

总在茶余后
2025-12-18 06:00:09
邱毅:流传的屠杀中国人的日本军官照片是高市早苗祖父高市利彦!

邱毅:流传的屠杀中国人的日本军官照片是高市早苗祖父高市利彦!

南权先生
2025-12-16 16:22:32
央视曝光套路贷陷阱:借款13万滚到1300万!结局来了

央视曝光套路贷陷阱:借款13万滚到1300万!结局来了

法老不说教
2025-12-18 16:10:59
重大突破!美国发明世界最小机器人,仅细胞大小,7分钱一个!

重大突破!美国发明世界最小机器人,仅细胞大小,7分钱一个!

徐德文科学频道
2025-12-17 21:01:47
不装了!公开支持保罗+曝光快船混乱内幕,科林斯,你大胆啊

不装了!公开支持保罗+曝光快船混乱内幕,科林斯,你大胆啊

球童无忌
2025-12-18 22:56:00
CBA最差教练!球队开赛3连败,有好球员不用,球迷:快下课

CBA最差教练!球队开赛3连败,有好球员不用,球迷:快下课

篮球专区
2025-12-18 23:19:32
美国封锁4年,中国偷偷造出"国之重器"!深圳实验室打破全球垄断

美国封锁4年,中国偷偷造出"国之重器"!深圳实验室打破全球垄断

戗词夺理
2025-12-18 22:28:09
网友在餐厅点了一只螃蟹引发热议 专家:是正直爱洁蟹,有毒不能吃

网友在餐厅点了一只螃蟹引发热议 专家:是正直爱洁蟹,有毒不能吃

封面新闻
2025-12-18 18:47:04
奥迪:我们只能造出热效率38%的发动机,你们是怎么做到45%的?

奥迪:我们只能造出热效率38%的发动机,你们是怎么做到45%的?

少数派报告Report
2025-12-17 07:32:02
英王室三小只久违露面气质大变?夏洛特一身红裙气场变更强,弟弟路易已是小帅哥模样!

英王室三小只久违露面气质大变?夏洛特一身红裙气场变更强,弟弟路易已是小帅哥模样!

英国报姐
2025-12-17 21:42:13
1948年大决战前夕,毛主席突然下令枪毙手下大将,明令:“任何人不准求情”

1948年大决战前夕,毛主席突然下令枪毙手下大将,明令:“任何人不准求情”

史海孤雁
2025-12-18 20:43:13
"崩老头"火了!年轻女性在网上钓中年男性,索要小额红包节日大红包

"崩老头"火了!年轻女性在网上钓中年男性,索要小额红包节日大红包

互联网大观
2025-12-12 15:14:03
天才空降腾讯,27 岁姚顺雨担任腾讯首席AI科学家,履历非常亮眼

天才空降腾讯,27 岁姚顺雨担任腾讯首席AI科学家,履历非常亮眼

凯旋学长
2025-12-18 17:49:43
轰动全国的游戏军费贪污案,欠铺路民工80,没有万

轰动全国的游戏军费贪污案,欠铺路民工80,没有万

远方青木
2025-12-16 23:38:18
2025-12-18 23:36:49

科技要闻

2025新一代人工智能创业大赛总决赛收官

头条要闻

在野党参议员问了句日本"存亡危机" 高市早苗瞬间冷脸

头条要闻

在野党参议员问了句日本"存亡危机" 高市早苗瞬间冷脸

体育要闻

纽约尼克斯,板正的球队

娱乐要闻

丝芭放大招了!实名举报鞠婧祎经济犯罪

财经要闻

尹艳林:呼吁加快2.5亿新市民落户进程

汽车要闻

在零下30℃的考场里 凡尔赛C5 X和508L拿到了"稳"的证明

态度原创

游戏
艺术
健康
教育
时尚

德玛西亚杯:痛苦终于结束了,TT零封ZSM!

艺术要闻

卡洛斯·杜兰:不只是萨金特的老师!

这些新疗法,让化疗不再那么痛苦

教育要闻

所谓教育,不过是三分说,七分等

鞋子专场||穿了五年十年,掏心窝子说,最常穿的还是这一双!

无障碍浏览 进入关怀版
×