网易首页 > 网易科技 > 网易科技 > 正文

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

0
分享至

(原标题:谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量)

对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。


近日,谷歌在自己的博客上介绍了公司最新的翻译创新技术,这些技术提升了谷歌翻译的用户体验。目前谷歌翻译可支持108种语言,平均每天翻译1500亿个单词。

谷歌翻译最早亮相于2006年,在过去的13年间,翻译水平有了重大飞跃。谷歌表示,其翻译突破并不是由单一技术推动的,而是针对低资源语言、高资源语言、总体质量、推理速度等一系列技术组合的突破。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

在这系列技术突破中,谷歌首先提到了混合模型和数据挖掘器。

混合模型指的是由Transformer编码器和递归神经网络(RNN)解码器构成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表征,解码器将其生成为所需要的语言文本。谷歌的研究人员在2017年称首次提出,翻译质量的提高主要依靠编码器。谷歌团队称这可能是因为RNN和Transformer都设计为处理有序数据序列,但Transformers并不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,则Transformer无需在处理结尾之前先处理句子的开头。

尽管如此,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。

除了新颖的混合模型体系结构之外,谷歌还升级了爬虫工具,爬虫工具可以从数以百万计的示例翻译中收集编译训练数据。升级后,谷歌嵌入了14种大语言对,而不是单纯基于字典数据。也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

“嘈杂”的数据和迁移学习

谷歌翻译性能提升的另一个技术突破来自更好地处理训练数据中的“噪声”。“噪声”即嘈杂的数据,因含有大量无法正确理解或解释的信息数据,从而会损害语料资源丰富的语言翻译。因此谷歌翻译团队部署了一个系统,该系统使用经过训练的模型为翻译示例分配分数,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于机器翻译来说,传统上依赖于源语言和目标语言中成对句子的语料统计。对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

此外,谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出,该模型对100多种语言的250亿对句子进行训练后,提高了30多种低资源语言的翻译质量。这一模型也证明了在机器翻译过程中可以使用迁移学习技术。这也意味着收集包括法语、德语和西班牙语,这些有数十亿个并行示例的高资源语言,并进行训练后,可以应用于翻译诸如约鲁巴语,信德语和夏威夷语,这些仅有数万个示例的低资源语言。

机器翻译的未来

谷歌称,自2010年以来,翻译质量每年都在提高,但是机器翻译绝不是翻译问题的“终结者”。 谷歌承认,即使是增强后的模型也容易出错,包括将一种语言的不同方言混合在一起,产生过多的直译,以及在特定主题,非正式或口语上的表现不佳。

谷歌尝试用不同的方法来解决上述的问题。公司曾发布一项计划旨在招募志愿者,通过检查翻译单词和短语是否正确来帮助提高低资源语言的翻译性能。 今年2月份,谷歌翻译与新兴的机器学习技术相结合后就完成了进步,他们提供了仅有7500万人使用的五种语言翻译,例如Kinyarwanda(卢旺达语),Odia(奥里亚语),Tatar(鞑靼语),Turkmen(土库曼语)和Uyghur(维吾尔语)。

追求真正通用翻译的并不只有谷歌一家。在2018年8月,Facebook发布了一种AI模型,该模型结合了逐词翻译,语言模型和反向翻译,在语言配对方面表现优异。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即可以从未经明确标记或分类的测试数据中学习的模型,该模型可以在两种语言的文本之间进行翻译,而无需在两种语言之间直接进行翻译。

延伸阅读
相关推荐
热点推荐
4400万粉丝网红“刘二狗”办泳池派对并直播,涉嫌低俗擦边,快手:账号违规,已被处理

4400万粉丝网红“刘二狗”办泳池派对并直播,涉嫌低俗擦边,快手:账号违规,已被处理

极目新闻
2025-12-16 16:28:13
新官上任三把火!邵佳一野心暴露,确立3大目标,20岁新秀受重视

新官上任三把火!邵佳一野心暴露,确立3大目标,20岁新秀受重视

国足风云
2025-12-17 07:30:11
中美军方高层见面,在华盛顿密谈2天,特朗普干脆,对中方交了底

中美军方高层见面,在华盛顿密谈2天,特朗普干脆,对中方交了底

谛听骨语本尊
2025-12-17 16:30:44
《阿凡达3》预售票房杀疯了,把刘德华这部耗资2亿的大片吓跑了

《阿凡达3》预售票房杀疯了,把刘德华这部耗资2亿的大片吓跑了

糊咖娱乐
2025-12-15 19:16:46
缅甸政府回应昂山素季儿子“母亲可能已去世”言论:她“身体健康”

缅甸政府回应昂山素季儿子“母亲可能已去世”言论:她“身体健康”

红星新闻
2025-12-17 11:54:15
大兴地铁要变天,通勤族笑了,雄安人慌了

大兴地铁要变天,通勤族笑了,雄安人慌了

荷兰豆爱健康
2025-12-17 14:23:01
三大女吃播的现状,骷髅脸,切除味觉神经,ICU立遗嘱

三大女吃播的现状,骷髅脸,切除味觉神经,ICU立遗嘱

半糖甜而不腻
2025-12-16 11:58:01
实锤!一种你认为健康且爱喝的无糖饮料,正在偷偷伤害你的肝脏

实锤!一种你认为健康且爱喝的无糖饮料,正在偷偷伤害你的肝脏

方舟健客科普
2025-12-12 18:35:32
21世纪自然年进球榜发布!梅西91球封神 姆巴佩将梅西拉下神坛?

21世纪自然年进球榜发布!梅西91球封神 姆巴佩将梅西拉下神坛?

体坛八点半的那些事儿
2025-12-16 21:21:59
央5直播广东男篮VS广州,郭艾伦VS徐杰,胡明轩回暖,杜锋要3连胜

央5直播广东男篮VS广州,郭艾伦VS徐杰,胡明轩回暖,杜锋要3连胜

体育大学僧
2025-12-17 11:25:37
日本国会变“骂场”,高市早苗直播被消声,小泉翻白眼救场遭群嘲

日本国会变“骂场”,高市早苗直播被消声,小泉翻白眼救场遭群嘲

云上乌托邦
2025-12-17 19:04:55
尹子维拍的徐冬冬,状态不错

尹子维拍的徐冬冬,状态不错

动物奇奇怪怪
2025-12-16 15:41:43
太难了!西安又一大型医院破产,开业仅7年!

太难了!西安又一大型医院破产,开业仅7年!

华庭讲美食
2025-12-17 06:31:10
汪明荃和罗家英在不丹补拍婚纱照!相爱36年终圆16年婚纱梦

汪明荃和罗家英在不丹补拍婚纱照!相爱36年终圆16年婚纱梦

叨叨话影
2025-11-20 10:04:28
5000万欧巨星!特谢拉或回归,回江苏征战中甲,国内仍留巨额资产

5000万欧巨星!特谢拉或回归,回江苏征战中甲,国内仍留巨额资产

小金体坛大视野
2025-12-17 14:00:46
68岁赵本山近况曝光:卖房卖飞机救女,百亿身家换不来女儿好睡眠

68岁赵本山近况曝光:卖房卖飞机救女,百亿身家换不来女儿好睡眠

明月光
2025-11-22 13:57:08
火箭申请1250万伤病特例:队内7人解开交易限制 斯通着手阵容补强

火箭申请1250万伤病特例:队内7人解开交易限制 斯通着手阵容补强

颜小白的篮球梦
2025-12-17 11:38:07
“没办法只能拎电池回家充电”?北京一小区居民给电动自行车充电遇到大难题…

“没办法只能拎电池回家充电”?北京一小区居民给电动自行车充电遇到大难题…

健身狂人
2025-12-17 14:20:18
SpaceX据悉通知员工进入IPO前静默期

SpaceX据悉通知员工进入IPO前静默期

界面新闻
2025-12-17 15:33:44
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
2025-12-17 20:28:49

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

中方被指对日本提出批评并要多国支持立场 外交部回应

头条要闻

中方被指对日本提出批评并要多国支持立场 外交部回应

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

艺术
房产
旅游
公开课
军事航空

艺术要闻

毛主席书写林则徐诗词,字迹超凡,引发关注。

房产要闻

团购14888元/㎡起!海建·凤翔豪庭献礼自贸港封关

旅游要闻

新闻8点见丨Z世代年轻人的冰雪游;快评:控烟黑科技需答好隐私考题

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

最新现场:山东舰完成年度最后一次海上训练

无障碍浏览 进入关怀版
×