网易首页 > 网易号 > 正文 申请入驻

读了20次“苟富贵勿相忘”后,谷歌翻译:没钱的人总会被遗忘 | 机器翻译古文也翻车?

0
分享至

陈胜者,阳城人也 ,字涉。吴广者,阳夏人也,字叔。

相信不少人还记得中学的时候全文背诵《陈涉世家》的痛苦,当然还有考试的时候让你翻译某一句名言,像是“燕雀安知鸿鹄之志哉”,或者“天下苦秦久矣。吾闻二世少子也,不当立,当立者乃公子扶苏”。

如今,随着AI技术的成熟,机器也逐渐在学习如何以人类的方式行动和思考。

既然如此,我们为何不考考它,看看在AI眼中,《陈涉世家》到底是个什么故事。

最近,B站上一位叫做“鹰目大人”的阿婆主就用谷歌翻译对AI进行了一次随堂测验,只不过它的表现嘛,就见仁见智了。

比如,AI就把这句著名的“苟富贵,勿相忘”就翻译成了“没有钱的人,总是会被遗忘”。

“燕雀焉知鸿鹄之志”在AI看来竟然是,“蝎子给了我一个热烈的拥抱”???

整个过程,文摘菌一边黑人问号脸一边笑到拍桌子。

有网友就指出,这波反讽竟然“翻译出了本质”。

还有网友“太喜欢了所以拼了一首诗”,大家可以猜猜每句话对应到的原文是什么?

然后,再来对对答案,看看整本《陈涉世家》都被AI翻译成了什么样子?

1

机器翻译为何如此困难?

其实不管是语种互译,还是古文翻译,都是机器翻译的类别之一。

但是,如果机器翻译翻车的情况持续发生,我们还能相信它吗?

先别急,我们从NMT(neural machine translation,神经网络机器翻译)的诞生开始讲起,看看机器翻译到底是个什么东西。

2013年,Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。

这一研究成果的发布可以说是标志着NMT的诞生,虽然在那之后也有不少研究者进行改进,但是仍然缺乏对模型的理解。比如,经常出现的问题包括但不限于训练和解码过程缓慢;对同一个词的翻译风格不一致;翻译结果存在超出词汇表(out-of-vocabulary)的问题;黑箱的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。

NMT和SMT对比

总的来说:不确定性是翻译中的一个核心挑战。

知己知彼百战百胜,想要根除这种不确定性,我们还需要知道它的来源。

在一篇论文中作者指出,在构建翻译的模型的时候,基本上有两种不确定性,一种是任务本身固有的不确定性,另一种是数据收集过程中存在的不确定性。

所谓内在的不确定性,是指不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”“of”或“their”是可选择的。

除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。

而外在的不确定性,则是因为系统,特别是模型,需要大量的训练数据才能表现良好。为了节省时间和精力,使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。

在一些加了copy机制的翻译模型中,对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现,即使copy机制很小,也能对模型预测产生较大的影响。

论文下载地址:

https://arxiv.org/pdf/1803.00047.pdf

2

机器翻译频繁翻车,微信谷歌无一幸免

去年3月,微信翻译的频繁翻车事件得到了人们的关注,机器翻译的不确定性同时也被更多人所了解。

目前,机器翻译领域主要使用的NMT架构都差不多,一方面问题出在解码器语言模型,使用的语料让它学习到了这些最大概率出现的词。微信团队在处理的过程中似乎没有对“特殊情况”进行处理,于是我们就能看到这样的翻译发生:

如果添加了特殊词的copy机制,完全可以把无法翻译的单词不进行翻译,直接copy过去。也就是说,一个聪明的模型应该知道哪些应该翻译,哪些不应该翻译。

随后,微信也针对这一问题进行了修复,对于敏感词“caixukun”或者句式“you are so……”进行原句返回。

除了解码器语言模型外,问题可能更多出现在语料库上,现在业界所做的机器翻译很大程度上靠语料“怼”,只要平行语料数量足够多,质量足够好, 一般的系统也可以训练出很好的结果。

不过,如果训练语料多来自电影字幕、多语言会议等材料,那么模型最终呈现的翻译内容也会相对应比较“活泼”和“口语化”。面对库中不存在的词,比如caixunkun,算法会自动匹配最经常出现,或者在同语境下最容易匹配的内容,比如形容词“帅哥”或“傻蛋”。

当然除了微信,被业界视为先驱的谷歌也发生过类似的翻车案例。

此前就有Reddit网友指出,谷歌翻译在学习过程中可能受到了输入来源的影响,将一些意味不明的语句翻译成了如圣经一般的语言。比如这个:

英文大意为:世界末日时钟在12点3分钟,我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越接近末日和耶稣的回归。

哈佛大学助理教授、研究自然语言处理和计算机翻译的Andrew Rush认为,这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。他表示,在神经机器翻译中,系统训练用了一种语言的大量文本来和另一种语言进行相应翻译,以在两者之间创建模型。但当输入的是无意义内容时,系统就会出现“幻觉性”的输出结果。

在去年AI Time的一次辩论中,中科院自动化研究所研究员宗成庆就表示,机器翻译近几年的进步确实很大,但是其需要基于场景和任务。机器翻译在一些场景下确实能帮助人,比如旅游问路,但是在某些领域,比如高层次的翻译,要对机器翻译寄予太多的希望还为时过早。

东北大学计算机学院教授朱靖波根据自己的经验列举出好的机器翻译系统需要的三个东西:一是扩大训练数据规模,提高品质;二是不断创新技术;三是根据问题不断打磨,三者缺一不可。

看来,机器翻译未来还有很长一段路要走啊!

食物、能源、水的短缺是人类面对的终极挑战。人工智能技术是我们面对这些挑战强有力的武器。最前沿的发展如何?我们如何突破困境?腾讯首席探索官网大为最新力作《重构地球:AI FOR FEW》,马化腾力荐!

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
输得不服?王博怒喷:好像摔跤柔道比赛,粤蜜:裁判已很帮广厦了

输得不服?王博怒喷:好像摔跤柔道比赛,粤蜜:裁判已很帮广厦了

南海浪花
2026-04-05 06:03:28
舅舅是蒋介石,1936年他踩了警察局长小老婆脚,局长打他三耳光

舅舅是蒋介石,1936年他踩了警察局长小老婆脚,局长打他三耳光

宅家伍菇凉
2025-08-20 15:52:52
突然变天!中澳航班大面积取消、票价暴涨!真正的危机才刚刚开始…

突然变天!中澳航班大面积取消、票价暴涨!真正的危机才刚刚开始…

澳洲红领巾
2026-04-04 12:33:04
荷兰一犹太相关场所发生爆炸事件

荷兰一犹太相关场所发生爆炸事件

环球网资讯
2026-04-05 06:30:21
冯提莫直播被怼腋下管理!当场硬刚,网友吵翻了

冯提莫直播被怼腋下管理!当场硬刚,网友吵翻了

明星爆料客
2026-04-04 22:39:50
王京花想不明白,为何砸再多资源儿子都不火,孙怡却走上了上坡路

王京花想不明白,为何砸再多资源儿子都不火,孙怡却走上了上坡路

揽星河的笔记
2026-04-04 17:12:47
巴尔韦德妻子吐槽巴萨红牌改判:这都不算红,球场真该关门了

巴尔韦德妻子吐槽巴萨红牌改判:这都不算红,球场真该关门了

懂球帝
2026-04-05 05:14:24
终结4连败魔咒!申裕斌4-1陈幸同晋级四强:乒超锤炼后实力暴涨

终结4连败魔咒!申裕斌4-1陈幸同晋级四强:乒超锤炼后实力暴涨

颜小白的篮球梦
2026-04-04 18:55:38
科维托娃产下双胞胎,但围绕她的几起争议仍未消散

科维托娃产下双胞胎,但围绕她的几起争议仍未消散

网球之家
2026-04-04 12:16:48
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
潘玮柏在成都一顿吃了5碗面,网友:太会吃了

潘玮柏在成都一顿吃了5碗面,网友:太会吃了

红星新闻
2026-04-04 18:31:01
每天3分钟5个动作,肌肉质量暴涨45%?打工人终于能坐着瘦!

每天3分钟5个动作,肌肉质量暴涨45%?打工人终于能坐着瘦!

徐孟医生说疼痛
2026-04-02 19:00:06
悲哀!东契奇伤势更新!场均12.3分5助攻成笑柄,詹姆斯你退役吧

悲哀!东契奇伤势更新!场均12.3分5助攻成笑柄,詹姆斯你退役吧

篮球信息社
2026-04-04 21:50:01
中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

混沌录
2026-04-03 17:28:23
事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

策略述
2026-04-02 18:20:07
25年来首次,世界贸易组织更改台湾称呼,美国也改变涉台表述

25年来首次,世界贸易组织更改台湾称呼,美国也改变涉台表述

阿器谈史
2026-04-04 14:17:00
6岁走失女童新线索曝光,手机在地沟里找到,奶茶店老板发声

6岁走失女童新线索曝光,手机在地沟里找到,奶茶店老板发声

天天热点见闻
2026-04-05 07:19:36
中微董事长尹志尧,给半导体泼点冷水

中微董事长尹志尧,给半导体泼点冷水

第一财经资讯
2026-04-04 15:57:50
医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

熊猫医学社
2026-04-03 11:35:03
杜锋终于醒了!把球权交给徐杰,将2人移出首发阵容,球队连赢3场

杜锋终于醒了!把球权交给徐杰,将2人移出首发阵容,球队连赢3场

金山话体育
2026-04-05 06:41:33
2026-04-05 08:31:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7170文章数 20743关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

爆火鸡煲店老板喊话网友"别来了" 连"少东家"也被召回

头条要闻

爆火鸡煲店老板喊话网友"别来了" 连"少东家"也被召回

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

房产
本地
亲子
手机
公开课

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

优生优育,从科学孕前准备开始

手机要闻

四款Ultra旗舰参数比拼:小米、荣耀、vivo、OPPO,谁的堆料更狠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版