网易首页 > 网易号 > 正文 申请入驻

机器翻译古文也翻车?读了20次“苟富贵勿相忘”后,谷歌:没钱的人总会被遗忘

0
分享至

  

  大数据文摘出品

  作者:Caleb

  陈胜者,阳城人也 ,字涉。吴广者,阳夏人也,字叔。

  相信不少人还记得中学的时候全文背诵《陈涉世家》的痛苦,当然还有考试的时候让你翻译某一句名言,像是“燕雀安知鸿鹄之志哉”,或者“天下苦秦久矣。吾闻二世少子也,不当立,当立者乃公子扶苏”。

  如今,随着AI技术的成熟,机器也逐渐在学习如何以人类的方式行动和思考。

  既然如此,我们为何不考考它,看看在AI眼中,《陈涉世家》到底是个什么故事。

  最近,B站上一位叫做“鹰目大人”的阿婆主就用谷歌翻译对AI进行了一次随堂测验,只不过它的表现嘛,就见仁见智了。

  

  比如,AI就把这句著名的“苟富贵,勿相忘”就翻译成了“没有钱的人,总是会被遗忘”

  

  “燕雀焉知鸿鹄之志”在AI看来竟然是,“蝎子给了我一个热烈的拥抱”???

  

  整个过程,文摘菌一边黑人问号脸一边笑到拍桌子。

  有网友就指出,这波反讽竟然“翻译出了本质”

  

  还有网友“太喜欢了所以拼了一首诗”,大家可以猜猜每句话对应到的原文是什么?

  

  然后,再来对对答案,看看整本《陈涉世家》都被AI翻译成了什么样子?

  机器翻译为何如此困难?

  其实不管是语种互译,还是古文翻译,都是机器翻译的类别之一。

  但是,如果机器翻译翻车的情况持续发生,我们还能相信它吗?

  先别急,我们从NMT(neural machine translation,神经网络机器翻译)的诞生开始讲起,看看机器翻译到底是个什么东西。

  2013年,Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。

  这一研究成果的发布可以说是标志着NMT的诞生,虽然在那之后也有不少研究者进行改进,但是仍然缺乏对模型的理解。比如,经常出现的问题包括但不限于训练和解码过程缓慢;对同一个词的翻译风格不一致;翻译结果存在超出词汇表(out-of-vocabulary)的问题;黑箱的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。

  

  NMT和SMT对比

  总的来说:不确定性是翻译中的一个核心挑战。

  知己知彼百战百胜,想要根除这种不确定性,我们还需要知道它的来源。

  在一篇论文中作者指出,在构建翻译的模型的时候,基本上有两种不确定性,一种是任务本身固有的不确定性,另一种是数据收集过程中存在的不确定性

  所谓内在的不确定性,是指不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”“of”或“their”是可选择的。

  除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。

  而外在的不确定性,则是因为系统,特别是模型,需要大量的训练数据才能表现良好。为了节省时间和精力,使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。

  在一些加了copy机制的翻译模型中,对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现,即使copy机制很小,也能对模型预测产生较大的影响。

  论文下载地址:

  https://arxiv.org/pdf/1803.00047.pdf

  机器翻译频繁翻车,微信谷歌无一幸免

  去年3月,得到了人们的关注,机器翻译的不确定性同时也被更多人所了解。

  目前,机器翻译领域主要使用的NMT架构都差不多,一方面问题出在解码器语言模型,使用的语料让它学习到了这些最大概率出现的词。微信团队在处理的过程中似乎没有对“特殊情况”进行处理,于是我们就能看到这样的翻译发生:

  

  如果添加了特殊词的copy机制,完全可以把无法翻译的单词不进行翻译,直接copy过去。也就是说,一个聪明的模型应该知道哪些应该翻译,哪些不应该翻译。

  随后,微信也针对这一问题进行了修复,对于敏感词“caixukun”或者句式“you are so……”进行原句返回。

  

  除了解码器语言模型外,问题可能更多出现在语料库上,现在业界所做的机器翻译很大程度上靠语料“怼”,只要平行语料数量足够多,质量足够好, 一般的系统也可以训练出很好的结果。

  不过,如果训练语料多来自电影字幕、多语言会议等材料,那么模型最终呈现的翻译内容也会相对应比较“活泼”和“口语化”。面对库中不存在的词,比如caixunkun,算法会自动匹配最经常出现,或者在同语境下最容易匹配的内容,比如形容词“帅哥”或“傻蛋”。

  当然除了微信,被业界视为先驱的谷歌也发生过类似的翻车案例。

  此前就有Reddit网友指出,谷歌翻译在学习过程中可能受到了输入来源的影响,将一些意味不明的语句翻译成了如圣经一般的语言。比如这个:

  

  英文大意为:世界末日时钟在12点3分钟,我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越接近末日和耶稣的回归。

  哈佛大学助理教授、研究自然语言处理和计算机翻译的Andrew Rush认为,这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。他表示,在神经机器翻译中,系统训练用了一种语言的大量文本来和另一种语言进行相应翻译,以在两者之间创建模型。但当输入的是无意义内容时,系统就会出现“幻觉性”的输出结果。

  在去年中,中科院自动化研究所研究员宗成庆就表示,机器翻译近几年的进步确实很大,但是其需要基于场景和任务。机器翻译在一些场景下确实能帮助人,比如旅游问路,但是在某些领域,比如高层次的翻译,要对机器翻译寄予太多的希望还为时过早。

  东北大学计算机学院教授朱靖波根据自己的经验列举出好的机器翻译系统需要的三个东西:一是扩大训练数据规模,提高品质;二是不断创新技术;三是根据问题不断打磨,三者缺一不可。

  看来,机器翻译未来还有很长一段路要走啊!

  点「在看」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

“真正魔鬼已经露面”,它就在美国加州!关于武汉的谣言注定破灭

拾月儿
2021-03-05 17:32:07

拜登政府发表“挺台”言论,苏贞昌嘚瑟:过去有人讥笑我们押错宝

海峡导报社
2021-03-05 10:35:07

女博士成街头怀孕流浪女,背后的曲折遭遇刺痛9000万单身女性

中年女同学自救指南
2021-03-05 11:48:31

沙特宣布减产100万桶/日,美国辉煌落幕,俄罗斯成“最大赢家”?

金十数据
2021-03-05 17:05:37

辽篮新闻速递:双外援今日同飞机抵达中国,丛明晨被剥夺主力位置

萌头娇娃
2021-03-05 12:11:55

棍棒打不出爱学习的孩子,也骂不出爱学习的孩子,只能是越管越糟

焦点新资讯
2021-03-05 14:59:53

他一生穷困潦倒,一妻九妾子女32人,死后上千妓女守灵,一片哭声

小7食谱
2021-03-05 07:08:10

突发重磅!强震4连袭最高8.1级!海啸预警拉响,居民仓皇逃离

大世界小杰说
2021-03-05 11:07:25

湖南一公司团建玩高空丢手绢,脚下万丈深渊,场面惊险冷汗直流

易看宠物世界
2021-03-05 08:01:37

又一辆合资神车倒下!从月销14142暴跌至1838辆,网友:活该

娱乐猪猪侠
2021-03-05 13:15:02

绝不能放进微波炉的10样东西,最后一个太意外!

人气美食分享
2021-03-05 12:06:07

罗马尼亚媒体:奥拉罗尤将江苏足球俱乐部告上国际体育仲裁法庭

直播吧
2021-03-05 15:18:02

昔日八一厂男星 演雷锋走红 娶女工为妻不离不弃 岳母是著名影星

DJ雅清
2021-03-04 21:05:51

年过四旬的王珮瑜至今单身、梅葆玖介绍弟子胡文阁被婉拒

婚说
2021-03-05 13:14:51

“小彩旗”的10年堕落史!自毁的功力,不亚于郑爽

光线娱乐
2021-03-04 13:34:43

孩子们的美好童年,不应该葬送在武断蛮横的家长手里

互联网云观察
2021-03-05 14:58:59

甩锅游戏只为寻求心理安慰,失败教育下的家长有多可恶?

互联网热议榜
2021-03-05 15:07:08

宋轶卸下古装依旧美艳动人!《赘婿》9位女演员古装前后对比

娱乐圈速递员
2021-03-05 09:13:52

欧洲最聪明的国家,为何抱紧中国大腿呢?难怪几百年兴盛不衰

小李博史
2021-03-03 06:30:07

昨晚,哈尔滨阳明滩大桥车撞桥栏车毁人亡

生活报
2021-03-05 15:59:05
2021-03-05 19:25:06
大数据文摘
大数据文摘
专注大数据,每日有分享!
4124文章数 84980关注度
往期回顾 全部

科技要闻

法院裁定:禁止李国庆殴打、威胁、骚扰俞渝

头条要闻

中国人感染新冠在柬死亡?大使馆:过量吸食安非他命

头条要闻

深圳二手房"捆绑"销售:900万的房 家电和床值380万

体育要闻

攻陷安菲尔德!蓝军新帅挨个拥抱弟子

娱乐要闻

巩俐29年前美照曝光 红裙显明媚

财经要闻

汽车要闻

车神·经之魅影:劳斯莱斯家族中的坏孩子?

态度原创

艺术
本地
教育
公开课
军事航空

艺术要闻

三八妇女节,安排一场与花有关的约会

本地新闻

为什么明星的眼睛总是亮晶晶?

教育要闻

多国规范中小学生在校使用手机

公开课

记者卧底精神病院,震惊发现正常人不在少数

军事要闻

老兵回归 封存的B52接受维护恢复现役