四年前,一个叫KennethWehr的德国人干了件“狠事”,他接管格陵兰语维基百科后,直接删掉了几乎所有内容。
换谁看到自己上心的语言被搞得乌烟瘴气,估计都得有这股子“破釜沉舟”的劲儿。
Wehr不是格陵兰人,但十几岁去那岛玩过之后就着了迷,后来还专门搬到哥本哈根学格陵兰语。
他本来想好好打理这个维基,结果打开一看,心直接凉了半截。
![]()
格陵兰语就5万多人用,大多是北极圈里的因纽特人。
这维基2003年就上线了,到Wehr接手时,看着有1500篇文章,挺像那么回事。
可实际上呢?几乎没几篇是会说这语言的人写的,好多都是机器翻译直接粘过来的。
你敢信?有个词条说加拿大只有41个居民,还有的页面全是乱码,机器找不到对应词汇就瞎凑字母。
![]()
Wehr后来在丹麦教格陵兰语,他说那些内容看着像格陵兰语,其实根本不通,“AI翻译对付这语言,简直是灾难”。
格陵兰语的“数字绝路”:AI把小语种译成了“天书”
格陵兰语这事儿真不是个例,维基百科有340多种语言版本,好多小语种版本早被机器翻译占了。
比如非洲有四种语言的维基,一半左右的文章都是没校对过的机器翻译,加拿大的因纽特语维基,超三分之二的长页面都掺了这东西。
![]()
更麻烦的是,小语种的在线数据本来就少,维基百科常常是AI学语言的主要“教材”。
要是维基上全是错的,AI学完只会更错,然后又有人用这错AI去写维基,这不就成了“垃圾进、垃圾出”的死循环?
圣路易斯大学前教授KevinScannell说得直白,“这些AI学语言全靠文本,没语法书没词典,输入错的,它就只能学错的”。
2020年就有数据说,非洲好几种语言的AI翻译,一半训练数据来自维基,2022年还有研究发现,27种小语种,就只有维基能找到点在线文本。
![]()
教材本身就是错的,AI能学好才怪。
富尔富尔德语的情况更糟,尼日利亚的Abdulkadir每天花三小时改维基,他说谷歌翻译把“一月”译成“六月”,ChatGPT一会儿说“八月”一会儿说“九月”,连“收获”都能译成“发烧”。
之前有篇讲豇豆的文章,机器翻译得根本没法读,Abdulkadir只能一点点改,“要是农民看了这篇文章,选错种子或者弄错种植时间,那可是真坑人”。
本来想AI能帮小语种传播,结果倒好,成了“催命符”。
![]()
夏威夷大学的NoahHaʻalilioSolomon说,夏威夷语维基上35%的词都没法懂,“这语言好不容易在复兴,现在网上全是这乱七八糟的东西,别人还以为夏威夷语就是这样,太伤了”。
有人“瞎帮忙”坑了语言,有人却把小语种救了回来
不过也不是所有小语种都这么惨,芬兰的伊纳里萨米语就走出了一条不一样的路。
四十年前这语言快没了,就四个孩子会说。
![]()
他们父母成立了语言协会,一点点救,现在不光有几百个使用者,维基上还攒了6400篇文章,每篇都得母语者审过。
伊纳里萨米语维基的人说,他们不追求数量,就抓质量。
现在学校都把维基当教材,老师还会打电话请他们写“龙卷风”“电子游戏”这类新词,让语言能跟上现在的生活。
FabrizioBrecciaroli是语言协会的,他说“年轻人查怎么说‘电竞’,就能用自己的语言聊这些,慢慢就愿意用了”。
![]()
这才是保护语言该有的样子,不是靠机器凑数,而是让语言真的“活”在当下。
反观那些被AI坑了的语言,问题大多出在“没人管”。
加拿大有个叫Lee的老师,用谷歌翻译加ChatGPT把英语文章译成因纽特语,还觉得是帮忙。
他说当时没想过没人会改,“以为总会有人看到修正”,结果文章挂上去就没人动过。
![]()
这种“大维基傲慢”真挺害人的,觉得自己好心,其实是给小语种添了负担。
更离谱的是,AI还把这些错翻译做成了书。
亚马逊上有本因纽特语入门书,语言学家RichardCompton一看,全是胡说八道,“这就是欺诈,年轻人想学自己的语言,结果学了一堆错的,反而离语言更远了”。
最后格陵兰语维基还是没保住,今年早些时候被关了,文章移去了“孵化器”。
![]()
Wehr说他找了好久人帮忙复兴,可格陵兰没多少人感兴趣,“没人贡献,留着全是错内容,还不如关了”。
现在你让谷歌翻译或ChatGPT用格陵兰语数1到10,俩都做不到,那些错已经刻在AI里了。
看着格陵兰语这样,挺揪心的,但伊纳里萨米语的例子也说明,小语种不是没救。
关键不在AI有多厉害,而在有没有人真的为这门语言花心思。
![]()
要是光靠机器瞎凑,再濒危的语言也经不住这么折腾,但只要有人愿意一点点打磨内容,让语言真的能用、好用,小语种就还有希望。
毕竟语言不是一堆数据,是一个社群的根,得有人护着才行。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.