网易首页 > 网易号 > 正文 申请入驻

谷歌翻译在这类句子上翻车47%,多语言混用成NLP死结

0
分享至

印度程序员发一条消息,前半句是泰米尔语,后半句突然切英语。菲律宾客服接电话,他加禄语和英语交替蹦出。这种日常场景里,传统自然语言处理(NLP)系统的准确率会暴跌到什么地步?谷歌2021年的内部测试显示,代码混用(Code-Mixing)场景下的语言识别错误率高达47%,而单语言场景只有3%。

这不是边缘案例。全球超过半数人口日常使用两种及以上语言,代码混用是常态,不是异常。但大多数NLP系统的设计前提,恰恰是"一句话一种语言"。

为什么人会混着说话

语言切换从来不是随机行为。Kishorekumar在分析中举了一个典型例子:"Inniku meeting iruku but I didn't prepare."(今天有会,但我没准备。)前半句泰米尔语,后半句英语,切换点卡在"but"这个转折词上。

这种切换通常发生在三个节点:概念缺失(目标语言没有对应词汇)、社交身份标记(向特定群体示好)、以及情感强度变化(用母语骂脏话更解气)。多语言社会的使用者不是" defective monolinguals "(有缺陷的单语者),而是发展出了一套高效的沟通策略。

问题是,这套策略对机器来说像加密通话。

NLP系统的三重崩溃

第一重:语言边界模糊

标准语言识别模型假设输入是"纯净"的。但代码混用文本里,词级别、甚至字符级别都在跳语言。泰米尔语"iruku"(有)和英语"meeting"挤在同一个句法结构里,传统基于n-gram的检测器会直接死机。

第二重:标注成本爆炸

单语语料已经够贵了。低资源语言的标注单价可能是英语的5-10倍,因为需要母语者参与。代码混用语料更麻烦:标注者本身必须是平衡双语者,能判断每个词的归属,还要处理语法杂交的灰色地带。一个句子的标注成本可能翻3倍,而可用人才池缩小90%。

第三重:语法规则失效

"Na late ah varuven, don't start without me."(我会迟到,别先开始。)这句混合了泰米尔语的助词结构"ah"和英语的祈使句。它不符合任何单一语言的语法规范,但又完全可理解。基于规则的传统解析器在这里毫无用武之地,而神经网络也得从头学一套非标准的统计规律。

现有解法都在打补丁

学术界的主流应对策略是分而治之:先做语言识别,再切分片段,最后分别处理。但这套流程在2019年的一篇论文中被证明有根本缺陷——代码混用的核心恰恰在于"不可切分",语言切换往往发生在短语内部,而不是句间边界。

端到端模型是另一条路。2022年的几项研究显示,用多语言预训练模型(如mBERT、XLM-R)直接喂代码混用数据,比流水线方案提升约15%的F1分数。但代价是:需要十倍以上的训练数据,且对未见过的语言组合泛化能力极差。

最务实的方案可能是"拥抱混乱"。一些语音助手厂商开始收集真实的代码混用对话,不再追求完美的语言标签,而是直接优化下游任务(意图识别、槽位填充)的准确率。准确率数字不好看,但用户满意度反而上升——因为系统终于"听懂"了人话。

一个被忽视的数据点

2023年,WhatsApp在印度推出AI贴纸功能时,内部测试发现一个反直觉现象:代码混用程度越高的用户群体,对AI功能的采纳率反而越低。不是因为他们不需要,而是因为早期的NLU(自然语言理解)模型在他们的对话上表现太差,导致信任崩塌。

这个群体占印度智能手机用户的62%。

多语言混用不是技术债务,是设计债务——系统架构从一开始就没把真实用户放进来。现在的问题是:当你的目标市场一半以上人口这样说话时,"支持多语言"到底意味着什么?是支持100种语言各自为政,还是支持一个人在一句话里自由切换?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
73岁的普京恐怕没想到,和乌克兰打了四年,最支持他的反而是这国

73岁的普京恐怕没想到,和乌克兰打了四年,最支持他的反而是这国

小小科普员
2026-04-10 16:37:53
后悔了!曼联弃将的真情告白:与阿莫林决裂是职业生涯最大的错误

后悔了!曼联弃将的真情告白:与阿莫林决裂是职业生涯最大的错误

体坛鉴春秋
2026-04-11 11:59:23
库里11+5勇士不敌国王吞连败,波杰姆斯基30分国王4人20+

库里11+5勇士不敌国王吞连败,波杰姆斯基30分国王4人20+

湖人崛起
2026-04-11 12:38:57
女子问下山的人:“光明顶还有多远”,下山小伙秒懂,立马切换“戏精模式”

女子问下山的人:“光明顶还有多远”,下山小伙秒懂,立马切换“戏精模式”

观威海
2026-04-11 09:52:13
辽阳奔驰陪葬后续:多部门介入,豪车当天被挖出!当事人背景流出

辽阳奔驰陪葬后续:多部门介入,豪车当天被挖出!当事人背景流出

火山詩话
2026-04-11 08:39:41
演员赵达官宣结婚,周也祝福:舅舅新婚快乐,王阳发文:恭喜“寝室六弟”

演员赵达官宣结婚,周也祝福:舅舅新婚快乐,王阳发文:恭喜“寝室六弟”

鲁中晨报
2026-04-11 13:40:13
福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

有范又有料
2026-04-10 18:23:21
真实故事||我登录了我妈的账号,3天后,她和我爸的婚姻彻底死了。

真实故事||我登录了我妈的账号,3天后,她和我爸的婚姻彻底死了。

猪小浅
2026-04-10 08:42:45
CBA“鬼才”教练!弃用600万顶薪球员,掀翻四冠王 球迷:厉害

CBA“鬼才”教练!弃用600万顶薪球员,掀翻四冠王 球迷:厉害

体育哲人
2026-04-11 15:34:51
《浪姐》赵子琪淘汰后硬气表态!王濛全程黑脸,张慧雯被骂哭的假

《浪姐》赵子琪淘汰后硬气表态!王濛全程黑脸,张慧雯被骂哭的假

小樾说历史
2026-04-11 11:24:03
绕月宇航员出舱画面曝光:被搀扶着坐上船,飞船外部烧得黑不溜秋

绕月宇航员出舱画面曝光:被搀扶着坐上船,飞船外部烧得黑不溜秋

好贤观史记
2026-04-11 13:49:35
A股:股民做好准备了,下周一,4月13日,很可能将迎来更大的转变

A股:股民做好准备了,下周一,4月13日,很可能将迎来更大的转变

丁丁鲤史纪
2026-04-11 10:55:54
陈宝国发福显老如80岁,独子不结婚成唯一心病

陈宝国发福显老如80岁,独子不结婚成唯一心病

风月得自难寻
2026-04-10 00:04:36
52:141,匈牙利民调出炉后,马克龙率先发难,又有两国曝私下交易

52:141,匈牙利民调出炉后,马克龙率先发难,又有两国曝私下交易

策略述
2026-04-10 16:22:09
《浪姐》赵子琪被淘汰后连发多文,心理真强大,态度真刚

《浪姐》赵子琪被淘汰后连发多文,心理真强大,态度真刚

老吴教育课堂
2026-04-11 08:26:30
金价大反转

金价大反转

新浪财经
2026-04-10 18:52:09
国共会谈1个多小时,接待规格超惯例,郑丽文亲自汇报访陆成果

国共会谈1个多小时,接待规格超惯例,郑丽文亲自汇报访陆成果

启迪你思维
2026-04-11 11:28:04
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
让全红婵卸下防备的人,不是陈若琳,不是郭晶晶,是第一次见的她

让全红婵卸下防备的人,不是陈若琳,不是郭晶晶,是第一次见的她

可乐谈情感
2026-04-11 13:31:03
2026-04-11 18:31:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
1179文章数 15关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
本地
时尚
亲子
公开课

艺术要闻

王羲之《孝经》真迹出土,这是他为皇帝所写

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

这件人生单品,现在正是穿它的黄金期

亲子要闻

不育夫妻惊喜:五个月后竟意外怀孕!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版