![]()
这项由保加利亚索菲亚大学INSAIT研究所联合苏黎世联邦理工学院完成的研究发表于2026年2月,论文编号为arXiv:2602.22207v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们用手机上的翻译软件把中文翻译成英文时,通常效果还不错。但是,当AI研究人员想要测试他们的智能系统在其他语言上的表现时,却遇到了一个大麻烦:现有的测试题目翻译质量实在太差了。这就好比你想用一把歪歪扭扭的尺子来测量桌子的长度,得出的结果肯定不准确。
研究团队发现了一个令人担忧的现象:目前用来评测AI系统多语言能力的测试题目,大多数都是用老旧的翻译工具或者过时的AI模型翻译的。这些翻译就像是用几年前的手机拍照一样,画质模糊、细节丢失。更糟糕的是,许多翻译是把问题和答案分开处理的,这就像是把一句话拆成两半分别翻译,然后再拼在一起,结果自然是牛头不对马嘴。
为了解决这个问题,研究团队把目光投向了东欧和南欧的八种语言:乌克兰语、保加利亚语、斯洛伐克语、罗马尼亚语、立陶宛语、爱沙尼亚语、土耳其语和希腊语。选择这些语言并不是随意的,而是经过深思熟虑的。这些语言就像是语言学习中的"高难度关卡"——它们有着复杂的语法规则,比如名词有很多种变格形式,动词的时态变化也非常复杂。同时,这些语言又不像中文或阿拉伯语那样资源稀缺,而是处于一个尴尬的中等资源水平,现有的翻译工具对它们的支持还不够好。
研究团队就像是组装了一条高效的生产流水线,开发了一套全自动的翻译框架。这套系统最巧妙的地方在于,它不是简单地把英文翻译成目标语言,而是采用了一种叫做"测试时计算扩展"的策略。简单来说,就像是请了好几个翻译专家同时工作,然后通过巧妙的方法选出最好的翻译结果。
这个框架包含四种不同的翻译策略,每种都有自己的特色。第一种是最基础的单次翻译,就像是请一个翻译员直接翻译,翻译完成后还可以让另一个专家检查一遍。第二种叫做"最佳选N"策略,就像是让同一个翻译员翻译好几遍,然后从中挑选最好的一个版本。第三种是"通用自我改进"方法,它会先生成多个翻译版本,然后让AI系统把这些版本的优点融合在一起,创造出一个更完美的版本。
最有趣的是第四种方法,研究团队称之为"翻译排名"。这个方法就像是举办了一场翻译比赛,让AI系统对多个翻译版本进行多轮排名。为了避免"第一印象"的偏见(AI系统往往会偏爱排在前面的选项),研究人员设计了一个巧妙的轮换机制,确保每个翻译版本都有机会出现在不同的位置上。经过多轮比较后,系统会选出质量最高的翻译,并在必要时进一步优化。
研究团队选择了四个广泛使用的AI测试基准进行翻译:MMLU(大规模多任务语言理解)、Hellaswag(常识推理)、ARC(AI推理挑战)和Winogrande(代词消歧)。这些测试就像是AI系统的"高考试卷",涵盖了从基础知识到复杂推理的各个方面。
在实际测试中,研究团队使用了两个主要的翻译模型:OpenAI的GPT-4o-mini和Google的Gemini-2.0-Flash。他们发现,新的翻译方法在所有语言上都取得了显著改进。以乌克兰语为例,在传统的机器翻译基准测试中,新方法比基础翻译的得分提高了1.8到0.5个百分点,这在翻译质量评估中是相当可观的提升。
更令人兴奋的是,当他们用改进后的翻译测试实际的AI模型时,发现这些模型的表现得分普遍提高了。在Winogrande测试中,平均提升幅度达到了3.42%,这是最显著的改进。其他测试也都有不同程度的提升:ARC-Challenge提升了2.35%,Hellaswag提升了1.63%,MMLU提升了0.94%。
这些数字背后反映的问题更加深刻。研究人员发现,现有翻译中存在着各种各样的问题。有些翻译会无意中泄露正确答案,比如在一些需要选择代词指代对象的题目中,翻译后的语法性别标记会直接暴露答案。有些翻译则存在语义偏移,把"寿命"翻译成了"生命周期",虽然看似相近,但在科学语境下含义完全不同。还有一些翻译使用了不当的术语,比如把"水生生物"翻译成了"水样生物",让人摸不着头脑。
研究团队还发现了翻译中的一个普遍问题:当问题和答案选项分开翻译时,经常会出现语法不匹配的情况。这就像是你问"谁吃了苹果?",然后给出的选项是"小明吃"、"小红吃",语法上根本对不上号。而他们的方法通过保持问题和答案在同一个语境中翻译,完美地解决了这个问题。
在对比测试中,研究人员使用了AI评判系统来比较他们的翻译和现有的Global-MMLU翻译质量。结果显示,在乌克兰语、罗马尼亚语和立陶宛语的测试中,他们的翻译方法在绝大多数比较中都胜出。具体来说,在乌克兰语的14042个测试样本中,他们的翻译在8750个样本中获胜,只有2016个样本失利,其余3276个样本打平。
这项研究的意义远远超出了翻译本身。它为AI系统的多语言评测建立了新的质量标准,让研究人员能够更准确地了解AI系统在不同语言环境下的真实表现。这就像是给全世界的AI研究提供了一套更精确的测量工具,让我们能够更好地推动AI技术的全球化发展。
研究团队已经将他们开发的翻译框架和改进后的测试基准公开发布,供全球研究人员使用。这种开放共享的精神确保了研究成果能够惠及整个AI研究社区,推动多语言AI技术的进步。
说到底,这项研究解决的是一个看似技术性但实际上关乎公平性的重要问题。当我们评估AI系统的能力时,不能因为翻译质量的差异而让某些语言的使用者处于不利地位。就像体育比赛需要统一的规则和标准一样,AI评测也需要高质量、一致性的多语言测试环境。这项研究为实现这个目标迈出了重要的一步,让我们离真正公平、准确的多语言AI评测更近了一步。
对于普通用户来说,这项研究意味着未来我们使用的AI产品在处理非英语内容时会更加准确和可靠。无论是智能翻译、语音助手还是其他AI应用,都将受益于这种更精确的多语言评测方法,为全球用户提供更好的服务体验。
Q&A
Q1:什么是测试时计算扩展策略?
A:测试时计算扩展策略就像请多个翻译专家同时工作的方法。系统会生成多个翻译版本,然后通过智能选择或融合的方式得到最佳结果,而不是只依赖一次翻译的输出,这样能大大提高翻译质量。
Q2:为什么选择东欧和南欧这八种语言进行研究?
A:这些语言具有复杂的语法结构,比如多种名词变格和复杂的动词时态,对翻译质量很敏感。同时它们属于中等资源语言,既有一定的研究基础,又存在明显的翻译质量问题,是理想的研究对象。
Q3:翻译排名方法如何避免AI系统的位置偏见?
A:翻译排名方法采用多轮轮换机制,让每个翻译版本都有机会出现在不同位置。比如有5个翻译版本,系统会进行5轮排名,每轮都改变版本的位置顺序,确保每个版本都在每个位置出现过一次,这样就消除了位置偏见。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.