阿里团队：如何改进AI评测体系？|翻译|英语|基准|ai评测体|阿里巴巴集团

分享至

这项由阿里巴巴国际数字商务部门联合莫纳什大学、爱丁堡大学、清华大学、汉堡大学等多个国际知名机构共同完成的研究，发表于2025年4月23日的arXiv平台。研究团队包括吴明昊、王维轩、刘思诺等多位研究者，感兴趣的读者可以通过arXiv:2504.15521v1访问完整论文。这项研究首次系统性分析了2021年至2024年间全球发布的2000多个多语言AI评测基准，揭示了一个令人深思的现象：尽管全球已投入超过1100万美元用于构建多语言AI评测体系，但现有的评测方法与人类真实判断之间仍存在巨大鸿沟。

当我们谈论人工智能的语言能力时，就像在讨论一个多语言导游的专业水平。要评判这个导游是否合格，我们需要看他能否真正理解不同文化背景下的游客需求，而不仅仅是机械地翻译语言。然而，当前的AI评测体系就像是用标准化考试来评判导游能力一样，虽然看起来科学严谨，但往往忽略了真实世界中的文化差异和实际应用需求。

研究团队通过分析来自148个国家的2024个相关研究，发现了一个矛盾的现象：尽管研究者们刻意排除了纯英语的评测基准，但英语仍然是这些多语言评测中出现频率最高的语言。这就像在一个号称"国际美食节"的活动中，汉堡包和薯条仍然占据了大部分摊位，真正的地方特色菜却寥寥无几。

更令人惊讶的是，当研究团队深入分析这些评测基准与人类真实判断的关联度时，发现了一个有趣的分化现象。那些涉及数学和科学推理的评测任务，比如解决数学问题或回答科学常识问题，与人类判断的关联度相当高，通常能达到70%到85%的一致性。这种情况就像用计算器的准确性来评判一个人的数学能力——相对客观且容易达成共识。

然而，当涉及到更复杂的语言理解任务时，比如阅读理解或问答系统，评测结果与人类判断的关联度就大幅下降，有些甚至只有11%到30%的一致性。这就好比用标准化的阅读理解题来评判一个人是否真的理解了一本小说的深层含义，往往会出现"高分低能"的现象。

这种差异背后反映了一个根本问题：语言理解涉及大量的文化背景、语境推理和主观判断，而当前的评测方法往往忽略了这些"软性"因素。就像我们不能用同一套标准来评判不同文化背景下的幽默感一样，简单地将英语评测任务翻译成其他语言，并不能真正反映AI在不同文化语境下的表现能力。

研究团队进一步发现，直接翻译的评测基准表现明显不如专门为特定语言和文化设计的本土化评测。以中文为例，专门为中国文化背景设计的CMMLU评测基准与中文用户判断的关联度达到68%，而简单翻译的英文评测基准关联度只有47%到49%。这种差异就像用翻译软件直译的菜单与真正了解当地饮食文化的厨师制作的菜品之间的区别一样明显。

通过分析不同语言用户的实际使用偏好，研究团队发现了一个有趣的现象：尽管语言和文化背景不同，全世界的用户对AI的使用需求却出奇地相似。无论是英语、中文、法语、德语、西班牙语还是俄语用户，大家最关心的都是写作辅助功能，占到了30%到45%的使用比例。接下来是常识推理和编程辅助，这种普遍性反映了人类在面对AI技术时的共同需求。

然而，这种用户需求的一致性与当前评测体系的重点形成了鲜明对比。研究发现，约66%的现有评测基准关注的是分类和选择题这样的"辨别性"任务，而只有23%关注文本生成这样的"创造性"任务。这就像我们用选择题来评判一个作家的写作能力，虽然能测出一些基础知识，但完全无法反映真正的创作水平。

从投资规模来看，研究团队估算这些评测基准的总成本已超过1100万美元，主要集中在中国、印度、德国、英国和美国这五个"G5国家"。这些国家的研究投入呈现出不同的特点：欧洲更注重学术研究，而中美两国则表现出更强的产学研结合趋势。然而，大部分评测基准仍然来自学术界，与实际应用场景存在一定脱节。

在数据来源方面，研究发现了另一个值得关注的趋势。约61%的评测基准使用的是原始语言内容，而不是翻译内容，这本身是一个积极信号。但是，这些内容主要来源于新闻（17%）和社交媒体（13.3%）等公开可获取的领域，而医疗保健、法律等高价值专业领域的代表性明显不足。这就像用娱乐新闻来评判记者的专业水平，虽然有一定参考价值，但无法全面反映专业能力。

更深层的问题在于语言资源的不平衡分布。虽然研究涵盖了50多种语言，但资源丰富的高资源语言（如英语、中文、西班牙语等）仍然占据主导地位，而那些使用人数相对较少的低资源语言则严重缺乏代表性。这种不平衡就像全球互联网内容的分布一样，少数几种主要语言占据了绝大部分资源，而众多小语种则被边缘化。

在翻译方法的选择上，研究显示了技术发展的趋势。虽然人工翻译仍然是质量最高的选择，占13.2%，但各种机器翻译工具正在快速发展。谷歌翻译以8.8%的使用率领先，其次是GPT系列模型（5.0%）和DeepL（1.9%）。这种趋势反映了成本与质量之间的权衡，也预示着未来评测基准构建可能会更多依赖自动化翻译技术。

从任务类型的演变来看，大语言模型的兴起显著改变了评测重点。2023年以后，问答和阅读理解任务出现了爆发式增长，而传统的命名实体识别等任务则呈现下降趋势。这种变化就像智能手机出现后，人们对电子设备功能期待的转变一样，从基础的信息处理能力转向更复杂的理解和交互能力。

数据集规模也在持续扩大，从2021年到2024年，各个规模类别的数据集数量都在增长，特别是大规模数据集（超过10万个样本）从104个增长到304个，几乎翻了三倍。这种趋势反映了"大数据"思维在AI评测领域的渗透，但也引发了关于质量与数量平衡的思考。

针对这些发现，研究团队提出了未来发展的几个关键方向。首先是加强自然语言生成能力的评测，因为当前这方面的评测严重不足，无法满足用户对AI写作辅助功能的实际需求。其次是提高低资源语言的代表性，打破当前由少数高资源语言主导的局面。

本土化评测的重要性也被重点强调。研究表明，简单的翻译无法替代真正理解本土文化的评测基准，未来需要更多投入来开发符合不同文化背景的评测方法。同时，利用大语言模型作为评测工具本身也是一个有前景的方向，尽管需要谨慎处理可能存在的偏见问题。

效率化评测方法的开发同样重要。随着评测规模的不断扩大，如何在保证质量的同时提高效率，避免资源浪费，成为一个现实问题。这就像在保证食品安全的前提下提高检测效率一样，需要在技术和方法上不断创新。

研究团队还特别强调了六个核心特征，这些特征应该成为未来多语言评测基准的设计原则。准确性是基础，所有评测都必须基于可靠的标准答案和专家验证。防污染性确保评测数据不会被AI模型在训练过程中"见过"，避免"作弊"现象。适当的挑战性保证评测能够区分不同模型的能力水平，不会因为过于简单而失去区分度。

实用相关性要求评测任务必须反映真实世界的应用需求，而不是纸上谈兵。语言多样性确保不同语言家族、书写系统和语言类型都能得到适当代表。文化真实性则强调评测内容必须尊重和反映不同文化的特点，而不是简单的语言转换。

当我们审视这些发现时，会发现一个更深层的问题：当前的AI评测体系在很大程度上仍然受到英语中心主义和西方文化视角的影响。这种影响不仅体现在语言选择上，更体现在评测思路和标准设定上。就像用西餐的标准来评判所有菜系一样，这种单一化标准无法真正反映多元文化世界的复杂性。

研究团队呼吁建立一个更加包容和协作的全球评测体系。这个体系应该由来自不同文化背景的研究者共同参与设计，确保每种语言和文化都能在评测中得到公平代表。同时，这个体系还应该更加注重与人类判断的一致性，而不是单纯追求技术指标的提升。

从商业角度来看，这项研究也揭示了一个重要趋势：随着AI技术的普及，多语言能力正在成为一个关键的竞争优势。那些能够真正理解和适应不同文化背景的AI系统，将在全球市场中占据更有利的位置。这就像一个真正的国际品牌需要深入了解不同市场的文化特点一样，AI的全球化也需要超越简单的语言翻译。

技术发展的另一个重要启示是，评测方法本身也需要与时俱进。传统的静态评测方法可能无法适应快速发展的AI技术，未来可能需要更加动态和适应性的评测方式。这就像体育比赛的规则会随着运动员能力的提升而调整一样，AI评测标准也需要持续演进。

对于普通用户而言，这项研究的意义在于提醒我们：当前的AI系统虽然在某些方面表现出色，但在真正理解不同文化和语言的细微差别方面仍有很大改进空间。用户在使用AI服务时，特别是涉及文化敏感内容时，仍需保持一定的谨慎和批判性思维。

从教育角度来看，这项研究也为AI人才培养提供了重要指导。未来的AI研究者和工程师不仅需要掌握技术技能，还需要具备跨文化理解能力。只有这样，才能开发出真正服务于全球多元化用户的AI系统。

说到底，这项研究揭示的核心问题其实很简单：我们如何确保AI技术的发展能够真正服务于全人类，而不是只服务于少数优势群体？当前投入巨资构建的评测体系虽然看起来科学严谨，但在很多方面仍然无法准确反映人类的真实需求和文化多样性。这就像用同一把尺子来衡量不同形状的物体一样，表面上公平，实际上却可能掩盖了真正的差异。

未来的AI评测体系需要更加开放、包容和协作。这不仅仅是一个技术问题，更是一个关乎公平、多样性和全球合作的社会问题。只有当我们真正重视和保护语言文化的多样性时，AI技术才能真正成为连接不同文化、促进相互理解的桥梁，而不是加剧数字鸿沟的工具。

这项研究为我们提供了一个重要的提醒：在追求AI技术进步的同时，我们不能忘记技术服务于人的根本目标。真正优秀的AI系统应该能够理解和尊重人类文化的丰富性和复杂性，而不是将所有用户都简化为同质化的数据点。感兴趣深入了解这项研究的读者，可以通过arXiv:2504.15521v1访问完整的论文内容，相信会对AI评测的未来发展有更深入的理解。

Q&A

Q1：为什么现有的AI多语言评测与人类判断差距这么大？ A：主要原因是评测方法过于依赖翻译和标准化测试，忽略了文化背景和语境理解。就像用数学公式无法完全衡量一首诗的美感一样，简单的选择题无法反映AI对不同文化语言的真实理解能力。数学推理类任务相对客观，关联度能达到70-85%，但语言理解类任务只有11-30%的关联度。

Q2：什么是"本土化评测"？为什么比翻译评测更有效？ A：本土化评测是专门为特定语言文化设计的评测方法，而不是简单翻译英文测试。研究发现，中文的本土化评测CMMLU与中文用户判断的关联度达到68%，而翻译版本只有47-49%。这就像本地厨师做的菜总比翻译菜谱做出来的更地道一样。

Q3：全球在AI多语言评测上投入了多少资源？主要问题是什么？ A：研究显示2021-2024年间全球已投入超过1100万美元构建多语言评测体系，但存在严重的资源分配不均。英语等高资源语言仍占主导，低资源语言被严重忽视。评测重点过分集中在分类选择任务（66%），而用户最需要的文本生成能力评测只占23%，形成了明显的供需错配。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.