多选题也有"潜规则"？清华、北大等机构揭示AI评测中的隐形偏见|考试|判断题|客观性|ai评测

分享至

想象一下，如果你参加一场考试，但考官不是根据你的真正水平打分，而是根据你能否猜中标准答案的套路，这样的考试还能公平吗？清华大学、北京大学、中科院自动化所等多家知名研究机构的学者最近发表了一项研究，发现当今AI模型的评测方式存在着类似的问题。这项名为"Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT"的研究由刘烨晟、李昊、徐海宇等十多位研究者共同完成，发表于2025年1月。感兴趣的读者可以通过arXiv:2511.17405v2查阅完整论文。

研究团队发现了一个让人意外的现象：目前广泛使用的多选题评测方式就像是一场"有标准答案的猜谜游戏"，AI模型往往不是通过真正理解问题来回答，而是通过分析选项之间的细微差别来"投机取巧"。这种现象在视觉-语言模型的评测中尤其明显，导致我们可能高估了AI的真实能力。

更令人担忧的是，当研究者用这些"有水分"的评测数据来训练AI模型时，反而会让模型学会更多的"投机技巧"，而不是提升真正的理解能力。就好比一个学生如果总是通过背答案来应付考试，虽然分数可能很高，但真实的学习能力却在下降。

为了解决这个问题，研究团队开发了一个名为"ReVeL"的框架，这个系统就像是一位经验丰富的出题老师，能够将传统的多选题改写成开放式问题，同时保持评分的客观性和准确性。通过这种方法，他们不仅让AI评测变得更加真实可靠，还训练出了性能更加稳定的AI模型。

这项研究的重要意义在于，它不仅揭示了当前AI评测中存在的系统性问题，更提供了切实可行的解决方案。对于AI行业的发展来说，这意味着我们将能够更准确地评估AI的真实能力，避免被虚高的分数所迷惑，从而推动AI技术向更加实用和可靠的方向发展。

一、多选题的"陷阱"：当AI学会了考试技巧而非真正理解

研究团队首先深入调查了多选题评测中存在的问题，他们的发现就像揭开了一层华丽外衣下的真相。通过一系列巧妙设计的实验，研究者发现AI模型在面对多选题时表现出了令人意外的"投机行为"。

为了验证这个问题，研究团队设计了一个有趣的实验。他们选取了原本是开放式回答的问题，比如SimpleQA和VisualSimpleQA这两个基准测试，然后人工为每个问题添加了包含正确答案的选项。结果发现，几乎所有的AI模型在有了选项提示后，准确率都出现了大幅提升。这就像是给一个不太会做数学题的学生提供了计算器，分数确实提高了，但数学能力本身并没有真正改善。

更有趣的是，研究者还计算了一个"随机猜测上界"的概念。简单来说，就是假设AI模型对于那些原本不会的问题完全靠猜，那么在六个选项中猜中的概率是六分之一。然而实验结果显示，AI模型的实际表现远远超过了这个理论上界，这强烈暗示模型正在从选项中获取额外的信息来帮助回答。

研究团队还进行了另一个更加直接的测试。他们将多选题中的正确答案替换成"以上都不对"这个选项，结果发现了一个非常有趣的现象。当正确答案被移除后，许多AI模型出现了明显的逻辑混乱。比如在一个关于识别图片中环境类型的问题中，模型的推理过程明确指出这是一片森林，但最终却选择了"家庭"这个明显错误的选项。这种推理过程与最终答案不一致的现象，就像是学生明明知道正确答案，但因为答案不在选项中就随便选了一个。

研究团队还发现了另一个令人担忧的现象：位置记忆效应。当他们改变选项的内容但保持原来正确答案的位置标记时，很多AI模型仍然会选择原来的位置，即使那个位置现在是错误答案。这就好比一个学生习惯性地认为"C选项总是正确的"，而不是真正理解题目内容。

为了进一步验证问题的普遍性，研究者还测试了如果完全移除选项会发生什么。他们发现，只有大约一半的多选题在去掉选项后仍然是有意义的问题。而在那些仍然有效的问题中，几乎所有AI模型的表现都明显下降，这再次证明了模型对选项信息的依赖程度。

最关键的发现来自于训练效果的分析。当研究团队使用多选题数据来训练AI模型时，虽然模型在多选题测试中的分数有所提高，但在开放式问题上的表现却变得更差。这种现象就像是一个学生过度依赖标准化考试的技巧，虽然考试成绩不错，但真正的理解能力和应用能力反而在下降。

通过这一系列实验，研究团队证明了多选题评测存在系统性的问题。AI模型学会的不是真正的理解和推理能力，而是如何在给定选项中找到最可能的答案。这种"投机取巧"的能力虽然能够提高测试分数，但并不代表AI的真实水平，甚至可能误导我们对AI发展方向的判断。

二、ReVeL框架：像经验丰富的教师一样重新设计考试

面对多选题评测中发现的问题，研究团队开发了一个名为ReVeL的创新框架。这个框架的核心思想就像是一位经验丰富的教师，能够将传统的多选题巧妙地转化为开放式问题，同时保证评分的客观性和准确性。

ReVeL框架的工作流程可以用三个步骤来形容：分类识别、智能改写和混合评估。整个过程就像是一个精密的质量控制系统，确保每个问题都能得到最适合的处理方式。

在分类识别阶段，系统首先会像一位细心的图书管理员一样，将所有问题按照答案类型进行分门别类。数值类问题就像是数学题，答案通常是具体的数字或计算结果。关键词类问题的答案往往是简短的名词或短语，比如人名、地名或专业术语。开放式问题需要用完整的句子或段落来回答，涉及解释、描述或分析。而选项验证类问题则是那些高度依赖原有选项设置的题目，需要逐一判断每个选项的对错。

智能改写阶段是整个框架的核心，就像是一位擅长出题的老师在重新设计考试。对于数值类问题，系统会在问题中明确指定答案的单位和格式要求。比如原来问"这个物体的重量是多少？"可能会改写为"这个物体的重量是多少千克？请只给出数值。"这样既保持了问题的核心内容，又让评分变得客观可行。

对于关键词类问题，系统不仅会移除选项，还会预先准备好答案的各种可能表达方式。比如问"这辆车的制造商是谁？"时，系统会准备"BMW""宝马""Bayerische Motoren Werke"等所有可能的正确表达，用特殊符号连接起来，确保评分时不会因为表达方式的差异而出现误判。

开放式问题的改写则更注重保持问题的核心意图。系统会将"下列哪个选项正确描述了..."这样的问法改为"请描述..."或"请解释..."的直接问法，让AI模型必须基于真正的理解来回答，而不能依赖选项对比。

对于选项验证类问题，ReVeL采用了一种巧妙的转换方式。它会保留原来的问题描述，然后将每个选项转化为一个独立的判断题，要求AI模型对每个陈述给出"正确"或"错误"的判断。这种方式既保持了原题的判别能力，又避免了选项之间的相互干扰。

混合评估阶段则展现了ReVeL框架的智慧之处。系统并不是一刀切地使用同一种评估方法，而是像一位经验丰富的阅卷老师，根据不同类型的问题采用最合适的评分方式。数值类和关键词类问题使用精确的规则匹配，这种方式不仅成本低，速度快，而且完全客观，避免了人工评分可能存在的主观差异。

对于选项验证类问题，系统会检查AI模型给出的判断序列是否与标准答案完全匹配。比如如果正确答案是"正确，错误，正确，错误"，那么AI模型必须给出完全一致的判断才能得分。

只有那些真正需要语义理解的开放式问题才会使用AI评判员进行评估。这种设计大大降低了评估成本，同时也减少了因为AI评判员可能存在的偏见而导致的评分不一致问题。

研究团队在四个重要的评测基准上测试了ReVeL框架的效果。这四个基准分别是EMMA（专注于STEM领域的多模态推理）、MMMU（大学级别的多学科理解）、MME-RealWorld（高质量的现实世界任务）和MMLU-Pro（更具挑战性的语言理解）。

测试结果显示，ReVeL框架能够将70%到96%的问题转化为可以用规则自动评估的形式。这意味着大部分问题都不再需要昂贵和可能不稳定的AI评判员。更重要的是，即使在需要AI评判员的情况下，ReVeL框架的混合评估方式也比纯粹使用AI评判员的方式更加准确和稳定。

通过这种精心设计的转换和评估流程，ReVeL框架成功地解决了传统多选题评测中的主要问题，为AI模型的评估和训练提供了一个更加可靠和真实的方法。

三、实验验证：用ReVeL训练出更智能的AI

为了验证ReVeL框架的实际效果，研究团队进行了一系列全面的实验。这些实验就像是对比两种不同教学方法的效果，一种是传统的"背答案"式教学，另一种是注重真正理解的开放式教学。

研究团队选择了Qwen2.5-VL系列模型作为实验对象，这些模型在视觉-语言理解任务中表现出色。他们使用了2万个经过ReVeL框架转换的问题来训练模型，采用的是GRPO（Group Relative Policy Optimization）算法，这是一种先进的强化学习方法，能够让AI模型通过试错来不断改进自己的回答质量。

实验设计非常巧妙，研究团队创建了四种不同的训练配置来进行对比。第一种是纯多选题训练，就像让学生只做标准化考试的模拟题。第二种是多选题加原始开放式问题的混合训练。第三种是纯ReVeL转换问题的训练，相当于完全采用新的教学方法。第四种是ReVeL问题加原始开放式问题的组合训练。

实验结果令人印象深刻。使用ReVeL框架训练的模型在保持多选题表现的同时，在开放式问题上的准确率平均提升了约6个百分点。这个提升幅度看似不大，但在AI评测中已经是非常显著的改进。更重要的是，这种提升是在没有牺牲原有能力的情况下实现的，就像是学生既保持了考试技巧，又真正提高了理解能力。

具体来看，经过ReVeL训练的Qwen2.5-VL-7B模型在综合评估中达到了40.4分，而使用传统多选题训练的同一模型只有36.3分。这个差距相当于从一个中等水平的学生提升到了优秀学生的水平。更令人欣喜的是，ReVeL训练的模型甚至超过了一些知名的开源模型，比如R1-OneVision-7B、Mixed-R1-7B和VL-Rethinker-7B，尽管这些模型使用了更复杂的训练数据。

研究团队还发现了一个重要现象：传统多选题训练与开放式表现之间存在明显的"鸿沟"。当模型在多选题上表现越好时，它在开放式问题上的表现往往相对更差。这就像是过度依赖标准化考试技巧的学生，虽然考试分数很高，但在需要灵活思考的问题上反而表现不佳。

为了更全面地验证ReVeL的效果，研究团队在多个知名AI模型上测试了多选题与开放式问题之间的性能差距。测试对象包括了从开源模型到最先进的商业模型，比如GPT-5、Gemini-2.5和各种规模的Qwen、InternVL模型。

令人惊讶的是，即使是最先进的商业模型也无法完全避免这种性能差距。比如GPT-5在MMMU基准测试中，从多选题的79.2%准确率下降到开放式的59.5%，降幅接近20个百分点。Gemini-2.5 flash在EMMA测试中也出现了15.7个百分点的下降。这说明多选题评测的问题不仅仅存在于开源模型中，而是一个更加普遍的系统性问题。

更值得关注的是，开源模型的性能差距往往更大。比如R1-OneVision-7B在EMMA测试中出现了24.2个百分点的巨大下降，InternVL3-8B在MMMU测试中下降了27.9个百分点。这表明许多开源模型可能过度适应了多选题格式，在真实的开放式应用场景中可能会表现不佳。

通过深入分析这些实验结果，研究团队证明了ReVeL框架不仅能够提供更准确的AI能力评估，还能训练出在真实应用中表现更好的模型。这种改进不是通过增加模型复杂度或使用更多数据实现的，而是通过改进训练和评估方法实现的，这使得ReVeL框架具有很强的实用价值和推广潜力。

四、深度剖析：AI"投机取巧"的三大表现

研究团队通过细致的分析，发现AI模型在多选题中的"投机行为"主要表现在三个方面，就像是学生在考试中可能采用的各种小聪明技巧。

第一种表现是"推理答案不匹配"现象。这种情况就像是学生在考试时，推理过程明明得出了正确结论，但最终却选择了错误答案。研究团队发现，当正确答案被"以上都不对"选项替换后，这种不匹配现象的发生率从原来的18%急剧上升到50%以上。

比如在一个要求识别图片环境类型的问题中，AI模型的推理过程是这样的：首先分析图片显示了大量高大的树木和绿色植被，然后逐一排除购物中心、街道、住宅等选项，明确指出这是一个森林环境。然而当森林选项被移除后，模型最终却选择了明显错误的"住宅"选项。这种现象表明，AI模型并非真正理解自己的推理过程，而是在推理完成后又依据选项可用性做出了不一致的决策。

第二种表现是"位置记忆效应"。这就像是一些学生会形成"C选项最常是正确答案"这样的错误印象。研究团队发现，即使改变了选项内容，很多AI模型仍然倾向于选择原来正确答案所在的位置标记。比如如果原来正确答案是B选项，当研究者将B选项的内容改为明显错误的答案时，模型仍然可能选择B，而不是根据内容进行判断。

这种位置记忆效应在不同模型中的表现程度有所不同，但普遍存在。比如在MMMU测试中，Qwen2.5-VL-72B模型的位置记忆率达到42.2%，意味着接近一半的情况下，模型的选择受到了原始位置信息的影响而非内容本身。这种现象可能源于训练数据中的位置偏见，也可能是模型在学习过程中无意中习得的非理性模式。

第三种表现是"选项锚定效应"。这种现象类似于人类心理学中的认知偏见，即在做判断时过分依赖最初获得的信息。AI模型并不是客观地分析问题内容后给出答案，而是先在提供的选项中找到看似合理的答案，然后构建支持这个答案的理由。

研究团队通过一个艺术史的例子清晰地展示了这种现象。当问及某艺术作品的创作材料时，如果选项中包含"蛋彩画"，模型会分析作品的哑光质感和精细色彩，得出这些特征符合蛋彩画的特点。但如果将"蛋彩画"选项移除，只保留"油画"等其他选项，同一个模型会改口说作品展现了油画特有的丰富层次和细腻质感。这种前后矛盾的分析表明，模型的"推理"实际上是围绕预设答案进行的事后合理化。

研究团队还发现了一个有趣的规律：这些"投机行为"在不同类型的问题中表现程度不同。在光学字符识别、物体定位和抽象代数等领域，选项依赖性特别严重。这可能是因为这些领域的选项往往比较简单（比如纯数字选项），当模型内部推理得出的答案不在选项中时，缺乏足够的语义线索来进行有效的排除判断。

相比之下，那些选项包含完整短语或句子的问题，AI模型的表现相对更稳定。这表明当选项提供更丰富的语义信息时，模型能够进行更好的意义理解和排除推理，而不是简单地依赖表面特征。

通过这些详细分析，研究团队揭示了AI模型在多选题中表现出的复杂行为模式。这些发现不仅帮助我们更好地理解当前AI模型的局限性，也为改进训练和评估方法提供了重要依据。ReVeL框架正是基于这些深度洞察而设计，旨在引导AI模型发展真正的理解能力，而非仅仅是考试技巧。

五、未来展望：构建更真实的AI评估体系

这项研究的意义远远超出了技术层面的改进，它为整个AI领域提出了一个根本性问题：我们应该如何真正评估AI的能力？就像教育改革需要从应试教育转向素质教育一样，AI评估也需要从关注分数转向关注真实能力。

ReVeL框架的成功验证为AI评估体系的改革提供了具体的实施路径。研究团队发现，通过将多选题转换为开放式问题，不仅能够更准确地评估AI的真实能力，还能在训练过程中培养AI模型更好的理解和推理能力。这种方法的优势在于它既保持了自动化评估的效率，又避免了多选题格式固有的偏见问题。

从技术实现的角度来看，ReVeL框架已经证明了其实用性和可扩展性。在四个主要基准测试中，70%到96%的问题都能够转化为规则可验证的形式，这大大降低了评估成本，提高了评估的一致性和可靠性。这种高比例的自动化评估意味着该框架可以轻松应用到大规模的AI评测中，而不会因为人工评估的成本和主观性而受到限制。

研究结果还揭示了一个重要现象：即使是最先进的商业AI模型，如GPT-5和Gemini-2.5，在从多选题转向开放式问题时也会出现明显的性能下降。这表明多选题依赖性是一个普遍存在的问题，不仅影响开源模型，也影响商业模型。这一发现对AI行业具有重要的警示意义，提醒我们需要重新审视当前的评估标准和方法。

从训练效果来看，ReVeL框架训练出的模型展现出了更好的泛化能力。这些模型不仅在保持多选题性能的同时提升了开放式问题的表现，更重要的是它们学会了更加稳健的推理模式。这种改进对于AI模型在真实世界中的应用具有重要意义，因为现实中的问题很少以多选题的形式出现。

研究团队还指出了当前工作的一些局限性和未来的改进方向。首先，虽然ReVeL的分类和改写过程已经相当准确，但仍然存在少量错误的可能性。随着大语言模型能力的不断提升，这种错误率有望进一步降低。其次，虽然该框架有效地解决了评估格式的问题，但并没有完全消除AI评判员本身可能存在的偏见问题。

未来的研究可能会朝着几个方向发展。一个重要方向是将这种方法扩展到其他类型的NLP任务，比如长文本生成、对话系统等领域。另一个方向是开发更加智能的评估机制，能够根据问题的复杂程度和模型的回答质量动态选择最合适的评估方法。

此外，这项研究还为AI训练数据的质量控制提供了新的思路。通过识别和转换那些可能导致模型产生偏见的训练样本，我们可以构建更加均衡和有效的训练数据集，从而培养出更加智能和可靠的AI模型。

对于AI行业的实际应用来说，ReVeL框架的意义在于它提供了一种更加真实和可靠的AI能力评估方法。这对于AI产品的开发和部署具有重要价值，因为它能够帮助开发者更准确地了解模型的真实能力边界，避免在实际应用中出现意外的性能下降。

说到底，这项研究提醒我们，在追求AI技术进步的过程中，我们不应该被表面的高分所迷惑，而应该关注AI模型是否真正掌握了理解和推理的能力。就像评价一个学生不应该只看考试成绩，而应该看他是否真正理解了知识的本质一样，评价AI也应该关注其真实的智能水平。通过ReVeL这样的创新方法，我们正在朝着构建更加智能、更加可靠的AI系统迈出重要一步。感兴趣的读者可以通过论文编号arXiv:2511.17405v2查阅更详细的技术内容和实验数据，深入了解这一重要研究成果。

Q&A

Q1：ReVeL框架是什么？

A：ReVeL框架是由清华、北大等机构研发的AI评测系统，能够将传统多选题转换为开放式问题，同时保持评分的客观性。它通过智能分类、改写和混合评估三个步骤，让AI评测更加真实可靠，避免了多选题中的"投机取巧"问题。

Q2：为什么多选题评测不够准确？

A：多选题评测让AI模型学会了"考试技巧"而非真正理解。AI会通过分析选项差别、记住答案位置、围绕选项构建推理等方式来答题，就像学生背标准答案一样。这导致评测分数虚高，无法反映AI的真实能力。

Q3：ReVeL框架训练的AI模型有什么优势？

A：使用ReVeL训练的AI模型在开放式问题上的准确率平均提升6个百分点，同时保持了多选题的表现。这些模型展现出更好的泛化能力和更稳健的推理模式，在真实应用场景中表现更加可靠。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.