Reasoning Models are Test Exploiters:Rethinking Multiple Choice
推理模型是测试利用者:对选择题的再思考
https://arxiv.org/pdf/2507.15337
《Reasoning Models are Test Exploiters: Rethinking Multiple Choice》系统性地质疑了当前大语言模型(LLMs)评估中广泛依赖的多项选择题问答(MCQA)范式,并揭示了一个关键现象:最先进的推理型模型在 MCQA 任务中的高分,很大程度上源于对选项结构的“利用”(exploitation),而非真实的问题求解能力。
核心发现与重点概述:
MCQA 高分会夸大模型的真实推理能力
当模型在看到选项之后再进行思维链(CoT)推理(即 QMC-CoT 设置)时,其准确率显著高于完全自由作答(Q-CoT)。这种差距在大型推理模型(如 o3、Qwen3 等)中尤为明显,可达 30–40 个百分点。这表明模型并非仅靠内部知识推理,而是利用选项中的线索、统计模式或排除策略来“反向推导”答案。推理型模型是更强的“测试利用者”
与直觉相反,参数规模更大的模型并不一定更“诚实”;恰恰是那些具备强推理能力的模型,更善于从选项中提取信号。例如,Qwen3 系列(尤其是较小版本)在仅凭选项(无题干)的情况下仍能大幅超越随机猜测,显示出极强的选项利用能力。选项设计深刻影响评估效度
引入“以上皆非”(NOTA)选项可有效削弱模型对选项的依赖,缩小推理型与非推理型模型之间的性能差距。
即使将干扰项变得更难(如 MMLU-Pro 将选项从 4 个增至 10 个),也不能可靠抑制利用行为——某些模型反而更擅长从中筛选正确答案。
“两阶段”评估揭示真实推理能力
通过先让模型自由推理(Q-CoT),再呈现选项供其选择(Q-CoT-MC-1T 或 Q-CoT-MCNA-CoT),可以分离“真实推理”与“选项利用”。实验表明,当正确答案被 NOTA 替代时,许多模型性能显著下降,说明其第二阶段依赖选项而非初始推理。对评估实践的三大建议:
- 解耦推理与选择
:应分别报告模型在自由生成和选项选择阶段的表现。
- 设计选项无关的题目
:题干不应暗示选项存在,并优先采用自由文本答案或事后映射评分。
- 警惕“更难干扰项”的局限性
:仅靠增加干扰项难度无法根治利用问题,需结合格式设计(如 NOTA)与评估协议改进。
- 解耦推理与选择
该论文呼吁研究界重新审视 MCQA 作为 LLM 能力代理指标的有效性。它指出,当前排行榜上的高性能可能部分反映的是模型“应试技巧”而非真实理解力。为构建更可靠、更贴近现实任务(以自由生成为主)的评估体系,必须超越传统多项选择范式,发展更能隔离真实推理能力的评测方法。
![]()
![]()
摘要
在评估大语言模型(LLMs)于问答任务中的表现时,通常会让模型从一组固定选项中进行选择(即所谓的多项选择题问答,MCQA)。尽管实际下游任务通常不会向系统明确提供可供选择的选项,但这种方法仍被广泛采用,因为它使自动评分变得简单直接,并且往往能产生具有挑战性的基准测试,这些测试与下游任务的表现具有足够良好的相关性。本文研究了这一趋势在当前最先进的推理模型中是否依然成立,系统性地评估了15个不同的问答基准(例如 MMLU、GSM8K、MATH、STEER-ME)和27个不同的大语言模型(包括小型模型如 Qwen-2.5 7B Instruct、中型模型如 Llama-3.3 70B Instruct,以及大型前沿模型如 OpenAI 的 o3)。对于每一对模型与基准,我们考虑了5种不同的问题呈现方式,包括:是否向模型提供多个选项;是否有时用“以上皆非”替代正确答案;以及是否允许模型在选项呈现之前和/或之后进行思维链(chain-of-thought)推理。研究发现,只要模型仅被允许在看到选项之前进行思维链推理,MCQA 仍然是衡量模型下游表现的良好代理指标。然而,对于那些能够在看到选项之后再进行推理的大型模型而言,它们的表现显著优于其自由文本生成的表现,这是因为它们利用了选项中所包含的信息。本文识别并量化了模型在回答 MCQA 问题时所依赖的信号,并就如何分析 MCQA 结果提出了实用指南,以更准确地反映大语言模型的真实推理能力。
1 引言
早期的机器阅读理解研究采用多项选择题问答(MCQA)方法,因其评分简便、自动化程度高,并能模拟人们熟悉的考试形式。MCTest 语料库率先引入了这一范式,包含 660 篇儿童故事及四选项问题,证明将答案限制在固定标签集中可避免自由文本的歧义性并简化评估(Richardson, Burges, and Renshaw 2013)。后续工作如 RACE 和 ARC 进一步扩大了数据规模和领域覆盖范围(Lai et al. 2017;Clark et al. 2018),而 MMLU 则将范围扩展至 57 个学科,以多项选择题形式衡量通用知识与推理能力(Hendrycks et al. 2020)。如今,MCQA 基准已被广泛用于大语言模型(LLMs)的评估(Liang et al. 2022;Li et al. 2024),其中 MMLU(Hendrycks et al. 2020)、GPQA(Rein et al. 2023)和 ARC(Clark et al. 2018)已成为标准性能标尺。
历史上,MCQA 基准上的高准确率通常被视为良好推理能力的信号(例如,GPT-4 在 MMLU 上达到 88.7% 的准确率,显著优于 Gemma (7B) 的 66.0%)。然而,近期这一信号的可靠性受到质疑。性能提升的原因多种多样:一方面,LLMs 确实在下游任务上真正取得了进步;另一方面,它们也可能受益于在用于评估的相同基准上进行训练。
第三个原因正日益受到关注:MCQA 格式本身可能为模型提供了利用测试结构的机会。即使不提供问题,仅凭选项文本中的启发式排除规则或统计“人工痕迹”(artifacts),模型也能在纯选项输入上取得远高于随机水平的表现(Balepur, Ravichander, and Rudinger 2024;Myrzakhan, Bsharat, and Shen 2024)。通过打乱或随机化选项顺序,可以揭示出模型的选择偏差,而这类偏差需要通过去偏方法(如 PriDe)加以处理(Zheng et al. 2024)。Turner 和 Kurzeja
025)发现,一个决策树甚至无需阅读问题就能在 TruthfulQA 上达到近 80% 的准确率。与此相呼应,近期研究还表明,引入“以上皆非”(None-of-the-Above, NOTA)选项会显著降低 LLMs 的表现(Raman et al. 2024, 2025;Tam et al. 2025),这明确将选项设计与虚高的分数联系起来。然而,模型的鲁棒性差异很大:当干扰项(distractors)被强化或随机化时,某些经过指令微调的模型仍表现出出人意料的稳定性能(Wang et al. 2024a)。最相关的是,Raman 等人(2025)最近观察到,模型通过“代入验证”(plug-and-chug)策略和对所提供选项的“上下文锚定”(contextual anchoring)来提升 MCQA 表现。
尽管存在上述及其他问题,许多排行榜和模型发布仍继续强调 MCQA 任务。例如,在 OpenAI 关于“用 LLM 学习推理”的 o1-preview 博客文章中,MCQA 占所用 4 个数据集中的 3 个(OpenAI 2024);在 Meta 发布 Llama 3.1 的公告中,MCQA 占全部任务的 66%(Meta 2024);而在 HELM 评估中也占 32%(Perlitz et al. 2024)。相比之下,真实世界使用情况的研究却呈现出鲜明对比:ShareGPT 数据集中的用户查询主要以自由生成输出为主,而非验证类任务;MCQA 风格的查询仅占全部任务的 7.2%(Ouyang et al. 2023)。
当前一种流行的“改进”MCQA 的方法是通过引入更难的干扰项来扩充选项集(Wang et al. 2024c;Gema et al. 2024)。另一些基准则进一步转向真正的自由文本问答(FTQA),设计完全开放回答的评测(Myrzakhan, Bsharat, and Shen 2024)。诸如 SQuAD(Rajpurkar et al. 2016)、HotpotQA(Yang et al. 2018)和 DROP(Dua et al. 2019)等片段抽取型基准要求模型从段落中定位答案片段,并通过精确匹配(exact-match)或词元级 F1 分数进行评估。在数学领域,GSM8K(Cobbe et al. 2021)、STEER-ME(Raman et al. 2024)和 MATH(Hendrycks et al. 2021)使用自由格式的数字或短文本答案,并基于标准化后的精确匹配进行评判;在程序合成领域,HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)则依赖基于执行的单元测试作为评判标准。混合型基准(如 HLE)结合封闭式与开放式问题,以减少猜测和选择偏差(Phan et al. 2025)。尽管如此,FTQA 目前主要适用于响应内容为数值或易于解析的受限领域(例如 Hendrycks et al. 2021;Raman et al. 2025)。
鉴于上述张力,研究人员已提出一些有前景的、基于 LLM 的 MCQA 替代方案,试图兼顾两者优点(Kočiský et al. 2018;Li, Zhang et al. 2023;Chandak et al. 2025)。然而,本文的目标并非提出另一种替代方案,而是校准 MCQA 究竟衡量了什么:鉴于基于 LLM 的替代方法可能引入新的偏差(Chen et al. 2024),我们转而量化 MCQA 的可利用性,精确定位选项驱动的性能增益究竟在何时、何处出现——特别聚焦于思维链(CoT)推理时机与选项设计的影响。
我们在第 2 节介绍所选基准,第 3 节描述评估方法与模型阵容。我们比较了五种评估格式下的模型表现:(1) MC-CoT:模型仅看到选项而无问题,需从中选择;(2) QMC-CoT:模型看到问题并从固定选项中选择答案;(3) Q-CoT:模型对问题生成完全自由形式的答案,无选项提供;(4) Q-CoT-MC-1T:模型先自由推理,再从提供的选项中选择;(5) 引入“以上皆非”(NOTA)占位选项,以校准评估基线并减少对排除策略的依赖。
总计,我们在 OpenAI API 调用上花费了 2,146.51 美元,并使用了相当于 4.92 GPU 年的算力来评估开源模型。随后,我们通过准确率差异分析揭示:当允许 LLM 对选项进行推理时,MCQA 如何夸大其表观能力。第 4 节讨论这些发现,并总结若干亮点:当选项先于 CoT 出现(QMC-CoT)时,即使考虑事后“最接近答案”的映射,推理模型的表现仍显著优于 Q-CoT,表明存在一种明显的二次捷径;引入 NOTA 干预可削弱该捷径,并缩小推理模型与非推理模型之间的差距;而单纯使选项集“更难”并不能可靠抑制可利用性,对某些模型甚至反而加剧了这一问题。
最后,我们在第 5 节就基准设计提出若干实用建议。
2 基准测试
我们在15个基准上评估了大语言模型(LLMs),这些基准覆盖了多样化的领域和问题形式。除非另有说明,每个基准完全由四选项的多项选择题组成。
2.1 多项选择题问答(MCQA)基准
MMLU 是一个包含 15,908 道多项选择题的数据集,涵盖 57 个领域(Hendrycks et al. 2020)。
MMLU-Pro 是 MMLU 的扩展版本,通过剔除大多数模型认为简单的问题,并将每道题的选项数量从 4 个增加到 10 个,从而提高了难度(Wang et al. 2024c)。
Open-LLM 是一套包含多个基准的评测套件:ARC、WinoGrande、PIQA、CommonsenseQA、RACE、MedMCQA 和 OpenbookQA(Myrzakhan, Bsharat, and Shen 2024)。
GPQA Diamond 是研究生水平“谷歌无法解答”问答(GPQA)基准中最难的一个子集。该 Diamond 子集包含 198 道题目,涵盖高等生物学、化学和物理学(Rein et al. 2023)。
2.2 自由文本问答(FTQA)基准
GSM8K 是一个小学数学应用题数据集;答案为一个数字或简短短语(Cobbe et al. 2021)。
MATH 是一个包含 12,500 道竞赛级数学问题的数据集,答案通常为一个简短的数字或表达式(Hendrycks et al. 2021)。
PythonIO 是一个程序输出预测任务,由 HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)转换而来(Zhang et al. 2024)。
STEER-ME 是一个测试经济推理能力的基准,其问题答案为数值或函数形式。该数据集针对 58 种场景,每种场景包含 1,000 至 5,000 道题目(Raman et al. 2025)。
3 方法论
我们的目标是衡量大语言模型(LLM)在多项选择题问答(MCQA)中的表现有多少源于真实的问题求解能力,又有多少源于对选项结构的利用(exploitation)。我们首先明确评估格式(输入内容与允许的响应形式),然后定义基于这些格式构建的一阶段和两阶段配置;接着描述我们的评估指标(准确率与可利用性)、MCQA 与自由文本问答(FTQA)之间的转换方法,以及实验设置。
3.1 评估格式
如何向 LLM 呈现 MCQA 和 FTQA 问题,构成了一个庞大的设计空间。我们聚焦于该空间中的两个关键维度:问题的呈现格式,以及允许 LLM 生成的响应形式。
问题格式
我们将 MCQA 问题以三种格式呈现给模型。
第一种格式仅提供某道题的 k 个多项选择选项,而隐藏实际的问题题干(例如“2+2 等于多少?”)。该格式旨在识别选项本身所包含的可被利用的信息量,类似于 Balepur、Ravichander 和 Rudinger(2024)以及 Chandak 等人(2025)的工作。
第二种格式则先呈现问题题干,再给出其 k 个选项。
根据 Raman 等人(2024, 2025)以及 Tam 等人(2025)的研究,在第三种格式中,我们在多项选择题中插入一个“以上皆非”(None of the Above, NOTA)占位选项。具体而言,对于给定基准中 1/k 的题目,我们将正确答案替换为 NOTA;在其余题目中,我们随机均匀地选择一个错误选项,将其替换为 NOTA。
在我们的分析中,每一道 MCQA 题目均被格式化为以下四种格式:
![]()
响应格式我们考虑大语言模型(LLM)如何对给定上下文作出响应,将其视为一个函数:该函数将输入字符串映射为输出字符串,或映射为下一个词元(token)的概率分布。该函数的具体输出不仅取决于输入的上下文,也取决于所使用的 LLM 本身。推理型模型(例如 OpenAI 的 o 系列、DeepSeek 的 R1)经过微调,总是会输出思维链(chain-of-thought)词元;我们将任何在答案前包含思维链的响应格式记为 CoT。非推理型模型则可通过提示(prompting)使其仅输出单个词元,不进行任何思维链推理;我们将此类响应格式记为 1T。
我们遵循 Wang 等人(2024a, b)的做法,明确指示模型仅输出单个词元,以避免 1T 和 CoT 格式下所获得的答案字母不一致的问题。具体提示语详见附录 A。
评估配置评估配置是指一个(输入,响应)对,调用该配置后会产生一个可被评估的输出。我们同时考虑单阶段(one-stage)和双阶段(two-stage)配置。我们首先定义单阶段配置,然后利用这些概念来定义我们的双阶段配置。
![]()
MCQA 和 FTQA 是标准的单阶段评估配置。区分 MCQA 与 FTQA 的一个关键设计维度在于:模型是否能在推理过程中利用选项信息(QMC-CoT),还是在完全不知晓选项的情况下进行推理(Q-CoT)。
我们考虑了五种单阶段评估配置:
![]()
需要注意的是,MC-CoT 与 Balepur、Ravichander 和 Rudinger(2024)提出的方法类似;然而,他们将 LLM 限制为使用 1T 响应函数,而我们关注的是模型对选项进行推理所产生的影响,因此将响应函数限制为 CoT。
基于上述单阶段配置,我们还可以构建双阶段配置:首先要求模型执行一个 Q-CoT 步骤(即在无选项情况下进行自由推理),随后向模型呈现选项,并要求其以 CoT 或 1T 的形式给出最终答案。
Raman 等人(2024)提出了 Q-CoT-MC-1T(曾被称为“hidden”),这是一种双阶段配置,其第二阶段的响应为 1T。然而,第二阶段所使用的响应函数实际上取决于具体的 LLM,因为推理型模型无法仅输出 1T。表 4 描述了我们所考虑的四种双阶段配置。
![]()
一个显著的局限性在于:由于第二阶段将选项重新提供给同一个生成了思维链(chain-of-thought)的模型,推理型模型在选择最终标签时仍可能利用选项中的“人工痕迹”(artifacts)或应用排除启发式策略。这意味着,任何双阶段配置主要适用于衡量非推理型模型的可利用性(exploitation)。
然而,Q-CoT-MCNA-CoT 仍能为理解推理型模型利用选项的能力提供洞见。在这种配置下,模型仅有在 1−1/k的题目中,其第二阶段的选项集合里包含正确答案;因此,若模型依赖排除法而非基于先前推理轨迹来确定答案,则更有可能失败。
3.2 评估指标我们从两个指标对大语言模型(LLMs)进行评估:
准确率(Accuracy):主要指标是正确回答问题的百分比。对于 MCQA,判断标准很简单:若模型所选选项的字母与正确选项字母一致,则视为正确。对于 FTQA,若模型的回答与已知正确答案匹配,则视为正确。对于数值型答案,我们要求在将正确答案四舍五入到模型所报告的有效数字位数后,二者在数值上相等。这一规则惩罚过度精确:如果 LLM 报告了多于必要的有效数字且结果错误,则该差异被视为错误。对于函数型答案,我们将文本转换为 SymPy 表达式并进行简化,再利用 SymPy 内置功能测试其等价性。具体所用 Python 评分函数详见附录 C.1。
可利用性(Exploitation):这是指在获得选项访问权限后所能提取出的额外准确率。我们可通过多种方式定义“额外”部分,但自然的基线是随机猜测。无论选择何种基线,我们都将“可利用性”定义为:存在选项的配置下的准确率与不存在选项的配置下的准确率之间的附加差值。例如,对于每个包含 k 个选项的问题,令 AMC为模型在 QMC-CoT 配置下的准确率,AFT为其在 Q-CoT 配置下的准确率,而 1/k为随机猜测基线:
![]()
E 为正值意味着:LLM 在看到选项时、超出随机猜测水平的正确率,超过了其在没有选项时所能达到的水平;换句话说,这部分准确率依赖于选项本身,而非模型的底层知识。其单位为百分点:E = 0.12 表示每 100 道题中,有 12 道题的正确回答会因隐藏选项而消失。
3.3 问题格式转换
我们方法论的一个核心方面是:以多项选择题(MCQA)和自由文本(FTQA)两种格式向大语言模型(LLMs)提问,以考察仅格式本身对性能的影响。本节描述我们如何将第 2 节列出的基准数据集转换为另一种格式。
MCQA → FTQA:我们从 Open-LLM 中的数据集开始。该数据集套件是通过对多个原始数据集进行筛选而构建的,剔除了不适合开放式回答的问题。然而,他们所采用的筛选过程仍保留了许多无法有效转换为 FTQA 的 MCQA 问题。因此,我们进一步实施了两步过滤程序:
(1)通过子字符串搜索,移除所有题干中显式或隐式提及选项的题目(例如包含 “Which of the following”、“What can be concluded from the passage” 等表述);
(2)移除所有未以句号或问号结尾的题干(例如 “While training the rats, the trainers have to be” 这类不完整句子)。
经过这一过滤流程后,原始数据集中同时适用于 MCQA 和 FTQA 的题目保留了 62.81%。更多细节及各数据集的具体分解见附录中的图 5。需要注意的是,该过程很可能遗漏了一些本可转换的 MCQA 题目。
![]()
我们对 MMLU-Pro 也采用了相同的两步过滤方法,将其原始测试集的 12,032 道题目减少至 7,130 道。
FTQA → MCQA:对于第 2.2 节中列出的大多数原本以 FTQA 形式构建的数据集(STEER-ME 除外),我们使用了 Zhang 等人(2024)创建的 MCQA 版本。这些数据集是通过收集 60 个开源模型在 GSM8K、MATH、HumanEval 和 MBPP 上的答案及错误预测构建而成。最后,STEER-ME 基准本身包含程序化生成的多项选择题选项。
我们强调:对于任何基准,我们均未修改问题内容或其正确答案;仅改变了呈现形式。这使“多项选择题格式的可利用性”成为唯一关注的变量。此外,由于我们并未使用 LLM 或其他基于模型的工具来评估自由文本答案,因此存在许多通过过滤步骤的 MCQA 问题无法在自由文本形式下进行评估。例如,当一个问题既要求给出答案又要求提供理由时:“州法院应依据联邦法还是州法来判定判决的效力?”可能的完整回答为:“州法,因为 X...” 或 “州法,因为 Y...”。对于这类问题,我们仅在模型能看到选项的格式下评估其正确性(例如 Q-CoT-MC-CoT 或 Q-CoT-MC-1T)。
我们进行了最后一轮过滤:运行我们的评分函数对所有正确答案进行检测,以确认它们是否能被转换为可评分的格式。我们将通过此过滤步骤的问题称为“CoT 可提取问题”。
3.4 实验设置
总计,我们评估了 27 个大语言模型(LLMs)。我们在表 6 中简要列出了这些模型,完整的模型列表(含模型卡片与配置)详见附录 B 的表 7。表 5 列出了我们在每种模型类型上运行的评估配置。
![]()
![]()
除 STEER-ME 外,所有数据集中,我们对每个开源 LLM 在每数据集上评估 5,000 道题目,对闭源 LLM(o3 和 gpt-4o)则评估每数据集 1,000 道题目。对于 STEER-ME,我们让所有开源 LLM 在每个场景元素上评估 100 道题,闭源模型则评估每个元素 20 道题,最终分别得到总计 5,800 道和 1,160 道题目。
我们从 HuggingFace Hub(Wolf et al. 2019)获取了 23 个开源 LLM,并在 1 至 4 块 L40 GPU 上运行。对于 o3 和 gpt-4o,我们使用 OpenAI 的 API。所有提示中,我们将 softmax 温度 T 设置为推荐值:非推理模型采用贪心解码(T = 0),推理模型则设为 T = 0.6–0.8。
答案提取方法
对于 CoT 格式,我们要求模型将答案置于 ‘\boxed{}’ 中。为从模型生成的推理内容中提取答案,我们首先使用正则表达式匹配,直到找到正确的闭合花括号。若该正则表达式未能提取有效响应,我们将使用第二个正则表达式 ‘.[aA]nswer:\s[ˆ]+’ 进行二次尝试以提取答案。对于 1T 格式,我们解码“Answer: ”以及“Answer:\n”之后的下一个词元的概率分布,并选择赋予正确词元最高概率的那个作为最终输出。
4 结果
图 1 报告了每个大语言模型(LLM)在 QMC-CoT 格式和 Q-CoT 格式下的 pass@1 准确率。一个清晰的趋势显现出来:规模最大的模型——同时也是表现最强的模型——在 QMC-CoT 与 Q-CoT 之间的准确率差距最为显著(见图 2)。所有参数量大约超过 50B 的模型,在选项先于思维链(CoT)呈现时,其得分高出 30 至 40 个百分点;对于推理型模型,这一差距甚至更大。
![]()
人们可能会认为,造成这一差距的一个合理解释是:模型在 CoT 推理后选择与其推理结果最接近的选项。然而,这种启发式策略并不常见,尤其在推理型模型中更是如此。我们观察到,当推理型模型在 QMC-CoT 中答对但在 Q-CoT 中答错时,仅约 23% 的情况属于“选择最接近答案”的行为(各模型的具体分解见表 8)。此外,即使我们通过引入随机猜测的优势来提升 Q-CoT 的表现(记为 Q-CoT+k),几乎所有模型在 QMC-CoT 下的表现仍然更优。
![]()
4.1 利用行为的证据
我们进一步探究模型在利用过程中所依赖的信息信号。首先,我们分析所有模型在 MC-CoT 格式下的表现,以量化仅通过对选项进行推理所能产生的利用程度。接着,我们通过比较 LLM 在 QMC-CoT 与 Q-CoT-MC-1T(对推理型模型为 Q-CoT-MC-CoT)上的表现,来量化由问题文本中额外信息所带来的残余利用程度。
仅基于选项的利用(MC-only Exploitation)
图 6 量化了每个 LLM 利用选项中的信息超越随机猜测的能力,展示了各模型在 MC-CoT 格式下相对于随机猜测的准确率提升。尽管大多数模型的表现优于随机猜测,但表现最差的推理型模型在 MC-CoT 上的准确率仍高于表现最好的非推理型模型。在推理型模型中,我们观察到 Qwen3 系列是最佳的“仅选项”利用者,其中 Qwen3(32B)比随机猜测高出 13 个百分点。图 7 进一步按数据集分解了各模型相对于随机猜测的性能增益。总体而言,最初即以 MCQA 形式构建的数据集最容易被利用。事实上,ARC、HellaSwag 和 PIQA 是最易受“仅选项”利用影响的数据集:所有模型在这些数据集上的准确率均显著高于随机水平,且除一个推理型模型外,其余所有推理型模型在 PIQA 上的准确率均超过 80%。
基于完整题干与选项的利用(QMC-based Exploitation)
随后,我们分析当 LLM 同时获得问题文本和选项时所产生的残余利用行为。为此,我们在双阶段配置上运行 LLM:如果某模型在 Q-CoT-MC-1T(对推理型模型为 Q-CoT-MC-CoT)上的表现——经其“仅选项”利用能力校正后——仍低于其在 QMC-CoT 上的表现,则可视为存在基于完整题干与选项(QMC-based)的利用行为。
我们通过以下方式校正“仅选项”利用:从模型的 QMC-CoT 准确率中减去其 MC-CoT 准确率,并从其 Q-CoT-MC-1T 准确率中减去随机猜测基线(1/k)。为排除因答案映射问题导致的性能下降,我们对 Q-CoT-MC-1T 与 Q-CoT 进行“超评分”(super-scoring):只要模型在任一格式下答对该题,即视为正确。因此,我们将基于 QMC 的利用定义为:
![]()
其中 AS为超评分后的准确率。
![]()
![]()
4.2 选项设计对可利用性的影响
鉴于大语言模型(LLMs)能够仅通过对选项进行推理就实现利用,我们进一步探究特定的选项集如何促成这种利用行为。我们首先重新审视了“仅选项”(MC-only)和“题干+选项”(QMC-based)两类探测实验,以量化正确答案的存在与否对利用程度的影响;随后,我们比较了两种广泛使用的多项选择题套件——它们采用不同的干扰项(distractor)设计(MMLU 与 MMLU-Pro)。
“以上皆非”(NOTA)的影响
在 MCNA-CoT 设置下(即部分题目中正确答案被替换为 NOTA),模型相对于随机猜测的性能显著下降(见图 8 及附录中的图 9)。尽管 ARC、HellaSwag 和 PIQA 仍然是高度可利用的数据集,但在其他数据集上的表现更接近随机猜测水平。这一变化削弱了推理型模型的优势:在 MC-CoT 中,推理型模型比非推理型模型平均高出 12.63%;而在 MCNA-CoT 中,这一差距缩小至仅 5.29%。部分原因在于推理型模型选择 NOTA 的频率更高——平均而言,推理型模型选择 NOTA 的比例为 55.82%,而非推理型模型为 30.05%(真实 NOTA 比例为 25%)。通过检查其思维链(CoT)内容可见,推理型模型更倾向于将 MCNA-CoT 设置视为“陷阱题”,并认为 NOTA 是此类题目的常见答案。
我们进一步考察 NOTA 对 QMC 型利用的影响。此前我们观察到,在 Q-CoT-MC-CoT 中,推理型模型可通过重新审视选项来优化其初始答案;而 Q-CoT-MCNA-CoT 则会破坏这种“二次修正”的捷径(见图 10)。大多数模型均表现出一定程度的性能下降,表明:尽管这些 LLM 在能访问完整选项集时可取得高准确率,但一旦正确答案被移除,其性能会下降 2 至 15 个百分点。
鉴于 MCNA-CoT 中的行为,我们进一步检验性能下降究竟是因为 NOTA 本身具有吸引力,还是因为正确答案对 QMC 型利用至关重要。我们将 NOTA 选择视为一个二分类任务,并报告两类(“应选 NOTA” vs. “不应选 NOTA”)的精确率与召回率(见表 10)。对于正确答案被替换为 NOTA 的题目,DeepSeek R1(70B)的精确率为 0.85,召回率为 0.58;而对于 NOTA 并非正确答案的题目,其精确率为 0.78,召回率为 0.94,表明当存在正确选项时,该模型极少过度选择 NOTA。综合来看,这些结果表明:模型并非盲目偏好 NOTA 这一显眼选项,而是有选择地在其推理轨迹无法匹配任何有效选项时才使用 NOTA。这一模式在大多数推理型模型中普遍存在。
“更难选项”的影响
接下来,我们考察将选项集设计得“更难”(且更大)是否能降低“仅选项”利用。MMLU 与 MMLU-Pro 为此问题提供了天然的测试平台。针对每个数据集,我们计算归一化的利用度:
,其中 k为选项数量。该指标将随机猜测设为 0,仅靠选项即可完美作答设为 1,从而使得 MMLU(k=4)与 MMLU-Pro(k=10)可在不受选项数量影响的统一尺度上进行比较。
从图 4 中可看出两个显著模式:(1)对于几乎所有非推理型模型,尽管 MMLU-Pro 严格意义上比 MMLU 更难利用,但其选项集仍泄露了足够信号,使其表现优于随机猜测(提升幅度在 5%–10% 范围内)。值得注意的是,两个 Mistral 模型是唯一(包括所有推理型模型在内)在 MMLU-Pro 上比在 MMLU 上更具可利用性的模型,这表明增加选项数量 k并替换为“更难”的干扰项,并不能普遍抑制“仅选项”利用。
![]()
(2)对于推理型模型,虽然 MMLU-Pro 通常比 MMLU 更难利用,但它们利用 MMLU-Pro 的能力仍强于非推理型模型利用原始 MMLU 的能力。综合来看,这些结果表明:随着模型推理能力的提升,它们更能有效挖掘选项集中的信息,并规避“困难”干扰项。
5 结论
尽管大语言模型(LLMs)在基准测试中的表现达到了前所未有的高度,但其中部分提升源于它们对所提供选项的利用。我们的研究揭示了三条关于 LLM 评估设计与结果解读的重要启示:
(1)解耦至关重要。通过将思维链(CoT)与选项选择分离——例如采用 Q-CoT-MC-1T,或在一定程度上使用 Q-CoT-MCNA-CoT——我们可以揭示模型潜在的推理能力,并区分基于第一性原理的推理与对测试结构的利用。此外,推理能力与选项选择的表现应分别报告。
(2)鉴于 MCQA 很可能长期存在,应以“选项无关的正确性”为目标进行设计:题干不应引用选项内容,并且要么明确定义一个标准的自由文本答案,要么通过事后映射(post-hoc mapping)进行评分。
(3)仅依赖更难的干扰项作为抑制利用行为的对策是不够的;尽管这类干扰项可能提高题目难度,但它们并不能可靠地减少对测试结构的利用,必须谨慎使用。
归根结底,我们所能观察到的,仅限于我们所测量的内容。若缺乏精心的设计,高测试分数可能反映的是模型“钻测试空子”的熟练程度,而非其真实能力。随着 LLM 不断进步并被应用于现实世界,确保我们所衡量的内容与我们真正重视的能力保持一致,变得愈发重要。
![]()
![]()
![]()
![]()
![]()
![]()
原文链接:https://arxiv.org/pdf/2507.15337
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.