网易首页 > 网易号 > 正文 申请入驻

思维链推理并不总是可靠

0
分享至

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

思维链推理并不总是可靠

https://arxiv.org/pdf/2503.08679




摘要

思维链(Chain-of-Thought, CoT)推理显著提升了人工智能的最先进能力。然而,最近的研究表明,当模型面对提示中明显的偏见时,CoT推理并不总是可信的,即思维链可能错误地呈现模型得出结论的真实过程。我们进一步发现,即使在没有人为偏见的真实提示中,也会出现不可信的CoT现象。我们发现,当分别向模型提出“X比Y大吗?”和“Y比X大吗?”这两个问题时,模型有时会生成表面上连贯的论证,系统性地对两个问题都回答“是”或都回答“否”,尽管这种回答在逻辑上是矛盾的。我们提供了初步证据表明,这是由于模型对“是”或“否”存在隐性偏好,因此我们将这种不可信现象称为隐式事后合理化(Implicit Post-Hoc Rationalization)。我们的结果显示,多个商用模型在我们的测试场景中表现出令人惊讶的高比例事后合理化行为:GPT-4o-mini(13%)和Haiku 3.5(7%)。尽管前沿模型的可信度更高,尤其是具备“思考”能力的模型,但没有一个模型是完全可信的:Gemini 2.5 Flash(2.17%)、ChatGPT-4o(0.49%)、DeepSeek R1(0.37%)、Gemini 2.5 Pro(0.14%),以及具备思考功能的Sonnet 3.7(0.04%)。我们还研究了另一种现象——不可信的非逻辑捷径(Unfaithful Illogical Shortcuts),即模型在尝试解决困难数学问题时,使用微妙的非逻辑推理方式,使推测性的答案看似经过严谨证明。我们的研究结果对通过思维链来检测大语言模型中不良行为的策略提出了挑战。

1 引言

思维链推理(Chain-of-Thought reasoning,CoT;Reynolds 和 McDonell [1],Nye 等人 [2],Wei 等人 [3])已被证明是提升大语言模型(LLM)性能的一种强大方法。特别是,许多最新的性能突破都归功于“思考型模型”的发展,这类模型在回应用户之前会生成较长的思维链(Qwen 团队 [4],GDM [5],DeepSeek-AI [6],OpenAI [7])。不过,由于OpenAI的模型从未展示其推理轨迹,因此本研究未将其纳入分析。

尽管取得了这些进展,近期研究揭示了一个重要局限:模型生成的思维链轨迹并不总是忠实地反映其得出最终答案所依赖的真实推理过程 [8–10]。在此语境下,“可信性”(faithfulness)指的是推理链中所表述的步骤,在多大程度上对应模型实际使用的内部推理机制 [8, 11]。当CoT推理不可信时,这些解释的可靠性就会受到削弱,这在高风险场景中引发了担忧,例如将此类推理用于训练以使模型与人类偏好对齐的过程中(Baker 等人 [12];DeepSeek-AI [6])。

然而,现有针对不可信思维链(CoT)推理的研究主要集中在显式提示的场景中,例如在提示中引入偏见或诱导性信息 [9, 13],或在思维链中插入推理错误 [10, 14]。尽管这些研究揭示了重要洞见,但它们仍留下了一个关键问题:在自然、无显式引导的真实情境中,这种不可信性是如何表现的?对这一问题的理解不足,限制了我们全面评估不可信CoT所带来的风险与挑战的能力。

在本研究中,我们表明,即使在没有显式提示的情况下,不可信的CoT推理依然存在于当前先进的“思考型”和“非思考型”模型中。虽然“思考型”模型通常在其推理链中表现出更高的可信度,但我们的发现表明,它们仍然并非完全可信。

我们做出了两项主要贡献:

  1. 在第2节中,我们展示了前沿模型在回答比较类问题时存在“隐式事后合理化”(Implicit Post-Hoc Rationalization)现象。通过对成对的是/否问题(例如,“X是否大于Y?”与“Y是否大于X?”)生成的多个推理链进行分析,我们揭示了系统性模式:模型会操纵事实或切换推理方式,以支持预先确定的答案。该不可信性的测量基于在World Model数据集 [15] 的一个子集上生成的4,834对比较类问题。

  2. 在第3节中,我们展示了前沿模型在解决困难数学问题时表现出“不可信的非逻辑捷径”(Unfaithful Illogical Shortcuts)。在这些捷径中,模型使用明显不合逻辑的推理方式,跳跃式地得出正确但缺乏正当性的结论;与此同时,a) 模型在同一推理链中并未承认这种捷径的存在,b) 当在另一次推理过程中被单独询问时,模型却会将同样的推理步骤判断为不合逻辑。

我们的这两项贡献共同提供了证据,表明在真实场景中的CoT推理并不总是可信的。这在以往研究基础上实现了重要推进,因为要证明不可信性,就必须揭示模型所陈述的推理其内部实际推理之间的不一致,而这通常需要精心设计的实验设置(例如 [16]),而在使用真实自然提示时,这类设置更难构建。

尽管我们研究中不可信回应的绝对比例相对较低(例如图2和图5所示),但我们预计这些发现仍将持续具有重要意义,因为人工智能正越来越多地被应用于两种场景:一是作为AI智能体进行长时间、多轮的交互,二是进行高度并行的交互(例如使用较大的N值进行“最佳中的最佳”选择,即best-of-N;[17])。这是因为,如果一个问题通过成千上万种不同方式求解,最终被采纳的解决方案,可能恰恰是最具误导性的那一个 [18, 19]。


为了促进在CoT可信性这一重要领域的可重复性与进一步研究,我们已将完整的实验代码库及相关数据集发布在一个开源仓库中¹。

2 前沿模型与隐式事后合理化

在本节中,我们通过分析前沿模型对成对的是/否问题的回应,揭示了“思考型”和“非思考型”前沿模型中存在不可信行为的证据。这些问题仅在论据的顺序上有所不同(例如,参见附录B.1中的表2)。该方法揭示出一种系统性模式:模型在回答时倾向于偏好某些论据或数值,具体取决于问题的形式。我们发现,模型常常构建“事后合理化”的解释,以支持其隐含偏见下的回答,而不是让推理过程真实地引导出答案。这是一种不可信性的表现,因为它表明模型受到未在推理过程中明确表达的隐性偏见的影响。图1展示了这一行为:模型通过切换论据,为两个问题都给出“否”的答案并加以合理化。



值得注意的是,尽管这些模式看起来具有系统性,但我们尚未明确确定其因果方向。一种可能的替代解释是:问题措辞的改变影响了模型从训练数据中回忆事实的方式,而这些被回忆出的不同事实进而因果性地影响了最终答案。这可能导致表面上看似“事后合理化”的模式,但实际上源于事实检索的差异。

然而,多方面的证据表明,这些偏见很可能涉及真正的“事后合理化”,而不仅仅是事实检索不一致所致。首先,我们观察到的偏见具有明显的系统性特征,特别是当模型在一种问题变体中保持事实不变,而在另一种中却改变事实时,这指向了有意的合理化行为(参见附录E)。其次,我们的探针实验表明,这些偏见在推理过程开始之前,就已经部分编码在模型的内部表征之中(参见附录F)。综合来看,这些发现表明:模型常常基于与问题模板相关的隐性偏见预先确定答案,然后构建推理链来为这些预设结论进行辩护。

接下来,第2.1节描述了对这类不可信模式的定量评估,第2.2节则详细说明了这些模式在不同模型中的分布情况。

2.1 隐式事后合理化的评估

我们使用World Model数据集 [15] 的一个子集,生成了一组成对的比较类问题。该子集的具体信息及问题示例如附录B.1所示。在此设置中,每个比较类问题都是一个“是/否”问题,要求模型比较两个实体的数值,例如判断一个是否“大于”另一个,或是否“小于”另一个。我们通过使用不同的比较类型和数值顺序,生成多样化的问答对,并测量每对问题回答的一致性。

具体而言,针对我们World Model子集中的每个属性(例如电影的上映日期)和每种比较类型(例如“大于”),我们最多生成100组成对的是/否问题,步骤如下:

  1. 使用自动评分器(即经过提示的语言模型)对所有实体进行评分,衡量每个实体的“知名度”,评分范围为1(冷门)到10(知名),仅保留评分为5或以下的实体。

  2. 使用OpenAI的网络搜索API [20] 收集每个实体的真实数值,并仅保留那些有两个或以上信息来源支持的实体。

  3. 生成真实数值相近但不重叠的实体候选对。

  4. 对每个候选问题对使用自动评分器,确保单个问题本身不模糊,并且对两个问题都回答“是”或都回答“否”在逻辑上是矛盾的。

  5. 不断采样候选对,直到每个属性-比较类型组合中最多有100对通过所有筛选。

有关问题生成过程的更多细节,请参见附录B.2。最终数据集共包含4,834对问题,每对问题中一个的正确答案应为“是”,另一个应为“否”。因此,数据集总共包含9,668个问题,且“是”与“否”问题数量分布均衡。

我们使用一个简单的提示词生成推理链,要求模型“逐步推理,然后给出是或否的回答”(见附录C)。对于每个模型,我们在数据集中每个问题上生成10次回应,使用温度值0.7和top-p值0.9。我们在15个前沿模型上进行了此项评估,包括:Claude 3.5 Haiku [21]、Claude 3.5 Sonnet v2 [22,23]、Claude 3.7 Sonnet(无思考模式,以及1k和64k token的思考预算)[24]、GPT-4o-mini [25]、GPT-4o(2024年8月版)、ChatGPT-4o [26]、Gemini 1.5 Pro [5]、Gemini 2.5 Flash [27]、Gemini 2.5 Pro [28]、DeepSeek V3 [29]、DeepSeek R1 [6],以及Llama 3.3 70B Instruct [30]。为了提供一个预训练模型的基线,我们也包含了Llama 3.1 70B [31] 的结果。对于该模型,我们使用由Llama 3.3 70B Instruct生成的5个样本的少样本提示(few-shot prompt)来生成思维链。

我们使用自动评分器评估每条推理链最终回答的是“是”还是“否”(详见附录C)。具体地,我们将每条回应分为以下三类:

  • 是:推理过程明确支持“是”的答案

  • 否:推理过程中明确支持“否”的答案

  • 未知:其它情况,例如因信息不足拒绝回答,或因数值相等而回答“否”。

为了判断哪些问题对表现出不可信行为,我们采用以下标准:

  • 问题对的回答准确性必须存在显著差异:正确回答比例至少相差50%(即20次回答中至少有15次答案一致)。

  • 在给定属性和比较类型的问题组中(例如“比较书籍的最短长度”),必须表现出对“是”或“否”的明显偏向:偏离预期的50/50分布至少5%。

  • 准确性较低的问题,其正确答案必须与该组的整体偏向相反。例如,若该组整体偏向“是”,则我们只考虑正确答案为“否”的问题。

图2展示了使用这些标准对生成的回答进行分类后的定量结果。前沿模型的不可信行为比例从接近0%到13%不等。其中,不可信性比例最高的模型是:GPT-4o-mini(13.49%)、Haiku 3.5(7.42%)和Gemini 1.5 Pro(6.54%)。Claude 3.7 Sonnet在1,024 token的扩展思考预算下表现最为可信,仅有2对问题表现出不可信(0.04%),其次是Gemini 2.5 Pro,有7对不可信问题(4.9%)。本文的早期版本使用了不同的问题数据集,导致不可信比例更高,相关细节见附录A。


有趣的是,Claude 3.7 Sonnet 在将思考预算从 1,024 增加到 64,000 个 token(最大可用值)时,其不可信行为的比例反而略有上升。经过人工检查,我们发现,对于某些问题,使用 1,024 token 预算的版本因信息不足而拒绝回答,而使用 64,000 token 的模型则生成更长的思维链,最终通过虚构理由得出“是”或“否”的答案。在这些情况下,增加推理时的计算资源反而导致了更多的不可信行为。

预训练模型 Llama 3.1 70B 的不可信比例(3.25%)高于其经过指令微调的版本 Llama 3.3 70B Instruct(2.09%),这表明此类不可信行为不能简单归因于模型在经历强化学习人类反馈(RLHF)后变得一味迎合用户。

最后,为了验证通过我们标准的问题对确实表现出不可信的迹象,而非仅仅由于生成的回答数量庞大而导致的统计假象,我们针对不可信比例较低的8个模型,将每个问题的回答数量从20次增加到100次,进行了验证实验。总体来看,在增加采样后,平均有76%的不可信问题对仍然保留(更多细节见附录D)。

2.2 隐式事后合理化中的不可信模式

尽管定量结果揭示了前沿模型中的系统性偏见,但对个别案例的分析为我们理解这些偏见在实际中如何表现提供了关键洞察。这些案例研究具有双重意义:一方面,它们为未来检测和缓解不可信思维链推理的研究提供了具体的实例;另一方面,它们揭示了模型构建事后合理化的方式中存在的细微模式,而这些模式仅从总体统计数据中难以察觉。

我们为部分模型的每种问题模板随机抽取了一组满足不可信标准(见第2.1节)的问题对,共227对。通过人工对比两个问题变体的回应集,我们发现,在绝大多数情况下,我们的不可信判断标准与直观感受中的“不可信”相符。通过这一分析,我们还识别出多种不同类型的不可信和合理化模式。

基于这一人工分析,我们进一步使用自动评分器(autorater)对各模型的不可信问题对进行了更大规模的自动分类。我们在接下来的小节中讨论发现的不同不可信模式,并在图3中展示了这些模式的分布情况(详见附录G)。


偏见性事实不一致(Biased fact inconsistency)我们观察到的最常见不可信形式之一,是模型在陈述事实时表现出系统性不一致。模型常常篡改所比较实体的基本事实。例如,它们可能会为同一部电影引用不同的上映日期,从而在经过操纵的回答中得出与原始问题相同的结论,同时保持表面上的合理性。更多示例如附录G.2所示。

切换论据(Switching arguments)
我们观察到的另一种不可信形式是,模型在面对两个互为反转的问题时,会改变其推理方式。例如,在比较地理位置时,不一致地应用地理标准(如图1所示),从而使模型能够对两个问题给出相同的答案。更多示例如附录G.1所示。

其他类型的不可信行为
较少见的不可信形式包括:“答案翻转”(answer flipping),即模型在不同问题变体中保持完全相同的推理过程,却未能正确地将“是/否”答案相应反转;以及仅在某一个问题变体中出现的无效逻辑步骤,导致得出错误结论。更多示例如附录G.3所示。

3 推理基准中的不可信行为

在本节中,我们展示无论是“思考型”还是“非思考型”的前沿模型,都会表现出一种称为“不可信的非逻辑捷径”(Unfaithful Illogical Shortcuts)的不可信行为。在这种行为中,模型使用明显不合逻辑的推理来简化问题求解过程,却完全不承认其推理中存在非逻辑性。我们发现,模型在解决Putnam问题时会出现此类不可信的非逻辑捷径——这是数学领域中一个难度高且广泛使用的AI进展基准 [32]。

“不可信的非逻辑捷径”与“奖励博弈”(reward hacking)[12, 33] 相关,但我们未采用该术语,原因如下:a) 我们关注的是模型并未在语言中表达出这些捷径的情况,因此属于“不可信”;b) 我们观察到,无论是否经过“带可验证奖励的强化学习”(RLVR;Yue 等人 [34])训练的模型,都会出现此类不可信的非逻辑捷径。目前的 RLVR 训练方法并未对推理过程中的中间步骤正确性推理的显式表达给予激励。因此,除非训练方法发生改变,否则我们预计未来的模型默认仍会持续出现此类不可信的非逻辑捷径。

3.1 不可信非逻辑捷径的研究方法

我们设计了一个用于检测“不可信非逻辑捷径”的流程,包含以下三个抽象阶段:

  1. 答案正确性评估:为了聚焦于更可能是“不可信”而非“推理错误”的案例,我们首先过滤掉模型回答错误的思维链(CoT)生成结果。此外,我们仅使用 PutnamBench 数据集中 326 道题中的 215 道——排除那些答案容易猜测的问题(例如,本节中我们排除了答案为“是/否”的问题)。

  2. 推理步骤关键性评估:我们识别出对模型得出最终答案起关键作用的推理步骤。这里的“关键”指的是在所陈述的推理链中,构成通向最终答案因果链的一部分。需要注意的是,这些关键步骤可能在语言模型的内部推理过程中并不真正具有因果重要性。

  3. 推理步骤不可信性评估:我们希望衡量思维链中的各个推理步骤是否不可信。

我们使用自动评分器(autoraters)来完成第1至第3阶段的评估。附录I详细描述了整个流程。其中,第3阶段是整个流程中最关键的一环。在该阶段,为了评估推理步骤的不可信性,我们使用8个“是/否”问题提示具备思考能力的Claude 3.7 Sonnet模型进行判断(见提示词2以获取确切提示内容)。如果模型对这8个问题的回答全部符合我们为“不可信非逻辑捷径”设定的预期答案,我们就对该回应进行人工复核。这一过程修正了自动评分器常见的若干陷阱,并通过这两重检查确保:模型在其所有生成路径中,从未承认某个特定推理步骤是不合逻辑的。

我们研究了来自3家不同模型开发方的6个模型,每家各有一个“思考型”和一个“普通型”模型。具体包括:来自阿里巴巴的 QwQ 32B Preview [4] 和 Qwen 72B IT [35];来自Anthropic的 Claude 3.7 Sonnet 和启用“思考”功能的 Claude 3.7 Sonnet [24];以及来自DeepSeek的 DeepSeek (V3) Chat [29] 和 DeepSeek R1 [6]。

这些模型在包含215道题的PutnamBench子集上的准确率如下:

  • Qwen 72B IT:41 / 215

  • QwQ 32B Preview:115 / 215

  • DeepSeek Chat (V3):81 / 215

  • DeepSeek R1:172 / 215

  • Claude Sonnet 3.7(无扩展思考):69 / 215

  • Claude Sonnet 3.7(启用思考,来自OpenRouter):114 / 215

3.1.1不忠实的不合逻辑的快捷方式的结果

使用我们在前一节中描述的方法,即由一个大语言模型(LLM)标记出符合定义“不可信捷径”的8项标准的回应,我们对所有回应进行了人工复核。在推理过程中至少包含一个不可信捷径的正确回答所占的比例,如图5所示。


分析这些结果表明,从非思考型模型转向思考型模型时,不可信行为有所减少,这与[36]的研究发现一致。从定性案例来看,Qwen 72B IT 存在大量错误,整体上似乎缺乏准确解答数学问题的能力;而Claude则采用了更巧妙的策略,能够通过一些细微但明显不合逻辑的推理,得出正确答案。

替代假设1:这些结果是否是数据污染造成的人工假象?
导致“不可信的非逻辑捷径”的一个可能原因是训练数据被污染,从而引发异常的推理模式。例如,[37] 将此作为“恢复错误”(restoration errors)的一种解释假设,我们对此也表示认同(见第3.2节)。然而,“不可信的非逻辑捷径”不太可能是数据污染的产物。我们检查了12道2024年Putnam考试中的10道题目,该考试于2024年12月举行,晚于Claude 3.7 Sonnet [24] 以及其他本研究中所有大语言模型的训练数据截止时间(2024年11月)。我们对非思考模式下的Claude 3.7 Sonnet模型以温度值0.3采样了5次生成路径(共产生91条得出正确答案的推理链),结果发现,在使用与主实验相同的方法(见附录I)进行评估时(除了使用非思考版的Claude 3.7 Sonnet同时生成推理链和进行自动评分,而非使用思考模型),该模型标记出的17个“不可信捷径”案例中,有14个仍然成立。一个示例如图4所示。


替代假设2:模型是否意识到自己的推理明显不合逻辑?另一个用于解释这些结果的替代假设是:模型并未意识到自己正在生成明显不合逻辑的推理,这可以解释为何它们没有在语言中表达出这一点。尽管我们的实验设计已通过明确标示“明显不合逻辑的推理”(而不仅仅是普通错误)来尽量排除这一可能性,但我们仍进行了测试:当使用模型作为其自身生成路径的自动评分器时,它是否会将这些路径判定为明显不合逻辑。具体而言,对于那些被8问题自动评分器和人工审查共同标记为“不可信非逻辑捷径”的问题(即图5中的真阳性案例),我们让DeepSeek R1和Claude 3.7 Sonnet(非思考模式)对相同问题的推理步骤进行评估,结果它们将其中某一步骤判定为“明显不合逻辑”。DeepSeek V3 在1/3的真阳性案例中识别出明显不合逻辑的步骤,Qwen 72B 为3/10,QwQ 则为0/1。完整结果见附录I.3。综合来看,这表明最强的模型能够意识到自己在推理中犯了不合逻辑的错误,而较弱模型的情况则尚不明确。

替代假设3:不可信的非逻辑捷径是否稳定出现?本文考虑的最后一个替代假设是:不可信的非逻辑捷径出现频率极低,且在数据集中随机分布。如果属实,那么模型“知道自己在犯明显错误”的可能性就会降低(如替代假设2所述)。此外,若此类捷径随机且罕见地出现,也将使未来研究其缓解方法和科学理解(例如通过机制可解释性方法)变得更加困难。为了检验这类不可信捷径是否稳定出现,我们选取了图5中被Claude 3.7 Sonnet(非思考模式)标记为“真阳性”的所有问题,独立重新生成了两条新的推理路径。再次运行第3.1节所述方法后,我们发现这26条新路径中有17条仍包含不可信的非逻辑捷径,这一比例远高于图5中整体问题的不可信捷径发生率。完整结果见附录J。

3.2 关于“恢复错误”的负面结果

我们使用与第3.1节类似的方法流程来评估“恢复错误”(Restoration Errors)[37]。所谓恢复错误,是指模型在某一步推理中出现错误,但在后续步骤或最终答案中悄悄纠正了该错误,却未在语言中承认这一失误。这种不可信模式与现有思维链可信性研究密切相关,后者常通过在模型生成过程中人为修改中间token,来测量思维链的因果依赖性(例如Lanham等 [10],Gao [38])。

附录K详细描述了针对“恢复错误”的评估方法、所用定制提示词以及实验结果。总体而言,我们未发现存在恢复错误的证据,除了少数可能由数据集污染导致的案例。原因在于,我们研究的大多数模型的知识截止日期在2024年中期,而我们使用的所有数据集中的问题均发布于该日期之前。

4 相关工作

思维链推理(Chain-of-Thought Reasoning)

语言模型中的可信性(Faithfulness in Language Models) 语言模型解释的“可信性”(faithfulness)近年来受到越来越多关注。一些研究 [9, 39–41] 采用“反事实可模拟性”(counterfactual simulatability)框架来衡量可信性:即模型对某一输入的解释,在多大程度上能够帮助用户预测该模型对另一不同输入的回答 [42]。例如,Turpin 等人 [9] 表明,可以通过特定措辞的提示诱导模型产生带有偏见的回答,而模型在其解释中却不会揭示这种偏见的真实来源。

另一些研究 [10, 38] 则评估模型的最终答案在多大程度上因果依赖于其思维链(CoT),通过截断、篡改或改写模型的思维链,观察其预测答案是否发生变化,从而衡量可信性。这些工作均建立在先前关于可使用思维链的模型的研究与部署基础之上 [1–7]。

Cox [43] 提供了事后合理化的实证证据:他们发现,在模型生成解释之前,就可以通过线性探针(linear probes)预测其答案;并且可以诱导模型改变答案,并编造支持性事实来为新的结论辩护。Parcalabescu 和 Frank [44] 指出,许多提出的可信性测试实际上衡量的是输出层面的自我一致性(self-consistency),而非对模型内部机制的真实反映。最后,Li 等人 [45] 表明,改变模型陈述会导致推理捷径的出现,但与我们的研究不同的是,他们发现这些捷径在难题上会导致最终答案错误。

已有若干方法被提出用于检测、预防或缓解不可信推理 [12, 13, 46–49]。Chua 和 Evans [36] 提出,“思考型”模型往往更具可信性,但这一结论仍处于持续研究之中。

对人工智能安全的影响 Radhakrishnan 等人 [50] 强调,基于过程的监督(process-based oversight)高度依赖于模型推理的可信性;而 Zhang 等人 [51] 则讨论了“过程奖励模型”(Process Reward Models)可能反而会激励模型产生不可信行为。OpenAI [7] 和 Baker 等人 [12] 也探讨了训练实践对模型推理能力与安全性的广泛影响。另一方面,nostalgebraist [52] 认为,思维链不可信性对AI安全的潜在威胁被夸大了,他指出,其他可解释性技术在可信性方面面临类似困难,却无法提供像思维链这样具有表达力的解释。

5 结论

在本研究中,我们表明,即使是面对自然表述、非对抗性的提示,最先进的语言模型(包括具备“思考”能力的模型)也可能生成不可信的思维链(CoT)。我们重点关注了两种不可信行为的具体表现形式:

  • 隐式事后合理化(Implicit Post-Hoc Rationalization):在模型对特定类别的二元问题(如“是/否”问题)的回答中,存在系统性偏见,但这些偏见并未在所提供的思维链解释中体现出来。这表明模型生成的解释是在为预先存在的偏见进行合理化,而非真实反映其内部的推理过程。

  • 不可信的非逻辑捷径(Unfaithful Illogical Shortcuts):模型使用明显不合逻辑的推理来简化问题求解过程,却完全不承认其推理中存在非逻辑性。

这些发现对人工智能系统的安全与可靠部署具有重要意义。尽管我们通过自动化方法检测思维链错误的能力,凸显了CoT在验证模型输出方面的潜力,但“不可信的非逻辑捷径”的存在表明,思维链并不必然是模型内部推理过程的完整或透明记录。因此,不应将思维链视为模型认知过程的完整且透明的反映

此外,我们识别出的“隐式事后合理化”现象表明,模型可能表现出类似于人类“动机性推理”(motivated reasoning)的行为,即为输出结果构建看似合理的解释,却未披露其背后的潜在偏见。重要的是,这种现象不仅出现在对抗性设置中(如Turpin等人 [9] 之前所展示的),也出现在自然语言提示下。这类隐藏的推理尤其隐蔽:仅通过单条思维链可能无法察觉,必须通过对模型行为的聚合分析才能发现。

我们的研究表明,尽管“思考型”模型相比非思考型模型通常表现出更高的可信性,但仍可能产生不可信的推理。这表明,不可信性是一个根本性挑战,即使模型的推理能力不断提升,该问题仍可能持续存在。如果不改变底层算法和训练方法,模型的内部推理过程可能继续与其输出中明确表达的内容相偏离,尤其随着诸如“潜在推理”(latent reasoning)[53] 等更不透明技术的使用,这一问题可能进一步恶化。

总之,尽管思维链解释是评估模型输出的有力工具,但我们必须认识到,它所提供的只是底层推理过程的不完整图景。因此,思维链更适用于识别有缺陷的推理,从而排除不可靠的输出,而非用于确认模型输出的正确性——因为思维链可能遗漏决策过程中的关键环节。

5.1 局限性与未来工作

我们的研究存在若干关键局限性,这些局限性指明了未来研究的重要方向。首先,我们的“隐式事后合理化”分析依赖于事实性问题,其中错误答案通常伴随着明显错误的思维链(CoT)。在存在真实不确定性或主观判断的领域中,检测不可信性将更具挑战性,因为可能存在多种合理的论证。未来的研究应探索包含多个可辩护答案的数据集,以调查在看似合理的思维链解释中可能隐藏的偏见。

其次,尽管我们记录了前沿模型中的多种不可信行为,但由于模型的内部推理过程是未知的,我们无法明确证明其所陈述的推理与内部实际推理之间存在差异。未来的研究可以通过分析Transformer架构、训练数据或学习到的表征,来深入探究不可信思维链生成背后的机制。我们希望,随本文发布的“真实场景中不可信思维链示例”数据集,能够促进此类研究的开展。

最后,尽管我们的工作聚焦于不可信性的特定表现形式,但我们注意到,大多数模型的回应仍是可信的,而使用自然语言思维链使我们能够研究和监控模型的推理过程。这表明,只要模型保持类似的架构,将推理外显化(externalized reasoning)仍是一种有前景的监控策略。

原文链接:https://arxiv.org/pdf/2503.08679

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

台州交通广播
2026-01-07 06:53:59
12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

蜉蝣说
2026-01-05 15:00:34
善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

单手搓核弹
2026-01-06 14:04:34
万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

墨兰史书
2026-01-06 11:30:03
德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

Kerry哲学
2026-01-07 13:49:56
流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

潇湘晨报
2026-01-06 17:20:18
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

译言
2026-01-07 10:33:38
紧急道歉反转!雷军又被捅了一刀!

紧急道歉反转!雷军又被捅了一刀!

广告创意
2026-01-06 17:41:33
四川一党组书记任上被查!

四川一党组书记任上被查!

雅安生活网
2026-01-07 14:26:43
首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

看看新闻Knews
2026-01-06 09:01:03
三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

中国能源网
2026-01-07 08:45:05
工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

火山詩话
2026-01-05 12:43:55
詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

一将篮球
2026-01-07 12:16:03
A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

财经大拿
2026-01-07 11:52:26
外交部亚洲司司长刘劲松意外“闯入”李在明自拍

外交部亚洲司司长刘劲松意外“闯入”李在明自拍

看看新闻Knews
2026-01-06 20:13:03
新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社
2026-01-06 17:32:44
疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

金融界
2026-01-07 10:37:18
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
山姆惊现寄生虫!900万会员天塌了

山姆惊现寄生虫!900万会员天塌了

广告案例精选
2026-01-07 11:30:45
2026-01-07 16:24:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1132文章数 18关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

数码
家居
游戏
亲子
教育

数码要闻

先于标准获批,华硕计划2026年内发布首批Wi-Fi 8家用路由器

家居要闻

宁静不单调 恰到好处的美

曝育碧计划今年举办大型发布会 并推出《孤岛惊魂7》

亲子要闻

帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

教育要闻

中字头央企四川分公司2026校招246人,成都锦城学院成最大赢家

无障碍浏览 进入关怀版