COLING 2025 | 大语言模型能像人一样进行思维链推理吗？|数学|逻辑推理

COLING 2025 | 大语言模型能像人一样进行思维链推理吗？

2025-04-02 08:57:07　来源: 将门创投

北京举报

分享至

“大语言模型能像人一样通过思维链进行推理，解决复杂的逻辑或数学问题”, 经常见到这样的说法。

越来越多的人相信大语言模型能像人一样进行推理。而从大语言模型的思维链推理行为来看，确实很像人的推理过程。但实事真的如此吗？

本文的研究表明：AI生成的推理过程很多时候，只是行为的模仿，并不是真正的推理。本文在大语言模型上使用扰动实验，通过统计显著性检验变量间的因果联系，揭示大模型内部的因果图结构。通过将大模型的表层行为和底层的结构对应起来，能够解释大模型推理中的很多奇怪现象，比如说错误的推理过程得到正确的结果。

论文题目： How Likely Do LLMs with CoT Mimic Human Reasoning? 论文链接： https://aclanthology.org/2025.coling-main.524.pdf 代码链接： https://github.com/StevenZHB/CoT_Causal_Analysis 相关Talk： https://event.baai.ac.cn/activities/918

一、研究动机

思维链（Chain of Thought, CoT）作为大语言模型（LLM）解决推理任务的标准技术，已被广泛应用于复杂的数学推理和逻辑推理中。然而，研究表明，思维链并不总是能提高模型的性能，也不总是忠实地表达模型的实际推理过程。这样的现象让人们对大语言模型推理的真实过程和潜在机制充满了好奇。本研究尝试揭开这些现象背后的真相。

表1：一个简单的问题解决过程

现有的研究多从现象层面探讨大语言模型的推理过程。我们则采用因果分析的方法，从大语言模型推理过程的内在机制进行研究，并与人类的推理过程进行对比。如表1所示，我们将问题求解过程简化、抽象为问题指令（instruction）、推理步骤（CoT）和结论（answer）三部分，并用随机变量表示：Z代表问题指令，X代表推理步骤，Y代表答案。心理学研究表明，理性的人类在解决复杂推理问题时遵循因果链，其中问题指令决定推理步骤，而推理步骤决定结论。

对于LLM，我们通过干预分析这三个随机变量之间的因果关系，就可以揭示大语言模型在特定任务上其内在的结构因果模型（SCM）。我们的实验涉及到四种因果模型结构，包括因果链（I型）、共同原因（II型）、完全连接（III型）和隔离（IV型）。实验结果表明，大语言模型上存在大量的共同原因和完全连接型结构。在这些结构条件下模型可能并未进行真正的推理，而是根据潜在的答案信念生成推理过程的解释。也就是说，模型在生成推理过程之前就已经确定答案了，而所有后续的“推理过程”只是为这个答案提供了一种合理的解释。

二、方法

理论上来说，一个自回归语言模型允许右侧的词依赖于所有左侧的词，形成一种全连接结构。然而，对于每个特定任务，语言模型可能在全连接结构的任何子图下工作。

为了在任务中推断大型语言模型的潜在SCM结构类型，我们使用干预来测试因果关系，重点关注指向答案（Y）的关系，如图1所示。

图1：因果分析过程

我们控制其中的一个条件变量，干预另一个条件变量，观察输出变量所受到的影响，看其是否显著地改变。通过控制推理过程X，干预提示信息Z，我们得到Z到Y的因果联系。通过控制提示信息Z，干预推理过程X，我们得到X到Y的因果联系。综合两者，我们就得到SCM结构。

具体来说，我们使用McNemar检验来评估平均干预效应（ATE）的显著性，分别检验上述两组干预实验对应的两个假设：“推理过程（X）决定答案（Y）”和“提示信息（Z）决定答案（Y）”。基于假设检验的统计显著性，我们推断每个任务上LLM的实际SCM结构。具体形式化表达如下：

为了检验假设“推理过程（X）决定答案（Y）”，我们使用两种干预形式：黄金标准推理链和随机错误推理链，预期效果分别是提高和降低任务准确率。黄金标准推理链表示标准的正确的推理步骤，我们期望LLM可以从中得出正确答案。随机错误推理链则基于LLM生成的推理链，通过注入随机错误来构建。具体的，我们随机替换数学问题中的数字，将逻辑推理问题中的最后1/3断言转换为否定表达。我们期望LLM从中得出错误的答案。

为了检验假设“提示信息（Z）决定答案（Y）”，我们控制推理过程，使用黄金标准推理链或者模型生成推理链。在推理链确定的情况下，我们也使用两种干预形式：随机提示和随机偏见。随机提示使用GPT-4基于默认提示信息通过预定义的提示模板随机生成，不改变提示信息基本语义。随机偏见则在指令中注入偏见声明，如“我认为正确答案/选项是： <随机错误答案> ”。一个理想的LLM，应该不受这些不相关的干扰的影响。

三、实验结果

总的来说，我们的实验结果表明：SCM结构是LLM推理的一个本质特征，能够揭示其内在行为，并预测各种表面现象。如图2所示，但SCM是I型时，LLM的内在行为是进行推理，其推理过程会决定最终答案；而当SCM是II型时，LLM的内在行为是进行解释，此时关于答案的信念在“推理过程”之前已经确定，“推理过程”不会影响最后的答案。当SCM是III型时，LLM的内在行为是两者的混合。

图2：四种SCM结构对应的内在行为和外在现象

这些内在行为决定了LLM推理的表层现象，具体如下所述。

与回答的忠实性（faithfulness）的联系

给定SCM类型，我们可以预测LLM回答的忠实性。对于I型，LLM倾向于提供可信的推理过程，而对于II型和III型，LLM可能产生不可信的“推理过程”。这些可以通过提示信息在随机干扰条件下的ATE显著性得到检验。如表2中的Addition、Multiplication、ProofWriter和LogiQA所示，在CoT恒定的情况下，提示信息上的随机干扰改变了模型对答案的信念。结果是，使用恒定的CoT，无论是默认CoT还是黄金CoT，答案有很大比例变成错误的了。说明了CoT不能忠实地表达潜在信念背后真实推理过程。

实际上，如表2中不显著但非零的ATE值所展现，没有任何LLM和任务能够进行纯粹的推理或解释，通常它们是两种行为的混合体。因此，不忠实的回答通常在所有LLM和任务中都会发生，只是频度有所不同。

表2：GPT-3.5-Turbo上的干扰实验

与回答的一致性（consistency）的联系

我们评估了六个任务中CoT和答案的一致性，发现错误的CoT可能会与正确的答案同时出现，反之亦然。在六个任务中的五个任务中，LLMs产生了一致性错误，特别是在简单的算术问题如Addition和Multiplication中。例如，Addition中超过60%的错误CoT导致正确答案，而更大的模型如GPT-4则显示出更大74%的差异。

直观地说，推理行为倾向于产生一致的回答，因为答案是从推理步骤中得出的。而解释行为可能产生不一致的CoT和答案，因为它们随机地依赖于相同的潜在信念。我们检查了SCM的类型和一致性错误率之间的关联。结果表明，具有I型SCM 的任务一般错误率低于II型SCM 的任务，而混合的III型错误率总体上处于两者之间。

与任务准确率（task accuracy）的联系

有趣的是，LLM的任务准确性与SCM的类型并不直接相关。当我们比较GPT-4和GPT-3.5-turbo时，虽然GPT-4的平均任务准确性相对提高41%，但其SCM类型分布上并没有表现出更多的I型。SCM的类型决定了推理过程，但不能直接决定任务的准确性。

因此，我们需要针对不同类型的SCM采取不同的策略来提高答案的准确性。对于I型SCM，可以通过提高推理步骤的质量来提高任务准确率。然而，对于II型SCM，改善CoT则无法实现更高的任务准确率。

这些结论可以从表2的实验结果中得出。如表2中所示的GSM8K（类型I）和Addition（类型II）。经过干扰后，黄金推理链（treated w/ golden CoT）使得GSM8K的任务准确性从0.742提高到1.000（增加0.258），但并没有提高Addition的任务准确性。

对于III型SCM，尽管有可能通过改善推理步骤来提高准确率，但由于CoT背后推理和解释行为的混合，无法保证结果。具体来说，如表中所示的Multiplication和ProofWriter，黄金推理链将Multiplication的任务准确性从0.454提高到0.638（增加0.184），将ProofWriter从0.520提高到0.777（增加0.257）。但尽管有所提高，准确率依然远未达到完美的1。

SCM类型的分布

我们发现，更大的模型并不一定会有更好的内在SCM结构。如表3所示，不同的LLM显示出不同的SCM类型分布。

表3：SCM分布

其中，III型（全连接）是最常见的情况（24个LLM任务中有10个），表明多数LLM在推理链中表现出混合行为。较小的Llama2模型的SCM类型倾向于II、III和IV而不是I型。而较大的GPT-3.5-turbo和GPT-4虽然表现出更多的I型，但仍有相当大比例的II，III和IV型。因此，较大的LLM并不一定产生接近理想的因果链。这也表明，单纯增大模型规模可能无法使LLM达到人类级别的推理能力。

四、结语

我们对大语言模型的思维链进行了因果分析，揭示了其内在的因果模型结构。这些结构作为基本特征，可以用于揭示模型的内在行为，以及预测模型的外在表现，如生成回答的一致性和忠实性。相关因素的分析表明，模型规模对因果结构有显著影响，但更大的模型并不一定能产生更好的因果结构。一些流行的技术，如上下文学习（ICL）、监督微调（SFT）和基于人类反馈的强化学习（RLHF），会显著影响因果结构。其中，上下文实例能增强因果结构，而监督微调则会削弱因果结构。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.