网易首页 > 网易号 > 正文 申请入驻

大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

0
分享至



近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式可以显著提高模型在复杂推理类任务上的表现,已成为当前最主流的推理增强方法。

但从实际使用和研究结果来看,CoT 的表现并非始终稳定。一些任务中可以明显观察到:

  • 不同推理路径之间质量差异很大。
  • 模型即使在训练或提示方式保持一致的情况下,生成的中间步骤仍可能出现偏差。
  • 推理链内部的正确性并不总能通过表面概率反映出来。

那么问题来了:大模型有没有可能「意识到自己正在犯错」?在 Token 概率不可靠的情况下,是否有其他信号可以指导更可靠的生成?

在这一背景下,合肥工业大学的研究团队提出了一个观点:大模型的内部其实存在一种「隐藏的真伪认知」。这种状态可以形象地理解为「爱你在心口难开」——模型在内部激活中已隐含对推理正确性的判断,但这种判断却在基于 Token 概率的生成过程中被错误地表达。因此,模型即便「口头说错」,其内部表征中仍保留着对纠错的可能。

这篇论文的核心,就是让模型学会用这种隐藏认知来给自己的每一步推理「打分」,进而过滤掉错误的推理链,让 CoT 更可靠。该工作已被 AAAI 2026 录用为 Oral 论文。



  • 论文标题:Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning
  • 论文链接
  • https://arxiv.org/abs/2507.10007
  • GitHub 开源代码链接
  • https://github.com/hfutml/cog-cot

研究背景与问题


随着大语言模型在数学推理、逻辑推理与多模态问答等领域的应用不断扩大,人们越来越关注一个核心能力:模型是否能够在生成过程中保持稳定且可靠的推理质量。在实际使用中,模型往往需要连续推导多个中间步骤才能得到最终答案,这使得推理链的质量对整体表现具有决定性影响。

然而,推理链本身是通过生成式过程逐步展开的,其可靠性受到多种因素影响,例如:模型对问题理解的细微偏差、局部步骤的表达噪声、长链推理中的累积误差等。即便模型整体能力足够强,这些因素仍可能导致某些推理步骤偏离正确方向,影响最终回答的准确度。

因此,一个自然且重要的问题是:

在推理过程中,是否存在某种可以反映当前步骤可靠性的内部信号,从而帮助我们判断哪些推理路径值得继续扩展?

大语言模型在生成每一步推理时都会产生丰富的内部激活,这些表示承载了模型对输入、上下文以及当前推理状态的理解。 如果这些激活中包含区分「合理推理」与「错误推理」的信息,那么我们就有可能在生成阶段实时利用这些内部线索,从而提升推理链的整体质量。

基于这一动机,这项研究聚焦于两个关键问题:

  • 模型的内部激活是否蕴含对推理步骤真伪的有效区分信息?
  • 如果存在,能否构建一个利用这些信息的机制,帮助模型在推理过程中选择更可靠的路径?

论文提出的方案正是在回答这两个问题,并尝试让推理过程在模型原有能力基础上变得更稳健、更具判断力。

方法与创新

论文提出的框架,核心思想是:虽然模型表面生成的推理步骤可能不够可靠,但其内部激活在很大程度上「知道」哪些步骤是正确的。为此,作者设计了以下创新方法:

从多层注意力头中探测「真伪敏感性」

对模型生成的推理步骤进行真伪标注(True/False),然后在模型各层的内部表示上训练简单探针(Linear Probe),测试哪些层对推理正确性最敏感。

结果表明:中间层的特定注意力头能区分「正确步骤」和「错误步骤」,准确率可达 80% 以上。这说明模型的内部确实蕴含潜在的认知信号。

构建置信度预测器(Confidence Predictor)

作者选取最敏感的几个注意力头,将其激活拼接,作为输入训练一个轻量预测器,输出对每一步推理的可信度评分。该评分不基于 Token 概率,而基于模型内部的深层表示,更能反映推理质量。

基于置信度的推理路径搜索(Confidence-Guided Search)

结合模型生成概率与可信度,设计新的推理扩展策略:

通过此评分筛选最可信的推理路径,使生成过程能够:

  • 主动避开不可靠的步骤;
  • 优先扩展有潜力的推理方向;

从而提高整个 CoT 推理链的稳定性。



实验结果


论文从两个层面系统评估了所提出方法的有效性:(A)可信度预测器本身是否可靠?(B)将预测器用于推理路径选择后,整体推理是否更准确?

下面分两部分介绍。

A. 置信度预测器的评估

作者首先评估模型内部激活是否真的携带「推理真伪」的可判别信号,以及预测器能否有效地从激活中提取这种信号。核心实验包括:

  • 真伪区分能力

通过在模型不同层、不同注意力头上训练线性探针,研究者获得了以下发现:

  • 中间层的部分注意力头对推理真伪高度敏感;
  • 特定激活向量可实现 80%–85% 的真伪区分准确率;
  • 早期层和后期层的判别能力相对较弱。

这一结果表明:模型在内部表征中「隐含地知道」某一步推理是否正确。预测器正是利用这些「高敏感」注意力头,因此具有良好的理论基础。

  • 可信度预测的校准效果

论文进一步引入 ECE-Loss 进行校准,使预测的可信度分数更可解释、更稳定。实验显示置信度预测器得到的可信度分数校准性更佳,即得到的置信度分数更贴近真实的真伪概率值,作者用 ECE、Brier 和 AUC 这三个校准指标以及多种置信度量化方法来评估,如下表:



这证明预测器不仅能区分真伪,还能提供更具校准性、可用于决策的连续置信度评分,适合作为搜索策略的依据。

B. 基于预测器引导的推理性能

论文将可信度预测器应用于推理路径选择,并在多个 Benchmark 上进行验证,既包括纯文本推理任务(单模态),也包括视觉–语言混合的多模态推理任务。评估数据集覆盖数学、逻辑以及常识推理。

  • 单模态推理任务:包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean。
  • 多模态推理任务:包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar。
  • Baseline:Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search。



结果表明,方法在每种设置下均取得了优异性能。与相同设置下的少样本思维链(Few-Shot CoT)相比,该方法在大多数测试中均展现出显著提升。 例如,在单模态任务的 SVAMP 数据集上,该方法相较于少样本思维链提升了 5 个百分点(48.3 对 43.3);在多模态任务的 RealWorldQA 数据集上,实现了 10.7 个百分点的提升。

总体而言,无论是在数学与符号推理、常识推理任务中,还是在单模态与多模态任务中,该方法在大多数情况下都优于基线模型少样本思维链以及其他 Baseline。这充分表明,从模型内部状态中提取的置信度能够有效引导生成更可靠的推理链。

消融实验表明:可信度预测器对推理提升至关重要。如下图所示:



若将候选推理步骤「随机选择」而非依据可信度,本方法性能显著下降。随机策略在若干任务上甚至低于 Few-Shot CoT Baseline。

作者信息


一作:陈紫军,合肥工业大学博士生,主要研究方向为大模型概率可靠性,曾在 AAAI、COLING 等顶级会议上发表论文。

通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱棣死在榆木川,榆木川位于现在的哪里?说出来你可能不信

朱棣死在榆木川,榆木川位于现在的哪里?说出来你可能不信

小豫讲故事
2026-01-12 06:00:05
压岁钱发到几岁最合适?内行给出“4个”答案,你更赞成哪一个?

压岁钱发到几岁最合适?内行给出“4个”答案,你更赞成哪一个?

美食格物
2026-01-12 17:17:08
洗碗机女主:制造争议,吸引流量,开播,被封,主打一个完美

洗碗机女主:制造争议,吸引流量,开播,被封,主打一个完美

TVB的四小花
2026-01-11 06:02:24
广东一54岁男子痛风去世,从不吃内脏海鲜,医生叹息:无知害了他

广东一54岁男子痛风去世,从不吃内脏海鲜,医生叹息:无知害了他

华庭讲美食
2026-01-03 11:13:38
送走小波特后,篮网能否顺势交易得到贾・莫兰特?

送走小波特后,篮网能否顺势交易得到贾・莫兰特?

夜白侃球
2026-01-12 20:23:32
基辅市长克里琴科:基辅已经瘫痪了,应该离开基辅!

基辅市长克里琴科:基辅已经瘫痪了,应该离开基辅!

达文西看世界
2026-01-11 09:44:04
外交部:目前没有得到有中国公民在伊朗伤亡的报告

外交部:目前没有得到有中国公民在伊朗伤亡的报告

环球网资讯
2026-01-12 16:04:42
西安未来五年要搞大事!住这些区域的人有福了,看看有你家吗?

西安未来五年要搞大事!住这些区域的人有福了,看看有你家吗?

林子说事
2026-01-12 15:27:41
日方求当面交涉,吴大使反应不出所料,难听的话高市只能照单全收

日方求当面交涉,吴大使反应不出所料,难听的话高市只能照单全收

剑哥的思政课
2026-01-12 19:23:48
中国卫星封板涨停,再创历史新高

中国卫星封板涨停,再创历史新高

每日经济新闻
2026-01-12 10:00:06
朱雨玲夺冠后开心提及孙颖莎王曼昱,带走28万奖金

朱雨玲夺冠后开心提及孙颖莎王曼昱,带走28万奖金

孤酒老巷QA
2026-01-12 13:31:41
老公走了,我养大三个小叔子,今年我住院,他们的表现让我觉得值

老公走了,我养大三个小叔子,今年我住院,他们的表现让我觉得值

会一帆风顺的
2026-01-12 14:11:52
杨乐乐晒儿子正脸照,一家四口合照曝光,沐沐疑和妹妹睡上下铺

杨乐乐晒儿子正脸照,一家四口合照曝光,沐沐疑和妹妹睡上下铺

阿纂看事
2026-01-12 09:24:30
中国1-0爆冷澳洲,没想到赛后王玉栋这么说 距离创造历史仅差一步

中国1-0爆冷澳洲,没想到赛后王玉栋这么说 距离创造历史仅差一步

篮球看比赛
2026-01-12 11:19:53
对 “台独刽子手”陈舒怡,必须抓捕归案以平民愤、告忠魂!

对 “台独刽子手”陈舒怡,必须抓捕归案以平民愤、告忠魂!

达文西看世界
2026-01-12 14:14:16
印度要求智能手机制造商共享“源代码”,苹果和三星等表示担忧!

印度要求智能手机制造商共享“源代码”,苹果和三星等表示担忧!

AI商业论
2026-01-11 19:27:35
历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

文史旺旺旺
2026-01-11 15:47:04
十大元帅中谁最佩服毛主席?几乎到了言听计从的地步!无怨无悔

十大元帅中谁最佩服毛主席?几乎到了言听计从的地步!无怨无悔

汪茫的创业之路
2026-01-12 14:20:08
18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

环球趣闻分享
2026-01-07 13:30:09
杨瀚森防守效率力压浓眉、约基奇,位居NBA中锋第六

杨瀚森防守效率力压浓眉、约基奇,位居NBA中锋第六

大眼瞄世界
2026-01-12 11:16:58
2026-01-12 20:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12101文章数 142535关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

房产
旅游
家居
公开课
军事航空

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

旅游要闻

中国文旅看山西:省文旅厅和交通厅联手规划打造“万里山河”景观路

家居要闻

包络石木为生 野性舒适

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版