网易首页 > 网易号 > 正文 申请入驻

大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

0
分享至



近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式可以显著提高模型在复杂推理类任务上的表现,已成为当前最主流的推理增强方法。

但从实际使用和研究结果来看,CoT 的表现并非始终稳定。一些任务中可以明显观察到:

  • 不同推理路径之间质量差异很大。
  • 模型即使在训练或提示方式保持一致的情况下,生成的中间步骤仍可能出现偏差。
  • 推理链内部的正确性并不总能通过表面概率反映出来。

那么问题来了:大模型有没有可能「意识到自己正在犯错」?在 Token 概率不可靠的情况下,是否有其他信号可以指导更可靠的生成?

在这一背景下,合肥工业大学的研究团队提出了一个观点:大模型的内部其实存在一种「隐藏的真伪认知」。这种状态可以形象地理解为「爱你在心口难开」——模型在内部激活中已隐含对推理正确性的判断,但这种判断却在基于 Token 概率的生成过程中被错误地表达。因此,模型即便「口头说错」,其内部表征中仍保留着对纠错的可能。

这篇论文的核心,就是让模型学会用这种隐藏认知来给自己的每一步推理「打分」,进而过滤掉错误的推理链,让 CoT 更可靠。该工作已被 AAAI 2026 录用为 Oral 论文。



  • 论文标题:Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning
  • 论文链接
  • https://arxiv.org/abs/2507.10007
  • GitHub 开源代码链接
  • https://github.com/hfutml/cog-cot

研究背景与问题


随着大语言模型在数学推理、逻辑推理与多模态问答等领域的应用不断扩大,人们越来越关注一个核心能力:模型是否能够在生成过程中保持稳定且可靠的推理质量。在实际使用中,模型往往需要连续推导多个中间步骤才能得到最终答案,这使得推理链的质量对整体表现具有决定性影响。

然而,推理链本身是通过生成式过程逐步展开的,其可靠性受到多种因素影响,例如:模型对问题理解的细微偏差、局部步骤的表达噪声、长链推理中的累积误差等。即便模型整体能力足够强,这些因素仍可能导致某些推理步骤偏离正确方向,影响最终回答的准确度。

因此,一个自然且重要的问题是:

在推理过程中,是否存在某种可以反映当前步骤可靠性的内部信号,从而帮助我们判断哪些推理路径值得继续扩展?

大语言模型在生成每一步推理时都会产生丰富的内部激活,这些表示承载了模型对输入、上下文以及当前推理状态的理解。 如果这些激活中包含区分「合理推理」与「错误推理」的信息,那么我们就有可能在生成阶段实时利用这些内部线索,从而提升推理链的整体质量。

基于这一动机,这项研究聚焦于两个关键问题:

  • 模型的内部激活是否蕴含对推理步骤真伪的有效区分信息?
  • 如果存在,能否构建一个利用这些信息的机制,帮助模型在推理过程中选择更可靠的路径?

论文提出的方案正是在回答这两个问题,并尝试让推理过程在模型原有能力基础上变得更稳健、更具判断力。

方法与创新

论文提出的框架,核心思想是:虽然模型表面生成的推理步骤可能不够可靠,但其内部激活在很大程度上「知道」哪些步骤是正确的。为此,作者设计了以下创新方法:

从多层注意力头中探测「真伪敏感性」

对模型生成的推理步骤进行真伪标注(True/False),然后在模型各层的内部表示上训练简单探针(Linear Probe),测试哪些层对推理正确性最敏感。

结果表明:中间层的特定注意力头能区分「正确步骤」和「错误步骤」,准确率可达 80% 以上。这说明模型的内部确实蕴含潜在的认知信号。

构建置信度预测器(Confidence Predictor)

作者选取最敏感的几个注意力头,将其激活拼接,作为输入训练一个轻量预测器,输出对每一步推理的可信度评分。该评分不基于 Token 概率,而基于模型内部的深层表示,更能反映推理质量。

基于置信度的推理路径搜索(Confidence-Guided Search)

结合模型生成概率与可信度,设计新的推理扩展策略:

通过此评分筛选最可信的推理路径,使生成过程能够:

  • 主动避开不可靠的步骤;
  • 优先扩展有潜力的推理方向;

从而提高整个 CoT 推理链的稳定性。



实验结果


论文从两个层面系统评估了所提出方法的有效性:(A)可信度预测器本身是否可靠?(B)将预测器用于推理路径选择后,整体推理是否更准确?

下面分两部分介绍。

A. 置信度预测器的评估

作者首先评估模型内部激活是否真的携带「推理真伪」的可判别信号,以及预测器能否有效地从激活中提取这种信号。核心实验包括:

  • 真伪区分能力

通过在模型不同层、不同注意力头上训练线性探针,研究者获得了以下发现:

  • 中间层的部分注意力头对推理真伪高度敏感;
  • 特定激活向量可实现 80%–85% 的真伪区分准确率;
  • 早期层和后期层的判别能力相对较弱。

这一结果表明:模型在内部表征中「隐含地知道」某一步推理是否正确。预测器正是利用这些「高敏感」注意力头,因此具有良好的理论基础。

  • 可信度预测的校准效果

论文进一步引入 ECE-Loss 进行校准,使预测的可信度分数更可解释、更稳定。实验显示置信度预测器得到的可信度分数校准性更佳,即得到的置信度分数更贴近真实的真伪概率值,作者用 ECE、Brier 和 AUC 这三个校准指标以及多种置信度量化方法来评估,如下表:



这证明预测器不仅能区分真伪,还能提供更具校准性、可用于决策的连续置信度评分,适合作为搜索策略的依据。

B. 基于预测器引导的推理性能

论文将可信度预测器应用于推理路径选择,并在多个 Benchmark 上进行验证,既包括纯文本推理任务(单模态),也包括视觉–语言混合的多模态推理任务。评估数据集覆盖数学、逻辑以及常识推理。

  • 单模态推理任务:包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean。
  • 多模态推理任务:包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar。
  • Baseline:Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search。



结果表明,方法在每种设置下均取得了优异性能。与相同设置下的少样本思维链(Few-Shot CoT)相比,该方法在大多数测试中均展现出显著提升。 例如,在单模态任务的 SVAMP 数据集上,该方法相较于少样本思维链提升了 5 个百分点(48.3 对 43.3);在多模态任务的 RealWorldQA 数据集上,实现了 10.7 个百分点的提升。

总体而言,无论是在数学与符号推理、常识推理任务中,还是在单模态与多模态任务中,该方法在大多数情况下都优于基线模型少样本思维链以及其他 Baseline。这充分表明,从模型内部状态中提取的置信度能够有效引导生成更可靠的推理链。

消融实验表明:可信度预测器对推理提升至关重要。如下图所示:



若将候选推理步骤「随机选择」而非依据可信度,本方法性能显著下降。随机策略在若干任务上甚至低于 Few-Shot CoT Baseline。

作者信息


一作:陈紫军,合肥工业大学博士生,主要研究方向为大模型概率可靠性,曾在 AAAI、COLING 等顶级会议上发表论文。

通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
游戏
房产
本地
公开课

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

《迷你金属2》4月开启开发版测试 军事题材战略模拟

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版