网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

0
分享至

来源:市场资讯

(来源:机器之心)


近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式可以显著提高模型在复杂推理类任务上的表现,已成为当前最主流的推理增强方法。

但从实际使用和研究结果来看,CoT 的表现并非始终稳定。一些任务中可以明显观察到:

  • 不同推理路径之间质量差异很大。

  • 模型即使在训练或提示方式保持一致的情况下,生成的中间步骤仍可能出现偏差。

  • 推理链内部的正确性并不总能通过表面概率反映出来。

那么问题来了:大模型有没有可能「意识到自己正在犯错」?在 Token 概率不可靠的情况下,是否有其他信号可以指导更可靠的生成?

在这一背景下,合肥工业大学的研究团队提出了一个观点:大模型的内部其实存在一种「隐藏的真伪认知」。这种状态可以形象地理解为「爱你在心口难开」——模型在内部激活中已隐含对推理正确性的判断,但这种判断却在基于 Token 概率的生成过程中被错误地表达。因此,模型即便「口头说错」,其内部表征中仍保留着对纠错的可能。

这篇论文的核心,就是让模型学会用这种隐藏认知来给自己的每一步推理「打分」,进而过滤掉错误的推理链,让 CoT 更可靠。该工作已被 AAAI 2026 录用为 Oral 论文。


  • 论文标题:Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning

  • 论文链接:https://arxiv.org/abs/2507.10007

  • GitHub 开源代码链接:https://github.com/hfutml/cog-cot

研究背景与问题

随着大语言模型在数学推理、逻辑推理与多模态问答等领域的应用不断扩大,人们越来越关注一个核心能力:模型是否能够在生成过程中保持稳定且可靠的推理质量。在实际使用中,模型往往需要连续推导多个中间步骤才能得到最终答案,这使得推理链的质量对整体表现具有决定性影响。

然而,推理链本身是通过生成式过程逐步展开的,其可靠性受到多种因素影响,例如:模型对问题理解的细微偏差、局部步骤的表达噪声、长链推理中的累积误差等。即便模型整体能力足够强,这些因素仍可能导致某些推理步骤偏离正确方向,影响最终回答的准确度。

因此,一个自然且重要的问题是:

在推理过程中,是否存在某种可以反映当前步骤可靠性的内部信号,从而帮助我们判断哪些推理路径值得继续扩展?

大语言模型在生成每一步推理时都会产生丰富的内部激活,这些表示承载了模型对输入、上下文以及当前推理状态的理解。 如果这些激活中包含区分「合理推理」与「错误推理」的信息,那么我们就有可能在生成阶段实时利用这些内部线索,从而提升推理链的整体质量。

基于这一动机,这项研究聚焦于两个关键问题:

  • 模型的内部激活是否蕴含对推理步骤真伪的有效区分信息?

  • 如果存在,能否构建一个利用这些信息的机制,帮助模型在推理过程中选择更可靠的路径?

论文提出的方案正是在回答这两个问题,并尝试让推理过程在模型原有能力基础上变得更稳健、更具判断力。

方法与创新

论文提出的框架,核心思想是:虽然模型表面生成的推理步骤可能不够可靠,但其内部激活在很大程度上「知道」哪些步骤是正确的。为此,作者设计了以下创新方法:

从多层注意力头中探测「真伪敏感性」

对模型生成的推理步骤进行真伪标注(True/False),然后在模型各层的内部表示上训练简单探针(Linear Probe),测试哪些层对推理正确性最敏感。

结果表明:中间层的特定注意力头能区分「正确步骤」和「错误步骤」,准确率可达 80% 以上。这说明模型的内部确实蕴含潜在的认知信号。

构建置信度预测器(Confidence Predictor)

作者选取最敏感的几个注意力头,将其激活拼接,作为输入训练一个轻量预测器,输出对每一步推理的可信度评分。该评分不基于 Token 概率,而基于模型内部的深层表示,更能反映推理质量。

基于置信度的推理路径搜索(Confidence-Guided Search)

结合模型生成概率与可信度,设计新的推理扩展策略:

通过此评分筛选最可信的推理路径,使生成过程能够:

  • 主动避开不可靠的步骤;

  • 优先扩展有潜力的推理方向;

从而提高整个 CoT 推理链的稳定性。


实验结果

论文从两个层面系统评估了所提出方法的有效性:(A)可信度预测器本身是否可靠?(B)将预测器用于推理路径选择后,整体推理是否更准确?

下面分两部分介绍。

A. 置信度预测器的评估

作者首先评估模型内部激活是否真的携带「推理真伪」的可判别信号,以及预测器能否有效地从激活中提取这种信号。核心实验包括:

  • 真伪区分能力

通过在模型不同层、不同注意力头上训练线性探针,研究者获得了以下发现:

中间层的部分注意力头对推理真伪高度敏感;

特定激活向量可实现 80%–85% 的真伪区分准确率;

早期层和后期层的判别能力相对较弱。

这一结果表明:模型在内部表征中「隐含地知道」某一步推理是否正确。预测器正是利用这些「高敏感」注意力头,因此具有良好的理论基础。

  • 可信度预测的校准效果

论文进一步引入 ECE-Loss 进行校准,使预测的可信度分数更可解释、更稳定。实验显示置信度预测器得到的可信度分数校准性更佳,即得到的置信度分数更贴近真实的真伪概率值,作者用 ECE、Brier 和 AUC 这三个校准指标以及多种置信度量化方法来评估,如下表:


这证明预测器不仅能区分真伪,还能提供更具校准性、可用于决策的连续置信度评分,适合作为搜索策略的依据。

B. 基于预测器引导的推理性能

论文将可信度预测器应用于推理路径选择,并在多个 Benchmark 上进行验证,既包括纯文本推理任务(单模态),也包括视觉–语言混合的多模态推理任务。评估数据集覆盖数学、逻辑以及常识推理。

  • 单模态推理任务:包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean。

  • 多模态推理任务:包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar。

  • Baseline:Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search。


结果表明,方法在每种设置下均取得了优异性能。与相同设置下的少样本思维链(Few-Shot CoT)相比,该方法在大多数测试中均展现出显著提升。 例如,在单模态任务的 SVAMP 数据集上,该方法相较于少样本思维链提升了 5 个百分点(48.3 对 43.3);在多模态任务的 RealWorldQA 数据集上,实现了 10.7 个百分点的提升。

总体而言,无论是在数学与符号推理、常识推理任务中,还是在单模态与多模态任务中,该方法在大多数情况下都优于基线模型少样本思维链以及其他 Baseline。这充分表明,从模型内部状态中提取的置信度能够有效引导生成更可靠的推理链。

消融实验表明:可信度预测器对推理提升至关重要。如下图所示:


若将候选推理步骤「随机选择」而非依据可信度,本方法性能显著下降。随机策略在若干任务上甚至低于 Few-Shot CoT Baseline。

作者信息

一作:陈紫军,合肥工业大学博士生,主要研究方向为大模型概率可靠性,曾在 AAAI、COLING 等顶级会议上发表论文。

通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《科学》证实:熬夜,其实是大脑在“吃屎”!

《科学》证实:熬夜,其实是大脑在“吃屎”!

徐德文科学频道
2025-12-22 20:33:40
3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

爱看剧的阿峰
2026-02-19 04:14:11
从星链落地到全面改革,被低估的越南正在惊人“逆袭”

从星链落地到全面改革,被低估的越南正在惊人“逆袭”

凤眼论
2026-02-19 09:08:18
美国或在48小时内大规模打击伊朗!数百架次战机飞抵中东

美国或在48小时内大规模打击伊朗!数百架次战机飞抵中东

项鹏飞
2026-02-19 19:41:20
意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

大风新闻
2026-02-17 19:26:03
太尴尬了!大年初一,上海网友哭诉称大门被邻居贴两张“大字报”

太尴尬了!大年初一,上海网友哭诉称大门被邻居贴两张“大字报”

火山詩话
2026-02-19 15:05:12
不吹不捧!这4个“中产运动鞋品牌”,确实比安踏、李宁更值得买

不吹不捧!这4个“中产运动鞋品牌”,确实比安踏、李宁更值得买

白宸侃片
2026-02-19 12:01:04
美国五大体育联盟顶薪曝光!大谷翔平断层领跑,梅西薪资排倒数!

美国五大体育联盟顶薪曝光!大谷翔平断层领跑,梅西薪资排倒数!

田先生篮球
2026-02-18 22:46:26
FIBA:中国在亚洲连续失利实属罕见 面对日本和中国台北该如何调整

FIBA:中国在亚洲连续失利实属罕见 面对日本和中国台北该如何调整

狼叔评论
2026-02-19 21:34:21
出乎意料的第3金!宁忠岩1500米破纪录夺冠,奖牌榜形势雨过天晴

出乎意料的第3金!宁忠岩1500米破纪录夺冠,奖牌榜形势雨过天晴

真理是我亲戚
2026-02-20 01:50:34
中国马年第一天,特朗普在“空军一号”上紧急表态,台当局天塌了

中国马年第一天,特朗普在“空军一号”上紧急表态,台当局天塌了

头条爆料007
2026-02-18 09:00:00
妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

离离言几许
2026-02-19 16:27:03
2月19日俄乌最新:小泽公开谴责川普

2月19日俄乌最新:小泽公开谴责川普

西楼饮月
2026-02-19 19:48:41
湖北宜城烟花店爆炸,为啥死亡这么多人,最关键的问题在哪?

湖北宜城烟花店爆炸,为啥死亡这么多人,最关键的问题在哪?

靠山屯闲话
2026-02-19 09:39:48
正在逆袭!《镖人》票房连续逆跌,预测提升,吴京这一次又赌赢了

正在逆袭!《镖人》票房连续逆跌,预测提升,吴京这一次又赌赢了

得得电影
2026-02-19 19:34:29
瑞典人三百年持续对华仇恨,背后原因揭秘

瑞典人三百年持续对华仇恨,背后原因揭秘

何氽简史
2026-02-17 14:57:14
大量美军海空力量在中东地区集结

大量美军海空力量在中东地区集结

界面新闻
2026-02-19 23:00:11
身价暴跌5900万!昔日曼联锋线大将混迹美洲联赛,红魔球迷唏嘘

身价暴跌5900万!昔日曼联锋线大将混迹美洲联赛,红魔球迷唏嘘

体坛鉴春秋
2026-02-19 11:54:26
中国冬奥第三金!宁忠岩破奥运纪录夺速滑1500米冠军,太惊喜了!

中国冬奥第三金!宁忠岩破奥运纪录夺速滑1500米冠军,太惊喜了!

篮球资讯达人
2026-02-20 00:52:06
突发!波兰总理呼吁在伊朗公民尽快离开,“福特”号航母正赶往中东,俄罗斯、伊朗联合军演,国际油价上涨,欧股跌幅扩大

突发!波兰总理呼吁在伊朗公民尽快离开,“福特”号航母正赶往中东,俄罗斯、伊朗联合军演,国际油价上涨,欧股跌幅扩大

每日经济新闻
2026-02-19 18:58:28
2026-02-20 03:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2228941文章数 5497关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

教育
房产
时尚
家居
军事航空

教育要闻

春节别打乱孩子的学习节奏

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

家居要闻

本真栖居 爱暖伴流年

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版