网易首页 > 网易号 > 正文 申请入驻

大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

0
分享至

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添加的语言装饰?是模型的「顿悟时刻」,还是纯粹的「烟雾弹」?

现在,实锤来了!来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学的联合研究团队,在最新论文中首次利用信息论这把「手术刀」,精准解剖了大模型内部的推理动态,给出了令人信服的答案:

当这些「思考词」出现的瞬间,模型大脑(隐空间)中关于正确答案的信息量,会突然飙升数倍!

这绝非偶然装饰,而是真正的「信息高峰」与「决策拐点」!更酷的是,基于这一发现,研究者提出了无需额外训练就能显著提升模型推理性能的简单方法,代码已开源!

  • 论文题目:Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
  • 论文链接
  • https://arxiv.org/abs/2506.02867
  • 代码链接
  • https://github.com/ChnQ/MI-Peaks

核心发现一:揭秘大模型推理轨迹中的「信息高峰」现象

研究者们追踪了像 DeepSeek-R1 系列蒸馏模型、QwQ这类擅长推理的大模型在解题时的「脑电波」(隐空间表征)。他们测量每一步的「脑电波」与最终正确答案的互信息(Mutual Information, MI),并观察这些互信息如何演绎变化。

惊人现象出现了:模型推理并非匀速「爬坡」,而是存在剧烈的「信息脉冲」!在特定步骤,互信息值会突然、显著地飙升,形成显著的「互信息峰值」(MI Peaks)现象。这些峰值点稀疏但关键,如同黑暗推理路径上突然点亮的强光路标!

这意味着什么?直觉上,这些互信息峰值点处的表征,模型大脑中那一刻的状态,蕴含了更多指向正确答案的最关键信息!

进一步地,研究者通过理论分析证明(定理 1 & 2),推理过程中积累的互信息越高,模型最终回答错误概率的上界和下界就越紧,换言之,回答正确的概率就越高!

既然互信息峰值的现象较为普遍地出现在推理模型(LRMs)中,那么非推理模型(non-reasoning LLMs)上也会表现出类似的现象吗?

为了探索这一问题,研究者选取了 DeepSeek-R1-Distill 系列模型和其对应的非推理模型进行实验。如上图橙色线所示,在非推理模型的推理过程中,互信息往往表现出更小的波动,体现出明显更弱的互信息峰值现象,且互信息的数值整体上更小。

这表明在经过推理能力强化训练后,推理模型一方面似乎整体在表征中编码了更多关于正确答案的信息,另一方面催生了互信息峰值现象的出现!

核心发现二:「思考词汇」=「信息高峰」的语言化身

那么,这些互信息峰值点处的表征,到底蕴含着怎样的语义信息?

神奇的是,当研究者把这些「信息高峰」时刻的「脑电波」翻译回人能看懂的语言(解码到词汇空间)时,发现它们最常对应的,恰恰是那些标志性的「思考词」:

  • 反思/停顿型:「Hmm」、「Wait」…
  • 逻辑/过渡型:「Therefore」、「So」…
  • 行动型:「Let」、「First」…

例如,研究者随机摘取了一些模型输出: 「Wait, let me think differently. Let’s denote...,」 「Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, ...」

研究团队将这些在互信息峰值点频繁出现、承载关键信息并在语言上推动模型思考的词汇命名为「思考词汇」(thinking tokens)。它们不是可有可无的装饰,而是信息高峰在语言层面的「显灵」,可能在模型推理路径上扮演着关键路标或决策点的角色!

为了证明这些 tokens 的关键性,研究者进行了干预实验,即在模型推理时抑制这些思考词汇的生成。

实锤验证:实验结果显示,抑制思考词汇的生成会显著影响模型在数学推理数据集(如 GSM8K、MATH、AIME24)上的性能;相比之下,随机屏蔽相同数量的其他普通词汇,对性能影响甚微。这表明这些存在于互信息峰值点处的思考词汇,确实对模型有效推理具有至关重要的作用!

启发应用:无需训练,巧用「信息高峰」提升推理性能

理解了「信息高峰」和「思考词汇」的奥秘,研究者提出了两种无需额外训练即可提升现有 LRMs 推理性能的实用方法。

应用一:表征循环(Representation Recycling - RR)

  • 启发:既然 MI 峰值点的表征蕴含丰富信息,何不让模型「多咀嚼消化」一下?

  • 方法:在模型推理过程中,当检测到生成了思考词汇时,不急于让其立刻输出,而是将其对应的表征重新输入到模型中进行额外一轮计算,让模型充分挖掘利用表征中的丰富信息。

  • 效果:在多个数学推理基准(GSM8K、MATH500、AIME24)上,RR 方法一致地提升了 LRMs 的推理性能。例如,在极具挑战性的 AIME24 上,DeepSeek-R1-Distill-LLaMA-8B 的准确率相对提升了 20%!这表明让模型更充分地利用这些高信息量的「顿悟」表征,能有效解锁其推理潜力。

应用二:基于思考词汇的测试时扩展(Thinking Token based Test-time Scaling - TTTS)

  • 启发:在推理时如果允许模型生成更多 token(增加计算预算),如何引导模型进行更有效的「深度思考」,而不是漫无目的地延伸?

  • 方法:受启发于前人工作,作者在模型完成初始推理输出后,如果还有 token 预算,则强制模型以「思考词汇」开头(如「Therefore」、「So」、「Wait」、「Hmm」等)继续生成后续内容,引导模型在额外计算资源下进行更深入的推理。

  • 效果:当 token 预算增加时,TTTS 能持续稳定地提升模型的推理性能。如图所示,在 GSM8K 和 MATH500 数据集上,在相同的 Token 预算下,TTTS 持续优于原始模型。在 AIME24 数据集上,尽管原始模型的性能在早期提升得较快,但当 token 预算达到 4096 后,模型性能就到达了瓶颈期;而 TTTS 引导下的模型,其性能随着 Token 预算的增加而持续提升,并在预算达到 6144 后超越了原始模型。

小结

这项研究首次揭示了 LRMs 推理过程中的动态机制:通过互信息动态追踪,首次清晰观测到 LRMs 推理过程中的互信息峰值(MI Peaks)现象,为理解模型「黑箱」推理提供了创新视角和实证基础。

进一步地,研究者发现这些互信息峰值处的 token 对应的是表达思考、反思等的「思考词汇」(Thinking Tokens),并通过干预实验验证了这些 token 对模型推理性能具有至关重要的影响。

最后,受启发于对上述现象的理解和分析,研究者提出了两种简单有效且无需训练的方法来提升 LRMs 的推理性能,即表征循环(Representation Recycling - RR)和基于思考词汇的测试时扩展(Thinking Token based Test-time Scaling - TTTS)。

研究者希望这篇工作可以为深入理解 LRMs 的推理机制提供新的视角,并进一步提出可行的方案来进一步推升模型的推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

火山詩话
2026-06-30 16:59:06
富保罗亲口确认:詹姆斯决定离开湖人,给出的工资却是最高的

富保罗亲口确认:詹姆斯决定离开湖人,给出的工资却是最高的

晚雾空青
2026-07-01 10:43:24
詹姆斯宣布征战第24季,非湖人,下一站在哪?

詹姆斯宣布征战第24季,非湖人,下一站在哪?

体坛观察猿
2026-07-02 01:31:34
美国大满贯爆冷:8强诞生,勒布伦兄弟出局,国乒两连胜

美国大满贯爆冷:8强诞生,勒布伦兄弟出局,国乒两连胜

章民解说体育
2026-07-01 04:39:10
人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰落

人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰落

阿凯销售场
2026-06-30 00:30:29
外交部:相关案件正在依法办理当中

外交部:相关案件正在依法办理当中

北青网-北京青年报
2026-07-01 17:30:02
61岁董事长被全票罢免

61岁董事长被全票罢免

中国经济网
2026-07-01 15:19:11
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
中国国际金融股份有限公司党委书记、董事长陈亮:金融报国践行初心使命

中国国际金融股份有限公司党委书记、董事长陈亮:金融报国践行初心使命

经济日报
2026-07-01 07:31:15
会场爆发激烈交锋,巴拿马对中方穷追不舍,中国大使火力全开怒怼

会场爆发激烈交锋,巴拿马对中方穷追不舍,中国大使火力全开怒怼

王投吃吃喝喝
2026-06-30 16:28:09
A股:全体股民做好心理准备了,明天周四7.2,A股或再次历史重演!

A股:全体股民做好心理准备了,明天周四7.2,A股或再次历史重演!

趋势清风侠
2026-07-01 19:26:13
杰伦·布朗的价值争议,恰是流量时代的最佳隐喻

杰伦·布朗的价值争议,恰是流量时代的最佳隐喻

赛场速报局
2026-07-02 01:34:41
心理学家说:“凡是用沉默惩罚他人、用冷暴力逃避问题的人,不管他多么委屈、多么有理,本质都是情绪操控的高手,消耗关系的慢性毒药。”

心理学家说:“凡是用沉默惩罚他人、用冷暴力逃避问题的人,不管他多么委屈、多么有理,本质都是情绪操控的高手,消耗关系的慢性毒药。”

心理观察局
2026-06-29 06:41:30
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
喜马拉雅一妻多夫制,夜里轮流陪,女人崩溃吐实:每一天都是折磨

喜马拉雅一妻多夫制,夜里轮流陪,女人崩溃吐实:每一天都是折磨

凉了时光人
2026-06-29 10:45:32
安切洛蒂揭秘:为何一直不用内马尔

安切洛蒂揭秘:为何一直不用内马尔

日常碎碎念啊
2026-07-01 00:26:08
黄金今晚要“渡劫”!小非农+央行大佬开大会,880保卫战打响!

黄金今晚要“渡劫”!小非农+央行大佬开大会,880保卫战打响!

奇思妙想生活家
2026-07-01 16:26:02
市民游客冒雨赶到中共一大纪念馆,就为见证这场庄严的升旗仪式

市民游客冒雨赶到中共一大纪念馆,就为见证这场庄严的升旗仪式

澎湃新闻
2026-07-01 21:37:17
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
媳妇是老师,我俩5年没孩子,体检正常,直到我去她办公室才发现

媳妇是老师,我俩5年没孩子,体检正常,直到我去她办公室才发现

黑猫故事所
2026-06-21 21:58:12
2026-07-02 03:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13409文章数 142685关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

本地
亲子
旅游
数码
公开课

本地新闻

强烈建议,全国高校都向这所大学看齐!

亲子要闻

预防尿床的方法

旅游要闻

不用奔赴远郊散心,滇中健康城全龄适配,夜游打铁花性价比拉满!

数码要闻

华硕a豆高速固态U盘上架:280-959元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版