网易首页 > 网易号 > 正文 申请入驻

AI 的思维地图:揭秘大模型的“推理图”

0
分享至


摘要

近年来,大规模推理模型在诸多高难度数学基准(如 GSM8K、MATH500、AIME 2024)上取得了最先进的性能,但其内部成功机理仍鲜有解析。本文提出并构建了“推理图”(reasoning graph)——通过对推理过程中隐藏态进行 K-means 聚类,将每一步操作映射为图中的节点,并以节点访问顺序构建有向边,从而刻画模型的推理路径。基于此,我们系统地分析了推理图的三大图论性质:循环结构(cyclicity)、图直径(diameter) 和小世界指数(small-world index)。研究发现,经过蒸馏的推理模型(例如 DeepSeek‑R1‑Distill‑Qwen‑32B)相比基础模型,不仅在每个样本中产生约 5 次循环,图直径更大,而且展现出约 6 倍的显著小世界特征。随着任务难度和模型容量提升,这些结构优势更加凸显:14B 规模模型的循环检测率达到峰值,32B 规模模型的探索直径最大,并与模型准确率呈正相关。此外,针对更优数据集进行的有监督微调也能系统性地扩展推理图直径并提升性能,为数据集设计提供了有效指导。本文工作在理论与实践层面均为推理模型的可解释性与性能提升提供了新视角。

关键词:推理图(reasoning graph),循环结构(cyclicity),图直径(diameter),小世界指数(small-world index),有监督微调(supervised fine-tuning)

来源:集智俱乐部

作者:彭晨

审校:赵思怡


论文题目:Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties 论文链接:https://arxiv.org/abs/2506.05744 发表时间:2025年6月10日

近年来,以 OpenAI‑o1、Gemini、Claude、Grok 及 DeepSeek‑R1 为代表的大规模推理模型,通过延长“思考”过程而在编程、数学、科学问题上取得突破性进展。然而,尽管蒸馏(distillation)和有监督微调等技术使更小模型也能模仿高级推理能力,其内部具体机制却始终不明。为深入剖析模型的推理行为,本文引入了“推理图”的概念:将模型在每一步推理时的隐藏态聚类为节点,再根据推理步骤的先后关系构建有向图,以此直观呈现模型在思考空间中的漫游和重访情况。

推理图的构建方法

推理图的构建分两步进行:首先,对每个推理步骤对应的 Transformer 隐藏层输出进行均值池化(mean pooling),然后借助 K-means 聚类将所有步骤映射到预设的簇中心,每个中心即为一节点。其次,按照模型生成的中间答题步骤顺序,将相邻两步对应的节点以有向边相连,得到完整的推理图。这个方法既可根据不同层深截取隐藏态,也能适配多种数学任务,充分捕捉模型推理路径的拓扑结构。


图 1. 推理图的概念,比较基本模型和大型推理模型。节点表示简单的计算状态(例如,左图所示的计算步骤),其中通向最终答案的路径构成推理图。我们分析了推理图的图论性质,包括循环结构、直径和小世界特征。研究这些结构上的区别使我们能够更好地理解最近在具有挑战性的数学任务中的表现改进。

研究使用了基础模型(Qwen2.5‑32B)与蒸馏模型(DeepSeek‑R1‑Distill‑Qwen‑32B)进行实验,对比它们在 GSM8K 上的 t-SNE 可视化,可以清晰地观察到后者推理图中频繁出现闭环(cycle)——模型会多次重访相同节点。进一步量化表明,蒸馏模型在所有测试样本中平均产生约五次循环,且循环检测率(cycle detection ratio)会随着任务难度从 GSM8K 到 MATH500 再到 AIME 2024 逐步上升,揭示出循环结构是模型反复检验和修正思路的重要表现。


图 2. 基于t-SNE嵌入的GSM8K数据集推理图可视化。上图为基础模型(Qwen2.5-32B)的图,下图为大型推理模型(DeepSeek-R1-Distill-Qwen-32B)的图。与基本模型相比,推理模型在质量上的探索范围更广,其推理图中的循环明显更多。

推理图直径与小世界结构

图直径(diameter)定义为图中任意两节点最短路径长度的最大值,代表模型在推理时探索的最远状态距离。实验结果显示,蒸馏模型推理图的直径显著大于基础模型,且随着隐藏层深度增加而持续增长,表明更深层的特征有助于模型遍历更广泛的推理空间,从而支持更复杂的数学推理策略。

小世界指数(small-world index)刻画了图的局部聚集性与全局连通性之间的平衡。经对无向化后的小世界指数分析,蒸馏模型的推理图在保持高聚集系数的同时,仍具备较短的平均路径长度,使得模型不仅能在局部快速恢复思路,也能通过少量跳转快速抵达全局关键信息。这一结构特征从网络科学角度解释了推理模型为何能兼顾连贯性与效率。


图 3. 大型推理模型(DeepSeek-R1-Distill-Qwen-32B)和基础模型(Qwen2.5-32B)的平均路径长度和聚类系数分布。推理模型具有较大的聚类系数和较长的路径长度,表明推理节点聚类密集但分离广泛。(b)由聚类系数计算的小世界指数与平均路径长度的比较。在所有层中,与基本模型相比,推理模型始终表现出更高的小世界特征。

模型规模对推理拓扑的影响

由 1.5B、7B、14B 到 32B 多个规模模型的对比揭示,循环检测率随规模增长而上升,在 14B 时达到峰值,但 32B 模型因出现少量语言混杂(language mixing)循环略有下降;循环计数和图直径则随规模持续提升,并与模型在 AIME 2024 上的准确率高度相关。这表明,更大模型容量不仅能够增加模型修正思路的机会,还能拓展推理路径的广度,进而提升综合表现。


图 4.(a)不同模型尺寸下循环检测率与AIME 2024准确率的关系。循环检测率一般随着模型大小的增加而增加,达到14B,达到100%的循环检测率。然而,准确率最高的32B模型与14B模型相比,循环检测率略低。(b)不同型号的循环次数与准确率之间的关系。较大的型号显示出增加的循环计数,32B模型达到最高的准确率,显示出最多的循环次数。(c)不同模型尺寸下推理图直径与准确率的关系。32B模型,实现最高的准确率,也显示最大的图形直径。

结论与展望

本文通过推进“推理图”的概念,将复杂的隐藏态序列转化为可视化的网络拓扑,并从循环结构、图直径与小世界指数三方面揭示了大规模推理模型的内部机理。研究不仅为“顿悟时刻”(aha moment)和过度/欠缺思考(overthinking/underthinking)等现象提供了新的解释,也为构建更有效的微调数据集指明了可量化的设计指标。未来,我们期待将推理图方法扩展到更多场景,融合动态自适应聚类与因果分析,为可解释 AI 与模型改进开辟新路径。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真的越打越有钱了?俄总理:俄罗斯经济规模已稳居全球第四!

真的越打越有钱了?俄总理:俄罗斯经济规模已稳居全球第四!

阿龙聊军事
2025-09-19 10:30:27
下单到上鱼仅6分钟,太二酸菜鱼一门店回应:不是预制菜!一年关停65家店

下单到上鱼仅6分钟,太二酸菜鱼一门店回应:不是预制菜!一年关停65家店

红星资本局
2025-09-16 22:04:18
局长去世,我照顾他的妻儿,后来他的儿子做了市委书记

局长去世,我照顾他的妻儿,后来他的儿子做了市委书记

乔生桂
2024-03-30 19:28:12
小米紧急召回30%的SU7:新国标几乎1:1复刻了“小米爆燃事故”现场

小米紧急召回30%的SU7:新国标几乎1:1复刻了“小米爆燃事故”现场

8099999街头巷尾
2025-09-19 13:56:23
不许援助俄罗斯,英制裁中国实体,不到24小时,中方直接下达通牒

不许援助俄罗斯,英制裁中国实体,不到24小时,中方直接下达通牒

南权先生
2025-09-18 14:00:09
普通家庭的真实存款有多少?网友:夫妻俩月收入3万,存款有40个

普通家庭的真实存款有多少?网友:夫妻俩月收入3万,存款有40个

解读热点事件
2025-09-20 00:05:08
阿玛尼之夜:高叶太敢穿,李沁职场范,朱珠翻车,张小斐很瘦很高

阿玛尼之夜:高叶太敢穿,李沁职场范,朱珠翻车,张小斐很瘦很高

章眽八卦
2025-09-07 09:41:22
大瓜!释永信案最新进展:他做的丑事,果然比想象中更恶劣!

大瓜!释永信案最新进展:他做的丑事,果然比想象中更恶劣!

财经要参
2025-09-19 23:42:37
刚刚宣布:不加息!

刚刚宣布:不加息!

中国基金报
2025-09-19 13:32:03
男篮目前具有世界级只有两名,准世界级有三名

男篮目前具有世界级只有两名,准世界级有三名

大眼瞄世界
2025-09-19 23:21:56
9月22日起,乌鲁木齐这一路段全封闭施工!请注意绕行!

9月22日起,乌鲁木齐这一路段全封闭施工!请注意绕行!

新疆分享
2025-09-19 20:40:56
《灼灼韶华》褚韶华那么精明,为何偏偏会栽在陈二顺手上两次?

《灼灼韶华》褚韶华那么精明,为何偏偏会栽在陈二顺手上两次?

竹英的成长计划
2025-09-19 18:56:53
奥巴马批评特朗普:把美国搞得稀烂!教训美国人:吼我干什么?有本事去骂特朗普啊?

奥巴马批评特朗普:把美国搞得稀烂!教训美国人:吼我干什么?有本事去骂特朗普啊?

V记录号
2025-09-19 23:10:40
45个方梯队展最强军容,大阅兵冲击台独谎言,民进党被全面孤立?

45个方梯队展最强军容,大阅兵冲击台独谎言,民进党被全面孤立?

boss外传
2025-09-20 00:00:04
北京一老人去世,女儿竟被遗物吓得求助政府,揭开隐藏60年的秘密

北京一老人去世,女儿竟被遗物吓得求助政府,揭开隐藏60年的秘密

牛牛叨史
2025-09-19 15:55:41
第一集就够上头,Netflix这部成人剧集太生猛了

第一集就够上头,Netflix这部成人剧集太生猛了

来看美剧
2025-09-19 19:50:12
杨兰兰是谁?10层迷雾揭开后,她可能根本就不是人

杨兰兰是谁?10层迷雾揭开后,她可能根本就不是人

吃瓜盟主
2025-09-11 14:48:46
张本宇正式上任,亮相中国新岗位?张本美和助阵,父亲终于圆梦

张本宇正式上任,亮相中国新岗位?张本美和助阵,父亲终于圆梦

体坛亦说
2025-09-06 20:16:01
赶走冯德莱恩!中欧关系将迎来新篇章,中国必须抓住这历史性机遇

赶走冯德莱恩!中欧关系将迎来新篇章,中国必须抓住这历史性机遇

科技出仕
2025-09-19 22:01:41
“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

四象八卦
2025-09-16 04:58:16
2025-09-20 02:23:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4200文章数 37278关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

健康
游戏
数码
旅游
亲子

内分泌科专家破解身高八大谣言

魔兽世界:封号潮持续,超3万账号被封禁,玩家却开始吐槽了起来

数码要闻

格力朱磊:十年免费包修是承诺,十年不用修才是实力

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

亲子要闻

每年一次性发放!育儿补贴新规出台

无障碍浏览 进入关怀版