网易首页 > 网易号 > 正文 申请入驻

深度Transformer流形中的潜在客体永久性:拓扑相变、自由能原理与重正化群流

0
分享至

深度Transformer流形中的潜在客体永久性:拓扑相变、自由能原理与重正化群流

Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds

https://arxiv.org/pdf/2601.19942


摘要


1 引言

针对 Transformer 模型的可解释性研究 [1] 通常将其潜在空间 视为连续的语义场,其中意义以近似线性方向编码 [2,3]。然而,多步推理需要实际上是离散的操作:否定、量化、变量绑定以及组合控制流。各种瓶颈假设——例如意识先验[4] 和类似胶囊的分解 [5]——表明,高层认知需要稀疏、可操作的因子,这些因子的行为类似于潜在的“对象”。

我们研究深度 Transformer 是否自发实现了这种离散化,其机制类似于重整化群 [7]:一种粗粒化流,积分掉短程关联(局部句法),并稳定长程算子(逻辑/语义关系)。与强调浅层特征叠加的论述 [6,8] 不同,我们关注出现推理的深层区,并探究潜在几何是否表现出相变的特征。

核心论点。在足够规模下,深度扮演了隐式冷却计划的角色:注意力变得更加尖锐,自由能降低,协方差谱出现尖峰与间隙,有效维度发生坍缩。我们将临界后的区域解释为“固态”相,在该相中,潜在轨迹集中于支持跨步骤对象持久性的稳定吸引盆(瞬态类对象)附近。

2 预备知识与可观测变量



3 潜在流形的信息几何3.1 由输出分布诱导的 Fisher 度量


3.2 曲率作为层次结构的代理指标

曲率量(例如 Ricci 曲率)度量测地线的汇聚/发散,并可以对表征的层次结构进行编码。虽然我们不假定常曲率,但我们提出以下内容作为一个诊断性假设

定义 3.1(双曲嵌入假设(诊断性))。当有效潜在几何在相关子空间中表现出负曲率时,深层语义层次结构会得到促进。预期浅层的行为更接近局部欧几里得几何(句法),而深层可能诱导出更负曲率的有效几何(层次化语义)。


4 注意力的热力学:一个自由能原理4.1 Softmax 作为吉布斯分布




5 随机矩阵理论基线与尖峰协方差5.1 作为零模型的 Marchenko–Pastur 分布


5.2 低秩信号与尖峰

一个典型的结构化模型是尖峰协方差形式



注 2.在高维渐近理论中,尖峰模型存在一个检测阈值(BBP 型相变):当尖峰强度超过某个临界值时,它会在谱上变得可分离,从而将“隐藏”因子转变为“可观测”的特征向量方向 [17]。我们将此作为概念类比:增加模型规模可以将语义因子推过可检测性阈值,表现为涌现的尖峰和秩坍缩。

6 重整化群视角与严格的谱坍缩条件6.1 作为横向收缩的粗粒化

我们现在给出充分的条件下,某个深度区间必然会产生有效维度坍缩,从而将 RG 思想形式化为不相关方向的收缩。


6.2 逻辑可分性蕴含低秩结构(混合模型)

为了将类似逻辑的离散性与谱联系起来,而不假设幂律关系,考虑一个简单但严谨的模型:潜在状态聚集在 k k个原型周围。




8 方法论8.1 模型套件

我们分析一套参数量跨越一个数量级的模型,以区分容量受限行为与涌现现象 [9,10]:

  • 小规模(10亿–30亿参数):Qwen-2.5-1.5B [11], Gemma-2-2B [12]。

  • 中等规模(80亿–110亿参数):Llama-3-8B [13];基于 SOLAR-10.7B 的 110 亿参数类模型 [14]。

  • 大规模(300亿+ 参数):MiroThinker-30B(面向推理)。

8.2 激活提取与协方差估计


8.3 潜在对象探测与量化



图 1 可视化了这一序参量的微观演化。热力图显示,该相变不仅仅是均值的偏移,更是概率质量的分岔:推理模型发展出一个与低完整性背景分离的独特的高完整性模式(“固态”带),而较小的模型仍然保持有效的单峰分布。




10 讨论10.1 从叠加到正交性约束

叠加可以在有限维度中编码许多特征 [8]。然而,类逻辑操作施加了可分性约束:如果一个表征必须在多步链中可靠地区分互斥的谓词,那么稳定的类区域(吸引盆)就变得有利。定理 6.3 表明,即使是一个简单的类混合模型,也会产生严格的低秩加各向同性结构,从而在不假设任何特定幂律的情况下产生谱间隙和有效秩坍缩。

10.2 瞬态类对象作为动力学对象

我们以同时兼容收缩机制和自由能锐化机制的方式来定义 TCO。


10.3 为什么c0.42可能在跨尺度下保持稳定


11 结论

我们提供了一个扩展的、数学上明确的框架,将大型语言模型中的涌现推理能力与潜在几何中的相变联系起来。我们的贡献包括:(i) 对注意力的热力学变分刻画(自由能最小化);(ii) 随机矩阵理论基线(Marchenko–Pastur 谱 bulk)以及基于尖峰的结构;(iii) 通过横向收缩实现谱坍缩的充分条件;(iv) 严格的混合模型结果,表明离散的类结构蕴含低秩的信号特征值。在此观点下,瞬态类对象是由类似重整化群的深度流所产生的稳定吸引盆,该深度流在压缩不相关方向的同时,保留了一个低维的语义骨架。


原文链接:https://arxiv.org/pdf/2601.19942

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10年选秀谁赚得多?考辛斯9千万,沃尔2.8亿,榜首5亿太夸张了

10年选秀谁赚得多?考辛斯9千万,沃尔2.8亿,榜首5亿太夸张了

大西体育
2026-04-09 18:55:45
湖南男子反映路灯不亮,竟被上门威胁:先拘留15天!官方回应来了

湖南男子反映路灯不亮,竟被上门威胁:先拘留15天!官方回应来了

刘哥谈体育
2026-04-10 03:37:39
高干子弟中,谁贪的钱最多?他要是第二,无人排第一

高干子弟中,谁贪的钱最多?他要是第二,无人排第一

柳絮忆史
2026-04-09 09:25:44
禁止电动三、四轮车在市区通行!河南一地发布通告

禁止电动三、四轮车在市区通行!河南一地发布通告

大象新闻
2026-04-09 19:05:02
海水制氢突破:真正革命不是氢便宜,而是人类开始 “开采海洋”

海水制氢突破:真正革命不是氢便宜,而是人类开始 “开采海洋”

临云史策
2026-04-08 15:10:20
意外10胜2负,只有哈登能配合!知道你们很强,但这次可能玩过了

意外10胜2负,只有哈登能配合!知道你们很强,但这次可能玩过了

老梁体育漫谈
2026-04-10 00:05:26
陈丽华长子身份曝光:北大毕业,31岁成为富华掌舵人

陈丽华长子身份曝光:北大毕业,31岁成为富华掌舵人

李橑在北漂
2026-04-09 11:48:49
你的亲戚能坏到啥地步?网友:只要你有道理,千万别怕,发疯到底

你的亲戚能坏到啥地步?网友:只要你有道理,千万别怕,发疯到底

带你感受人间冷暖
2026-04-08 00:40:03
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
都是穷,河南的穷,四川的穷,有什么差别

都是穷,河南的穷,四川的穷,有什么差别

高广银
2026-04-10 06:09:37
“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长担心毁一生

“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长担心毁一生

寻墨阁
2026-04-03 07:53:18
降价10万后,奥迪A6L的登味似乎没那么重了。。。

降价10万后,奥迪A6L的登味似乎没那么重了。。。

差评XPIN
2026-04-10 00:09:39
拒绝3连败!凌晨3点皇马追分之战:姆巴佩冲40球 贝林首发

拒绝3连败!凌晨3点皇马追分之战:姆巴佩冲40球 贝林首发

叶青足球世界
2026-04-10 08:48:46
突然官宣回归!网友直呼:我的青春回来了

突然官宣回归!网友直呼:我的青春回来了

深圳晚报
2026-04-09 23:06:06
男按摩师揭秘:大多女顾客需要的并不是按摩,更需要的是安慰

男按摩师揭秘:大多女顾客需要的并不是按摩,更需要的是安慰

千秋历史
2026-03-16 21:48:26
倒闭车企留下的百万烂尾车主,被逼成了修车大神

倒闭车企留下的百万烂尾车主,被逼成了修车大神

酷玩实验室
2026-04-07 16:58:15
直播间掉粉14万后,董宇辉躲进黄帝陵:人爬得再高,根不能飘

直播间掉粉14万后,董宇辉躲进黄帝陵:人爬得再高,根不能飘

十为先生
2026-04-08 15:53:11
美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

环球网资讯
2026-04-09 08:41:50
孙俪新剧1.5亿打水漂?邓超仅用一张嘴,全给娘娘“挣”回来了

孙俪新剧1.5亿打水漂?邓超仅用一张嘴,全给娘娘“挣”回来了

凛若秋霜
2026-04-08 17:00:09
美国副总统万斯称美方从未承诺停火协议包含黎巴嫩

美国副总统万斯称美方从未承诺停火协议包含黎巴嫩

新京报
2026-04-09 07:14:06
2026-04-10 09:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1336文章数 18关注度
往期回顾 全部

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

AI短剧"买脸"成风 肖像生意成灰色产业

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

旅游
家居
亲子
数码
公开课

旅游要闻

温州园博会来了!下高铁10分钟入园,100天免费逛

家居要闻

清新自然 复古风尚

亲子要闻

春季身高猛涨期,孩子必吃这十道菜!

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版