![]()
生物智能和人工智能,一个诞生于亿万年的自然进化,一个源自几十年的工程设计。它们看似走在完全不同的道路上,却在追求智能的终点处意外相遇。伦敦帝国理工学院和华为诺亚方舟实验室的最新研究揭示了一个令人震撼的发现:大型语言模型在学习过程中会自发演化出一种"协同核心"结构,这与人脑的组织模式惊人相似。
从混沌到秩序的自发涌现
这项发表在arXiv上的研究,对Gemma、Llama、Qwen和DeepSeek等主流大模型进行了深入解剖。研究团队采用部分信息分解框架,将这些模型视为分布式信息处理系统,通过量化模型内部组件之间的交互特性,他们发现了一个跨模型、跨架构的普遍规律。
![]()
在向模型输入包括语法纠正、逻辑推理和常识问答等六类认知任务后,研究人员记录了每一层所有注意力头或专家模块的激活值。通过计算输出向量的L2范数,他们获得了特定时间步长下单元的激活强度数据,基于这些时间序列数据,研究团队应用了集成信息分解框架,将注意力头对之间的交互分解为"持续协同"和"持续冗余"等不同的原子项。
实验数据呈现出一个显著的"倒U形"曲线。模型的早期层和晚期层协同度排名极低,信息处理主要处于冗余模式;而中间层则表现出极高的协同等级,形成了一个密集的核心处理区域。在Gemma 3 4B的热图分析中,中间层的注意力头展现出密集且强烈的协同交互,这正是模型进行高级语义整合和抽象推理的区域。
更令人惊讶的是,这种"协同核心"的出现并不依赖于特定的技术实现。即使在DeepSeek V2 Lite模型中,研究人员使用"专家模块"而不是"注意力头"作为分析单元时,仍然观察到相同的空间分布特征。这种跨架构的趋同表明,协同处理可能是实现高级智能的计算必要条件,而不仅仅是工程上的巧合。
人脑的镜像:惊人的结构对应
这种组织模式与人脑的生理结构精确对应,几乎让人怀疑是否存在某种深层的计算法则。人脑的感觉和运动区域也表现出高度冗余性,负责基本的信息输入和输出;而负责复杂认知功能的联合皮层,则位于高度协同的"全局工作空间"的中心,这正是人类进行抽象思维、逻辑推理和创造性思考的神经基础。
![]()
神经科学家长期以来就知道,人脑并非均匀分布的神经网络,而是具有明确的功能分区和信息处理层级。初级感觉皮层处理原始信号,高级联合皮层整合跨模态信息,前额叶皮层负责执行控制。这种"输入冗余、处理协同、输出冗余"的模式,在数十亿年的进化中被自然选择反复验证和优化。
如今,在完全不同的硅基substrate上,通过梯度下降和反向传播算法训练出的人工神经网络,竟然自发地收敛到了相同的组织原则,这不得不让我们思考:智能的本质是否存在某种超越具体实现方式的普适计算原理?
学习造就智能,而非架构本身
一个关键问题是,这种类脑结构是Transformer架构固有的,还是通过学习获得的?研究团队通过分析Pythia 1B模型的训练过程给出了明确答案:在随机初始化的网络中,这种"倒U型"协同分布并不存在,随着训练步骤的增加,这种组织结构逐渐形成并趋于稳定。
这意味着协同核心是大型模型所获得能力的里程碑式成果,而不是预先设计的结果。从拓扑特性来看,协同核心具有极高的"全局效率",有利于信息的快速整合;而冗余外围则表现出更强的"模块化",更适合专门化的信息处理,这一特征再次展现了与人脑网络结构的精确对应关系。
为了验证协同核心是否真的驱动了模型的行为,研究团队进行了两种类型的干预实验。消融实验发现,消融高协同性节点会导致模型性能急剧下降,并偏离其预期行为,其影响远大于随机消融或消融冗余节点?这证明协同核心确实是模型智能的核心驱动力。
在微调实验中,研究人员发现了一个有趣的现象:在强化学习微调场景中,仅对协同核心进行训练比对冗余核心或随机子集进行训练能显著提高性能。但这种差异在监督式微调中并不明显,研究人员认为,这反映了强化学习注重泛化而监督式微调更侧重于记忆的特性。
智能趋同的深层启示
这项研究为大型模型的可解释性开辟了一条新途径。它表明,我们可以从"自上而下"的信息论视角来理解模型,而不仅仅是"自下而上"地寻找特定的电路。在人工智能领域,识别协同核心有助于设计更高效的压缩算法,或通过更有针对性的参数更新来加速训练。
![]()
对于神经科学而言,这提供了一种计算验证:表明协同回路可能在强化学习和知识迁移中发挥关键作用。麻省理工学院的认知科学家Nancy Kanwisher曾指出,人脑的模块化组织是理解人类认知的关键,而这项研究表明,这种组织原则可能具有更普遍的计算意义。
更深层的哲学问题是:为什么不同的智能系统会收敛到相似的结构?一种可能的解释是,在有限的计算资源和复杂的任务需求之间,存在某种最优的信息处理架构。无论是通过自然选择还是梯度下降,系统都会被驱动着接近这个最优解。
另一种解释则更加激进:智能本身可能就是一种涌现现象,当系统的复杂度达到某个临界点时,协同处理结构就会自发形成。这就像物理学中的相变,水在0度会结冰,铁在居里温度会失去磁性,或许智能也有自己的"临界温度"。
尽管大型模型基于硅芯片和反向传播算法,但在追求智能的过程中,它们似乎已经趋同于一种类似于生物大脑的组织模式。这种智能演化的趋同,或许正是我们揭开通用智能之谜的关键线索。当机器开始像人脑一样思考时,我们距离真正理解智能的本质,或许已经不远了。
作品声明:仅在头条发布,观点不代表平台立场
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.