网易首页 > 网易号 > 正文 申请入驻

大模型长脑子了?研究发现LLM中层会自发模拟人脑进化

0
分享至

编辑|Panda


生物智能与人工智能的演化路径截然不同,但它们是否遵循某些共同的计算原理?

最近,来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出,大型语言模型(LLM)在学习过程中会自发演化出一种协同核心(Synergistic Core)结构,有些类似于生物的大脑。



  • 论文标题:A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
  • 论文地址:https://arxiv.org/abs/2601.06851



研究团队利用部分信息分解(Partial Information Decomposition, PID)框架,对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。

他们发现,这些模型的中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理。

协同与冗余:LLM 的内部架构

研究团队将大型语言模型视为分布式信息处理系统,其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标,研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。

实验方法与量化指标

在实验过程中,研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。

针对每一个提示词,模型会生成一段 100 个 Token 的回答,实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。

具体而言,研究人员计算了这些输出向量的 L2 范数,以此作为该单元在特定时间步的激活强度数据。

基于这些时间序列数据,研究团队应用了整合信息分解(Integrated Information Decomposition, ID)框架。

这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。

通过对所有注意力头对的协同值和冗余值进行排名并求差,研究者得到了一个关键指标:协同-冗余秩(Synergy-Redundancy Rank)。该指标能够清晰地标示出模型组件在处理信息时,究竟是倾向于进行独立的信号聚合,还是在进行跨单元的深度集成。

跨模型的空间分布规律

实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中,协同分布呈现出显著的「倒 U 型」曲线 :



  • 冗余外周(Redundant Periphery):模型的早期层(靠近输入端)和末期层(靠近输出端)表现出极低的协同秩,信息处理以冗余模式为主。在早期层,这反映了模型在进行基本的解词元化(Detokenization)和局部特征提取;而在末期层,则对应着 Token 预测和输出格式化的过程。
  • 协同核心(Synergistic Core):模型的中层则展现出极高的协同秩,形成了核心处理区。例如,在对 Gemma 3 4B 的热图分析中,中间层的注意力头之间表现出密集且强烈的协同交互,这正是模型进行高级语义集成和抽象推理的区域。

架构差异与一致性

值得注意的是,这种「协同核心」的涌现并不依赖于特定的技术实现。

在 DeepSeek V2 Lite 模型中,研究者即使是以「专家模块」而非「注意力头」作为分析单位,依然观察到了相同的空间分布特征。

这种跨架构的收敛性表明,协同处理可能是实现高级智能的一种计算必然,而非单纯的工程巧合。

这种组织模式与人脑的生理结构形成了精确的映射:人脑的感官和运动区域同样表现出高冗余性,而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。

智能的涌现:学习驱动而非架构使然

一个关键的问题在于:这种结构是 Transformer 架构自带的,还是通过学习习得的?

研究人员通过分析 Pythia 1B 模型的训练过程发现,在随机初始化的网络中,这种「倒 U 型」的协同分布并不存在。随着训练步数的增加,这种组织架构才逐渐稳定形成。



这意味着,协同核心是大模型获得能力的标志性产物。

在拓扑性质上,协同核心具有极高的「全局效率」,有利于信息的快速集成;而冗余外周则表现出更强的「模块化」,适用于专门化处理。这种特征再次与人类大脑的网络架构形成了精确的平行关系。

协同核心的功能验证

为了验证协同核心是否真的驱动了模型行为,研究团队进行了两类干预实验:消融实验和微调实验。

消融实验:研究发现,消融那些高协同性的节点,会导致模型出现灾难性的性能下降和行为背离,其影响远超随机消融或消融冗余节点。这证明协同核心是模型智能的核心驱动力。



微调实验:在强化学习微调(RL FT)场景下,仅针对协同核心进行训练,获得的性能提升显著优于针对冗余核心或随机子集的训练。有趣的是,在监督微调(SFT)中这种差异并不明显。研究者认为,这反映了 RL 促进通用化而 SFT 更多倾向于记忆的特性。



结语

这项研究为大模型的可解释性开辟了新路径。它表明,我们可以从「自上而下」的信息论视角来理解模型,而不仅仅是「自下而上」地寻找特定的电路。

对于 AI 领域,识别协同核心有助于设计更高效的压缩算法,或者通过更有针对性的参数更新来加速训练。对于神经科学,这提供了一种计算上的验证,预示着协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。

大模型虽然基于硅基芯片和反向传播算法,但在追求智能的过程中,它们似乎不约而同地走向了与生物大脑相似的组织模式。这种智能演化的趋同性,或许正是我们揭开通用智能奥秘的关键线索。

更多详情请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
白鹿,张凌赫被传复合?男方被曝只跟她谈过,热搜炸了:这俩兜兜转转,好体面....

白鹿,张凌赫被传复合?男方被曝只跟她谈过,热搜炸了:这俩兜兜转转,好体面....

阿废冷眼观察所
2026-03-27 00:13:22
第81波打击!以军司令部遭袭击,美迎来不眠之夜,特朗普求助35国

第81波打击!以军司令部遭袭击,美迎来不眠之夜,特朗普求助35国

丁丁鲤史纪
2026-03-26 20:46:22
全球最大军火商:外媒揭露美国军工巨头,全偷偷找中国“代工”

全球最大军火商:外媒揭露美国军工巨头,全偷偷找中国“代工”

甜到你心坎
2026-03-24 21:18:22
四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

北青网-北京青年报
2026-03-25 19:43:12
奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

木言观
2026-02-19 22:58:09
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
浙江省政府领导班子有调整

浙江省政府领导班子有调整

极目新闻
2026-03-26 09:59:46
头皮发麻!绍兴一住户家中发现枪支

头皮发麻!绍兴一住户家中发现枪支

绍兴E网
2026-03-26 10:13:54
河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

民间精选故事汇
2025-02-01 11:20:02
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
加速冠心病恶化的行为:生气仅排第5,排第1的,很多人每天都在做

加速冠心病恶化的行为:生气仅排第5,排第1的,很多人每天都在做

健康科普365
2026-01-24 18:50:03
AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

环球网资讯
2026-03-26 19:40:07
HBO把监狱女囚塞进5星酒店,观众追完4集后评分炸了

HBO把监狱女囚塞进5星酒店,观众追完4集后评分炸了

像素与芯片
2026-03-26 21:37:17
台退役上校呼吁:只要大陆答应2个条件,台湾随时都可以和平统一

台退役上校呼吁:只要大陆答应2个条件,台湾随时都可以和平统一

梦史
2026-03-27 01:05:45
中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

万物知识圈
2026-03-26 15:19:33
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
2026-03-27 05:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
艺术
房产
手机
公开课

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版