Neuro4AI：从神经科学视角理解大模型认知机制丨周六直播·大模型可解释性读书会|方法论

Neuro4AI：从神经科学视角理解大模型认知机制丨周六直播·大模型可解释性读书会

2025-08-14 16:39:58　来源: 集智俱乐部

北京举报

分享至

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境，尝试从不同视角梳理大语言模型可解释性的科学方法论。

基于Transformer的大语言模型拥有令人惊讶的上下文学习能力，能够在没有参数更新的情况下从少量示例中学习新任务。但这种能力的内在机制是什么？它是否与人类的认知过程存在相似性？本次分享首先探讨Transformer中的归纳注意力头是如何与人类情景记忆的CMR模型在机制上高度相似的，随后介绍一种神经反馈范式，系统量化大语言模型的元认知能力。

分享简介

本次分享将介绍两项受到神经科学启发的可解释性研究：首先探讨Transformer中的归纳注意力头（induction heads）如何与人类情景记忆的CMR（上下文维护与检索）模型在机制上高度相似，揭示了大模型上下文学习的回路基础；随后介绍一种神经反馈范式，系统量化大语言模型的元认知能力——即模型监控和控制自身内部神经激活的能力。这些发现不仅为理解AI系统的工作原理提供了新的神经科学视角，也为AI安全和可解释性研究带来重要启示。

分享大纲

1. 背景与动机

人工智能与神经科学的交叉研究价值：Neuro4AI和AI4Neuro
Transformer架构的上下文学习现象

2. 第一项研究：上下文学习与人类情景记忆的联系

归纳头的发现与机制
- “匹配-复制”行为模式
- K-composition和Q-composition机制
人类情景记忆的CMR模型
- 时间上下文的动态演化
- 非对称邻近偏差的计算机制
机制相似性
- 归纳头注意力模式类似CMR
- 训练过程中类人记忆偏好的涌现
因果验证：消融实验结果

3. 第二项研究：大语言模型的元认知能力

元认知的现象与意义
神经反馈范式
- 上下文学习框架下的元认知量化
元认知能力的三个层面
- 神经激活的监控
- 显式控制
- 隐式控制
影响因素分析
- 语义可解释性的作用
- 方差解释度的影响
- 模型规模与层深的关系

4. 研究意义与展望

对AI可解释性和安全的贡献
认知神经科学的新研究工具

核心概念

归纳头（Induction Heads）: Transformer中负责模式匹配和复制的关键注意力机制，是上下文学习的核心组件。
CMR模型（Contextual Maintenance and Retrieval）: 人类情景记忆的计算模型，通过时间上下文的动态维护解释记忆检索过程。
神经反馈（Neurofeedback）: 将内部神经激活作为反馈信号的实验范式，用于研究神经系统的自我监控能力。
元认知（Metacognition）: 对自身认知过程的认知，包括监控、评估和控制等高阶心理功能。
残差流（Residual Stream）: Transformer架构中信息传递的主要通道，为理解模型内部机制提供关键视角。

参考文献

主要论文：

Li Ji-An, et al. "Linking In-context Learning in Transformers to Human Episodic Memory." NeurIPS 2024.
Li Ji-An, et al. "Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations." arXiv preprint (2025).
Li Ji-An, Marcus K. Benna, and Marcelo G. Mattar. "Discovering Cognitive Strategies with Tiny Recurrent Neural Networks." Nature (2025).

相关背景文献：

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread (2021).
Howard, M. W., & Kahana, M. J. "A distributed representation of temporal context." Journal of Mathematical Psychology (2002).
Olsson, Catherine, et al. "In-context learning and induction heads." arXiv preprint (2022).

主讲人简介

李济安，加州大学圣地亚哥分校神经科学博士研究生。主要研究方向包括计算神经科学、大语言模型的机制可解释性、以及人工智能与认知科学的交叉研究。在Nature、NeurIPS等顶级期刊和会议发表多篇论文，致力于通过神经科学视角理解人工智能系统的内在机制。

参与时间

北京时间2025年8月16日（周六）早上10:00-12:00

报名加入社群交流

（可开发票）

https://pattern.swarma.org/study_group_issue/966?from=wechat

扫码参与，加入社群，获取系列读书会永久回看权限，与社区的一线科研工作者沟通交流，共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享8-10周左右。

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.