网易首页 > 网易号 > 正文 申请入驻

Neuro4AI:从神经科学视角理解大模型认知机制丨周六直播·大模型可解释性读书会

0
分享至


导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

基于Transformer的大语言模型拥有令人惊讶的上下文学习能力,能够在没有参数更新的情况下从少量示例中学习新任务。但这种能力的内在机制是什么?它是否与人类的认知过程存在相似性?本次分享首先探讨Transformer中的归纳注意力头是如何与人类情景记忆的CMR模型在机制上高度相似的,随后介绍一种神经反馈范式,系统量化大语言模型的元认知能力。

分享简介

本次分享将介绍两项受到神经科学启发的可解释性研究:首先探讨Transformer中的归纳注意力头(induction heads)如何与人类情景记忆的CMR(上下文维护与检索)模型在机制上高度相似,揭示了大模型上下文学习的回路基础;随后介绍一种神经反馈范式,系统量化大语言模型的元认知能力——即模型监控和控制自身内部神经激活的能力。这些发现不仅为理解AI系统的工作原理提供了新的神经科学视角,也为AI安全和可解释性研究带来重要启示。

分享大纲

1. 背景与动机

  • 人工智能与神经科学的交叉研究价值:Neuro4AI和AI4Neuro

  • Transformer架构的上下文学习现象

2. 第一项研究:上下文学习与人类情景记忆的联系

  • 归纳头的发现与机制

    • “匹配-复制”行为模式

    • K-composition和Q-composition机制

  • 人类情景记忆的CMR模型

    • 时间上下文的动态演化

    • 非对称邻近偏差的计算机制

  • 机制相似性

    • 归纳头注意力模式类似CMR

    • 训练过程中类人记忆偏好的涌现

  • 因果验证:消融实验结果

3. 第二项研究:大语言模型的元认知能力

  • 元认知的现象与意义

  • 神经反馈范式

    • 上下文学习框架下的元认知量化

  • 元认知能力的三个层面

    • 神经激活的监控

    • 显式控制

    • 隐式控制

  • 影响因素分析

    • 语义可解释性的作用

    • 方差解释度的影响

    • 模型规模与层深的关系

4. 研究意义与展望

  • 对AI可解释性和安全的贡献

  • 认知神经科学的新研究工具

核心概念

  • 归纳头(Induction Heads): Transformer中负责模式匹配和复制的关键注意力机制,是上下文学习的核心组件。

  • CMR模型(Contextual Maintenance and Retrieval): 人类情景记忆的计算模型,通过时间上下文的动态维护解释记忆检索过程。

  • 神经反馈(Neurofeedback): 将内部神经激活作为反馈信号的实验范式,用于研究神经系统的自我监控能力。

  • 元认知(Metacognition): 对自身认知过程的认知,包括监控、评估和控制等高阶心理功能。

  • 残差流(Residual Stream): Transformer架构中信息传递的主要通道,为理解模型内部机制提供关键视角。

参考文献

主要论文:

  1. Li Ji-An, et al. "Linking In-context Learning in Transformers to Human Episodic Memory." NeurIPS 2024.

  2. Li Ji-An, et al. "Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations." arXiv preprint (2025).

  3. Li Ji-An, Marcus K. Benna, and Marcelo G. Mattar. "Discovering Cognitive Strategies with Tiny Recurrent Neural Networks." Nature (2025).

相关背景文献:

  • Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread (2021).

  • Howard, M. W., & Kahana, M. J. "A distributed representation of temporal context." Journal of Mathematical Psychology (2002).

  • Olsson, Catherine, et al. "In-context learning and induction heads." arXiv preprint (2022).

主讲人简介

李济安,加州大学圣地亚哥分校神经科学博士研究生。主要研究方向包括计算神经科学、大语言模型的机制可解释性、以及人工智能与认知科学的交叉研究。在Nature、NeurIPS等顶级期刊和会议发表多篇论文,致力于通过神经科学视角理解人工智能系统的内在机制。

参与时间

北京时间2025年8月16日(周六)早上10:00-12:00


报名加入社群交流

(可开发票)

https://pattern.swarma.org/study_group_issue/966?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

白日追梦人
2026-01-13 18:52:05
美国妹纸飞机上偶遇梦中情人!2人小酒一喝暧昧非常,然而下一秒她却突然破防了

美国妹纸飞机上偶遇梦中情人!2人小酒一喝暧昧非常,然而下一秒她却突然破防了

英国那些事儿
2026-01-13 23:26:02
出动3路人马,日本对华反击正式开始!关键时刻,特朗普却摊牌了

出动3路人马,日本对华反击正式开始!关键时刻,特朗普却摊牌了

小兰聊历史
2026-01-15 03:30:24
血泪教训:不要跟任何人,包括父母,子女,枕边人,分享这三件事

血泪教训:不要跟任何人,包括父母,子女,枕边人,分享这三件事

诗词中国
2025-12-22 18:42:41
去年国内狂犬病发病及死亡数创五年内新高

去年国内狂犬病发病及死亡数创五年内新高

界面新闻
2026-01-14 18:23:47
帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

ETtoday星光云
2026-01-12 10:06:26
澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

史政先锋
2026-01-13 23:03:50
周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

大象新闻
2026-01-14 18:49:07
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

扶苏聊历史
2026-01-14 08:05:03
合川呆呆收入曝光,一夜暴富,几辈子都花不完

合川呆呆收入曝光,一夜暴富,几辈子都花不完

辣条小剧场
2026-01-14 04:31:12
特斯拉将停售FSD买断版,全面转向订阅制模式

特斯拉将停售FSD买断版,全面转向订阅制模式

界面新闻
2026-01-14 16:49:51
随着马内一剑封喉,萨拉赫率队出局,首支晋级非洲杯决赛的球队诞生

随着马内一剑封喉,萨拉赫率队出局,首支晋级非洲杯决赛的球队诞生

侧身凌空斩
2026-01-15 02:57:49
幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

幸无大碍!杨瀚森后脑被撞后经短暂检查重返球场继续比赛

懂球帝
2026-01-14 14:33:05
吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

健康之光
2026-01-13 10:51:03
你家鼠标自带的驱动,快和流氓软件没区别了。。。

你家鼠标自带的驱动,快和流氓软件没区别了。。。

差评XPIN
2026-01-15 00:07:38
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

碧波万览
2026-01-15 00:24:29
麦当劳“汉堡越做越小”?博主测试:尺寸没变,可能是“曼德拉效应”;官方客服也有回应

麦当劳“汉堡越做越小”?博主测试:尺寸没变,可能是“曼德拉效应”;官方客服也有回应

申消费
2026-01-14 10:20:04
连体裙:一副移动的建筑

连体裙:一副移动的建筑

疾跑的小蜗牛
2026-01-14 21:45:17
肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

全球军事记
2025-12-29 21:28:37
2026-01-15 04:32:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5606文章数 4661关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

家居
旅游
艺术
游戏
手机

家居要闻

心之所向 现代建构之美

旅游要闻

从荒地到花海:凯里用 10 年造绿,让冬日公园藏满幸福滋味!

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

重生之我在丧尸末世当检察官

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

无障碍浏览 进入关怀版