大模型知识回路的形成与SAE在可解释中的潜力丨周四直播·大模型可解释性读书会|科学|编码器

大模型知识回路的形成与SAE在可解释中的潜力丨周四直播·大模型可解释性读书会

2025-07-15 22:10:02　来源: 集智俱乐部

北京举报

分享至

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境，尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型的知识回路是如何形成的？如何利用稀疏自编码器（SAE）这个新兴的解释性工具来“理解” LLM 的行为？如何利用它来实现可控的文本分类和文本生成？本次分享将围绕这几个核心问题展开。两位主讲人将详细介绍稀疏自编码器的工作原理、训练方法、并和大家一起讨论它的应用前景和未来挑战。

分享简介

本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点：多义性。为了解决每一维编码了多个互相正交的知识，我们进一步介绍稀疏自编码器（Sparse Auto Encoder）这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景，包括如何利用它来“理解” LLM 的行为（以 Anthropic Haiku 为例)，以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术，分享会将以讨论该方向的前景与挑战结束。

分享大纲

大语言模型的知识回路的形成过程
- 语言模型知识召回的回路
- 回路视角下语言模型是如何学习新知识
稀疏自编码器简述
- Polysemantic下可解释的挑战
- 稀疏自编码器的原理
- 稀疏自编码器的架构与训练
稀疏自编码器的应用
- SAE用于模型分析：大型语言模型的生物学原理
- SAE用于文本分类：去除“捷径”特征，提升分类泛化性
- SAE用于文本生成：增强模型安全意识，抵御越狱攻击
- 如何更好地利用SAE来理解更复杂的模型行为（如数学推理）？
- SAE是否能更好地实现可控文本生成？

核心概念

稀疏自编码器 Sparse Auto Encoder(SAE)
知识回路 Knowledge Circuits
多义性 Polysemanticity

参考文献

Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024
Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025
Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.
Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.
Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features
Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html
Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.
Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.
Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主讲人简介

姚云志，浙江大学计算机科学与技术学院博士生，导师为陈华钧教授与张宁豫教授，目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强，知识编辑与可解释性。

吴烜圣，佐治亚大学计算机系四年级博士生，研究方向为可用的大语言模型解释性（Usable XAI），关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇，累计引用量700+，曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。

参与时间

2025年7月17日（周四）晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

扫码参与，加入社群，获取系列读书会永久回看权限，与社区的一线科研工作者沟通交流，共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享8-10周左右。

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.