网易首页 > 网易号 > 正文 申请入驻

大模型知识回路的形成与SAE在可解释中的潜力丨周六直播·大模型可解释性读书会

0
分享至

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型的知识回路是如何形成的?如何利用稀疏自编码器(SAE)这个新兴的解释性工具来“理解” LLM 的行为?如何利用它来实现可控的文本分类和文本生成?本次分享将围绕这几个核心问题展开。两位主讲人将详细介绍稀疏自编码器的工作原理、训练方法、并和大家一起讨论它的应用前景和未来挑战。

分享简介

本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点:多义性。为了解决每一维编码了多个互相正交的知识,我们进一步介绍稀疏自编码器(Sparse Auto Encoder)这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景,包括如何利用它来“理解” LLM 的行为(以 Anthropic Haiku 为例),以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术,分享会将以讨论该方向的前景与挑战结束。

分享大纲

  • 大语言模型的知识回路的形成过程

    • 语言模型知识召回的回路

    • 回路视角下语言模型是如何学习新知识

  • 稀疏自编码器简述

    • Polysemantic下可解释的挑战

    • 稀疏自编码器的原理

    • 稀疏自编码器的架构与训练

  • 稀疏自编码器的应用

    • SAE用于模型分析:大型语言模型的生物学原理

    • SAE用于文本分类:去除“捷径”特征,提升分类泛化性

    • SAE用于文本生成:增强模型安全意识,抵御越狱攻击

    • 如何更好地利用SAE来理解更复杂的模型行为(如数学推理)?

    • SAE是否能更好地实现可控文本生成?

核心概念

  • 稀疏自编码器 Sparse Auto Encoder(SAE)

  • 知识回路 Knowledge Circuits

  • 多义性 Polysemanticity

参考文献

  1. Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

  2. Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

  3. Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

  4. Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

  5. Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

  6. Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

  7. Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

  8. Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

  9. Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主讲人简介

姚云志,浙江大学计算机科学与技术学院博士生,导师为陈华钧教授与张宁豫教授,目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强,知识编辑与可解释性。

吴烜圣,佐治亚大学计算机系四年级博士生,研究方向为可用的大语言模型解释性(Usable XAI),关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇,累计引用量700+,曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。

参与时间

2025年7月19日(周六)上午10:00-12:00

报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马首发名单海外版以赫伊森为海报背景,国内版则没有

皇马首发名单海外版以赫伊森为海报背景,国内版则没有

懂球帝
2026-05-04 02:51:16
压力来了!客战埃弗顿不容有失,曼城不仅要赢,还必须刷净胜球

压力来了!客战埃弗顿不容有失,曼城不仅要赢,还必须刷净胜球

涛哥侃球
2026-05-04 12:58:51
姆巴佩再次证明他只属于自己,不属于任何一家俱乐部

姆巴佩再次证明他只属于自己,不属于任何一家俱乐部

刘哥谈体育
2026-05-04 10:32:08
公公当面骂儿媳破鞋,以为她不敢回嘴,谁料她一句话让大家愣住了

公公当面骂儿媳破鞋,以为她不敢回嘴,谁料她一句话让大家愣住了

麦子情感故事
2026-05-03 17:54:12
5月5日立夏,牢记“吃4宝,不往医院跑”,4样食材做法全攻略

5月5日立夏,牢记“吃4宝,不往医院跑”,4样食材做法全攻略

阿莱美食汇
2026-05-04 10:46:10
拉丁舞火了之后,最美的五位美女裁判出炉!

拉丁舞火了之后,最美的五位美女裁判出炉!

金牌娱乐
2026-05-04 11:43:37
高市访越第二天!给胡志明送花圈,中国看清:日本最终打算是啥

高市访越第二天!给胡志明送花圈,中国看清:日本最终打算是啥

书写传奇
2026-05-04 12:51:52
全球十大反美国家,3个倒下2个投降,剩下五个还能撑多久?

全球十大反美国家,3个倒下2个投降,剩下五个还能撑多久?

真猫爷的渔场
2026-05-03 21:16:08
俄乌战场悄然转折:俄罗斯4月净损失67平方公里土地!

俄乌战场悄然转折:俄罗斯4月净损失67平方公里土地!

项鹏飞
2026-05-02 15:29:58
盖伊并没有像卫冕冠军加布里回国治疗 而是选择在中国

盖伊并没有像卫冕冠军加布里回国治疗 而是选择在中国

80后体育大蜀黍
2026-05-04 12:19:34
永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

万象硬核本尊
2026-04-23 19:24:17
11000多公里途径很多国家,赖清德怎么“蹿”回来?

11000多公里途径很多国家,赖清德怎么“蹿”回来?

雪中风车
2026-05-03 17:03:19
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
比明星还火的“擦边NPC”,被叫停?

比明星还火的“擦边NPC”,被叫停?

印客美学
2026-05-03 14:00:30
罕见!3600万+1800万+1000万!三张大乐透一等奖实票集体曝光

罕见!3600万+1800万+1000万!三张大乐透一等奖实票集体曝光

好笑娱乐君每一天
2026-05-02 22:19:44
我中奖六千万瞒着丈夫谎称被开除,他说养我后取消全家旅游

我中奖六千万瞒着丈夫谎称被开除,他说养我后取消全家旅游

晓艾故事汇
2026-05-02 09:27:32
55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

惟来
2026-05-04 10:22:19
19℃!广州降温又降雨

19℃!广州降温又降雨

鲁中晨报
2026-05-04 07:49:20
颜面尽失!日本高层抵华傻眼,中方没有要员接见,高市慌忙搬救兵

颜面尽失!日本高层抵华傻眼,中方没有要员接见,高市慌忙搬救兵

潋滟晴方DAY
2026-05-03 19:34:28
傅作义拉着一位妇女代表敬酒,毛主席笑问:这位小同志是男是女啊

傅作义拉着一位妇女代表敬酒,毛主席笑问:这位小同志是男是女啊

飞哥谈史
2026-05-04 13:00:17
2026-05-04 14:00:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5797文章数 4672关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

媒体:见东南亚请求中国卖石油 日本罕见向俄罗斯购买

头条要闻

媒体:见东南亚请求中国卖石油 日本罕见向俄罗斯购买

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

严浩翔新歌,父母离婚17年矛盾升级

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
时尚
数码
房产
家居

教育要闻

因为3句话,这位青年教师快速走出新手期

快看!!这个女演员近日暴瘦!!哦,知道了……

数码要闻

Steam 2026年4月软硬件调查报告发布:RTX 5050显卡首次单独列出

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

无障碍浏览 进入关怀版