网易首页 > 网易号 > 正文 申请入驻

大模型知识回路的形成与SAE在可解释中的潜力丨周四直播·大模型可解释性读书会

0
分享至


导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型的知识回路是如何形成的?如何利用稀疏自编码器(SAE)这个新兴的解释性工具来“理解” LLM 的行为?如何利用它来实现可控的文本分类和文本生成?本次分享将围绕这几个核心问题展开。两位主讲人将详细介绍稀疏自编码器的工作原理、训练方法、并和大家一起讨论它的应用前景和未来挑战。

分享简介

本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点:多义性。为了解决每一维编码了多个互相正交的知识,我们进一步介绍稀疏自编码器(Sparse Auto Encoder)这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景,包括如何利用它来“理解” LLM 的行为(以 Anthropic Haiku 为例),以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术,分享会将以讨论该方向的前景与挑战结束。

分享大纲

  • 大语言模型的知识回路的形成过程

    • 语言模型知识召回的回路

    • 回路视角下语言模型是如何学习新知识

  • 稀疏自编码器简述

    • Polysemantic下可解释的挑战

    • 稀疏自编码器的原理

    • 稀疏自编码器的架构与训练

  • 稀疏自编码器的应用

    • SAE用于模型分析:大型语言模型的生物学原理

    • SAE用于文本分类:去除“捷径”特征,提升分类泛化性

    • SAE用于文本生成:增强模型安全意识,抵御越狱攻击

    • 如何更好地利用SAE来理解更复杂的模型行为(如数学推理)?

    • SAE是否能更好地实现可控文本生成?

核心概念

  • 稀疏自编码器 Sparse Auto Encoder(SAE)

  • 知识回路 Knowledge Circuits

  • 多义性 Polysemanticity

参考文献

  1. Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

  2. Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

  3. Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

  4. Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

  5. Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

  6. Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

  7. Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

  8. Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

  9. Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主讲人简介

姚云志,浙江大学计算机科学与技术学院博士生,导师为陈华钧教授与张宁豫教授,目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强,知识编辑与可解释性。

吴烜圣,佐治亚大学计算机系四年级博士生,研究方向为可用的大语言模型解释性(Usable XAI),关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇,累计引用量700+,曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。

参与时间

2025年7月17日(周四)晚上19:30-21:30


报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
偷情发生关系时,女性为何主动要男人说一些“下流话”?

偷情发生关系时,女性为何主动要男人说一些“下流话”?

文雅笔墨
2025-09-17 01:04:38
县委书记的女儿逛庙会,不小心撞了镇长的女儿,镇长说要她赔钱

县委书记的女儿逛庙会,不小心撞了镇长的女儿,镇长说要她赔钱

乔生桂
2025-09-18 19:01:41
没有捞快钱,拒绝国乒安排,退役4年,丁宁年薪曝光,级别意外

没有捞快钱,拒绝国乒安排,退役4年,丁宁年薪曝光,级别意外

体育有点水
2025-09-18 14:23:31
琼瑶自杀真相大揭秘,根本不是因为身体的原因

琼瑶自杀真相大揭秘,根本不是因为身体的原因

介知
2025-09-10 11:42:24
0-4垫底!欧冠头号大礼包出炉:7场1胜崩盘,6000万核心盼投国米

0-4垫底!欧冠头号大礼包出炉:7场1胜崩盘,6000万核心盼投国米

小火箭爱体育
2025-09-18 11:02:40
高速能跑140km/小时?网传新政引热议

高速能跑140km/小时?网传新政引热议

大象新闻
2025-09-16 12:47:03
他是原上海市委书记,坚决反对两个凡是,1983年当选人大副委员长

他是原上海市委书记,坚决反对两个凡是,1983年当选人大副委员长

秀心文雅
2025-09-17 18:46:38
腾讯、阿里、百度集体发行!

腾讯、阿里、百度集体发行!

证券时报
2025-09-18 21:12:02
痛心!陈树棋因公牺牲,年仅27岁……

痛心!陈树棋因公牺牲,年仅27岁……

鲁中晨报
2025-09-18 13:35:18
穆里尼奥:我的愿望是履行完两年合同,并且让本菲卡愿意续约

穆里尼奥:我的愿望是履行完两年合同,并且让本菲卡愿意续约

懂球帝
2025-09-19 01:15:10
入秋后,建议糖尿病患者:早饭切记“4不吃”,血糖平稳一整天

入秋后,建议糖尿病患者:早饭切记“4不吃”,血糖平稳一整天

坠入二次元的海洋
2025-09-17 11:45:33
大批星链卫星坠落!中国空间站还有3名航天员,罪魁祸首和它有关

大批星链卫星坠落!中国空间站还有3名航天员,罪魁祸首和它有关

粤语音乐喷泉
2025-09-18 12:53:55
4种茶尽量别喝,严重可致癌,很多人还经常喝

4种茶尽量别喝,严重可致癌,很多人还经常喝

DrX说
2025-09-18 14:09:35
一眼醉!洋河把“酒瓶”立在南京,近百米高!

一眼醉!洋河把“酒瓶”立在南京,近百米高!

GA环球建筑
2025-09-16 09:16:52
一个简单的蹲下,国乒队员却很费劲的需要双手撑地缓冲才能完成!

一个简单的蹲下,国乒队员却很费劲的需要双手撑地缓冲才能完成!

大昆说台球
2025-09-19 01:18:09
山本五十六在偷袭珍珠港成功后,仰天长叹:日本已经输掉了战争。

山本五十六在偷袭珍珠港成功后,仰天长叹:日本已经输掉了战争。

抽象派大师
2025-09-18 14:34:22
樊振东下周亮相德甲第四轮,此前连赢两场,球队排名攀升至第三

樊振东下周亮相德甲第四轮,此前连赢两场,球队排名攀升至第三

夕落秋山
2025-09-19 03:41:48
陈梦霸气回归!态度很明确,目标不止是冠军,孙颖莎王曼昱压力大

陈梦霸气回归!态度很明确,目标不止是冠军,孙颖莎王曼昱压力大

白面书誏
2025-09-18 11:14:11
孟婆劝告:如果身边人身上有这个味道,立马远离,他们不属于人间

孟婆劝告:如果身边人身上有这个味道,立马远离,他们不属于人间

古怪奇谈录
2025-08-30 11:46:59
网友反映湖南一学校将公共厕所改成宿舍让学生居住,屋内四个蹲便都是半敞开,校方、教育局回应

网友反映湖南一学校将公共厕所改成宿舍让学生居住,屋内四个蹲便都是半敞开,校方、教育局回应

极目新闻
2025-09-18 13:33:07
2025-09-19 05:36:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5361文章数 4651关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

手机
本地
健康
公开课
军事航空

手机要闻

荣耀Magic8再曝,mini和Ultra年后发

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

内分泌科专家破解身高八大谣言

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版