网易首页 > 网易号 > 正文 申请入驻

大模型可解释性在工业界的应用实战丨周五直播·大模型可解释性读书会

0
分享至


导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型可解释性方法在实际应用中面临哪些挑战?这些挑战如何解决?不同的可解释性方法如何有效结合解决特定业务问题?本次分享将结合沈旭老师在工业界的实践经验,通过数学、知识召回、指令遵循、上下文学习、多语言、量化等方面的研究,详细阐述可解释性方法如何结合模型微调、模型控制、模型量化等方法在分析模型内部机理机制的同时,提升模型应用效果。

分享简介

大语言模型(LLMs)的快速发展展现出了前所未有的能力,但其不透明的内部决策过程仍是一项关键挑战。机制可解释性已成为提升大语言模型安全性、可靠性和可控性的重要前沿领域。在本次讲座中,首先带大家梳理通过逆向工程理解大语言模型内部结构,确立基础性原理和可部署的应用方案的领域前沿研究。然后重点分析大语言模型的算术计算、多语言处理和事实召回等关键能力机制,揭示了大语言模型如何将信息作为离散的 “电路”(Circuit)进行表示和处理。最后,会介绍基于上述的机制理解催生的一系列新颖应用:

  • 精准控制:在Token-、activation-、neuron- 和module-level 进行干预,以调整大语言模型的行为;

  • 精准微调:在Head-和neuron-level进行微调,以提升大语言模型的性能;

  • 精准量化:基于可解释性的量化策略,实现了 3.4-bit与 4 -bit 基准水平相当的效果。

分享大纲

可解释性研究背景

可解释性基础回顾

  • Head/MLP/Neuron/Logits/Circuit

  • Path patching/Logit Lens/Information Flow

可解释性典型应用案例

  • 数学

  • 知识召回

  • 指令遵循

  • 上下文学习

  • 模型控制

  • 模型融合

可解释性在多语言上的综合实战

  • 知识注入

  • 知识召回

  • 语言生成

Ongoing Works

  • 融合增强的多语言模型

  • 模型低比特量化

核心概念

Circuit

模型内部特定能力或完成特定任务的相关模块及其连接(head/neuron等)构成的子图。

Path Patching

通过对模型各模块进行扰动并分析对模型特定行为的影响,定位模型内部与特定任务相关的关键模块(head/neuron等)。

Neuron Description

通过分析原子在激活响应比较大的样本集合上的共性,分析原子的功能。

模型微调

通过CPT、SFT、DPO、RL等方式,对基础模型进行继续微调训练,提升模型在特定任务上的能力,比如特定领域(法律、金融等)、数学、推理、多语言等。

模型控制

通过对模型内部表征进行编辑,定向增强或者抑制模型特定行为。

模型融合

通过对多个特定专家模型(比如数学、代码、翻译等)进行参数加权融合,合成一个在各个任务上都接近专家模型能力的统一模型。

模型量化

通过将模型参数精度降低到特定低比特数(比如INT4,INT8等),提升模型推理效率,降低模型显存消耗。

参考文献

[1] Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

经典的思考Transformer基础思想的文章,文章详细阐述了如何用数学框架去推理Transformer,比如其代数表达,分解方式,以及一些需要了解的概念性内容。

[2] Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

提出path patching方法和circuit概念的经典文章,通过path patching方法在 GPT2-small 中发现了相当庞大且复杂的IOI回路。

[3] Dami Choi et al. "Scaling Automatic Neuron Description." https://transluce.org/neuron-descriptions.

原子可解释性经典工作,通过分析原子在激活响应比较大的样本集合上的共性,分析原子的功能。

[4] Wei Zhang, et al, Interpreting and Improving Large Language Models in Arithmetic Calculation. ICML (Oral), 2024.

本文基于可解释性方法分析了大模型完成数值计算的关键Head以及处理过程,并通过对这些关键head进行精准微调,提升模型数学能力的基础上,保持模型通用能力不下降。

[5] Yiqun Wang et.al. Tracing and Dissecting How LLMs Recall Factual Knowledge for Real World Questions. ACL, 2025.

本文基于可解释性方法分析了大模型完成多步知识召回推理的关键步骤及关键模块,并通过对这些关键模块进行精准微调,提升模型知识推理能力的基础上,保持模型通用能力不下降。

[6] Wei Chen, et al. From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning. ICML, 2024.

本文基于可解释性方法分析了大模型与谄媚行为相关的关键模块,并通过对这些关键模块进行精准微调,降低模型谄媚行为的基础上,保持模型其他能力不下降。

[7] Chenghao Sun, et al. Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings. ACL, 2025.

本文基于可解释性方法分析了大模型与上下文学习能力相关的关键模块,并通过对这些关键模块进行精准微调,提升模型上下文学习能力的基础上,保持模型其他能力不下降。

[8] Yuxin Xiao, et al, Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control. NeurIPS, 2024.

本文基于可解释性方法分析了大模型与安全性相关的关键模块,并通过对这些关键模块进行精准控制,提升模型在多种安全任务上的性能,并且保持模型其他能力不下降。

[9] Rui Dai, et al, Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs. ICLR, 2025.

本文分析了大模型各模块的线性性质,并通过对这些关键模块参数进行精准融合,提升多个不同任务专家模型在融合之后的性能。

[10] Wangyun Gu, et al. NeuronMerge: Merging Models via Functional Neuron Groups. ACL, 2025.

本文分析了大模型内与各个任务相关的原子,并通过对模型参数进行原子级别的精准融合,提升多个不同任务专家模型在融合之后的性能。

主讲人简介

沈旭,阿里云-飞天实验室高级算法专家。博士毕业于中国科学技术大学。曾获浙江省科技进步一等奖,在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等国际顶会上发表论文40余篇,google scholar引用1900余次。

研究方向:大模型可解释性、主权大模型。

参与时间

2025年7月11日(周五)晚上19:30-21:30


报名加入社群交流

https://pattern.swarma.org/study_group_issue/936?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不如霍伊伦?8500万水货气笑曼联!2次离谱吐饼+获6.1分 3个月0球

不如霍伊伦?8500万水货气笑曼联!2次离谱吐饼+获6.1分 3个月0球

我爱英超
2026-01-04 22:28:15
哥伦比亚加强总统佩特罗安全保护

哥伦比亚加强总统佩特罗安全保护

国际在线
2026-01-04 16:31:11
局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

荷兰豆爱健康
2026-01-03 21:51:06
向华强公开《寻秦记》成本:古天乐差点睡天桥,电影面临巨亏

向华强公开《寻秦记》成本:古天乐差点睡天桥,电影面临巨亏

光影新天地
2026-01-04 17:47:39
哥伦比亚宣布一级战备状态

哥伦比亚宣布一级战备状态

财联社
2026-01-04 19:40:35
美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

回旋镖
2026-01-04 12:38:03
《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

育儿读书乐
2026-01-03 13:24:01
就在周四!黄金白银将迎新年“第一劫”:数十亿美元抛单已在路上

就在周四!黄金白银将迎新年“第一劫”:数十亿美元抛单已在路上

财联社
2026-01-04 12:38:04
外交部发言人就美国强行控制委内瑞拉总统马杜罗夫妇答记者问

外交部发言人就美国强行控制委内瑞拉总统马杜罗夫妇答记者问

界面新闻
2026-01-04 13:56:46
当众拳打主裁头部!渝超球员被禁赛5年 球迷不满:其他人都没事?

当众拳打主裁头部!渝超球员被禁赛5年 球迷不满:其他人都没事?

风过乡
2026-01-04 20:32:02
抓获马杜罗的美军三角洲部队什么来头?主要执行突袭、抓捕、营救人质等短期、小规模高强度作战任务,组织架构、人员等信息属绝密

抓获马杜罗的美军三角洲部队什么来头?主要执行突袭、抓捕、营救人质等短期、小规模高强度作战任务,组织架构、人员等信息属绝密

扬子晚报
2026-01-04 17:45:18
双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

双星鞋业家族内斗!84岁创始人宣布断绝父子关系,曾曝出抢公章“夺权”

红星新闻
2026-01-04 19:54:28
担忧!美军3小时生擒马杜罗,中国620亿投资恐清零,能源安全告急

担忧!美军3小时生擒马杜罗,中国620亿投资恐清零,能源安全告急

社会日日鲜
2026-01-04 06:49:52
未来10年,大量丁克将陷入新型破产:有房有存款,但和你没关系了

未来10年,大量丁克将陷入新型破产:有房有存款,但和你没关系了

深度报
2026-01-02 22:42:31
一问到底丨马杜罗是怎么“得罪”特朗普的,南美真是美国“后花园”吗?

一问到底丨马杜罗是怎么“得罪”特朗普的,南美真是美国“后花园”吗?

上游新闻
2026-01-04 15:29:26
新年首个工作日,中纪委连打4“虎”,释放何种信号?

新年首个工作日,中纪委连打4“虎”,释放何种信号?

南方都市报
2026-01-04 17:30:14
王石田朴珺婚变风波升级!女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级!女方整容前旧照被扒,曾为王石跪式服务

古希腊掌管松饼的神
2026-01-04 19:44:02
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

车窗起雾q
2026-01-04 11:37:31
信息量好大!雷军直播拆YU7硬刚质疑,50岁CEO熬到午夜丢轮保车!

信息量好大!雷军直播拆YU7硬刚质疑,50岁CEO熬到午夜丢轮保车!

派大星纪录片
2026-01-04 14:14:31
2026-01-04 23:32:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5585文章数 4661关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

委内瑞拉女副总统任"代总统" 被指是"极具分量"的人物

头条要闻

委内瑞拉女副总统任"代总统" 被指是"极具分量"的人物

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

房产
艺术
本地
手机
游戏

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

手机要闻

联想moto Signature手机完整规格曝光

天美的2026年“第一战”已经开始了

无障碍浏览 进入关怀版