网易首页 > 网易号 > 正文 申请入驻

可解释性方法概览与类脑潜空间推理框架展望丨周四直播·大模型可解释性读书会

0
分享至


导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

本次分享许铁老师将结合复杂系统、神经科学、计算机科学与物理学等不同领域的研究进展,概览并比较可解释性的多种方法路径。并展示部分新的研究结果,并重点探讨如何评估模型输出的可靠性。之后分享层级化推理模型(HRM)的框架与未来应用潜力。最后和圆桌嘉宾(肖达、沈旭、杨明哲、姚云志)讨论大家关注的问题。

分享简介

大语言模型(LLMs)的机制可解释性是一个典型的跨学科问题。本次分享将结合复杂系统、神经科学、计算机科学与物理学等不同领域的研究进展,概览并比较可解释性的多种方法路径。除了回顾既有工作外,还将展示部分新的研究结果,并重点探讨如何评估模型输出的可靠性。最后,分享将介绍与可解释性高度相关的潜空间推理领域,分享层级化推理模型(Hierarchical Reasoning Model, HRM)的框架与未来应用潜力。

分享大纲

一、大模型可解释性方法回顾

  • 基于回路分析的方法:解析模型内部电路与表示路径

  • 基于复杂系统的方法:从动力学与涌现角度理解模型

  • 基于神经科学的方法:借鉴脑科学实验与表征分析

  • 基于认知心理学的方法:对比人类思维模式与模型机制

  • 模型输出可靠性预测研究:从解释性走向实际可控与可验证


二、潜空间推理 HRM 模型介绍
  • HRM 计算框架与训练方法:结合层级化结构与类脑动力学

  • HRM 的可解释性分析:低维流形、层级推理与透明机制

  • 未来应用潜力:在科学发现、知识推理与跨领域泛化中的可能性


三、圆桌讨论
  • 在不同的应用场景下,企业应该投入多少研发成本来追求解释性?

  • 是否可以基于可解释性研究建立一套通用的“算子库”?例如模型情绪算子,回答可靠性算子等。

  • 大模型的可解释性与神经科学之间的互相启发还有多大的前景?

  • 可解释性是否能够帮助我们更好地利用潜空间进行推理?

  • 社区成员提问


黑心概念

Circuit(回路)

模型内部特定能力或完成特定任务的相关模块及其连接(head/neuron等)构成的子图。

Path Patching(路径修补)

通过对模型各模块进行扰动并分析对模型特定行为的影响,定位模型内部与特定任务相关的关键模块(head/neuron等)。

PCA(主成分分析)

一种降维方法。在大模型可解释性中,常用于对模型的高维特征(如神经元激活值、隐藏层输出)进行降维,将复杂的高维数据映射到低维空间,提取最具代表性的主成分。

LORA(低秩适应)

一种模型微调技术,核心是通过低秩矩阵分解来近似表示模型参数的更新量,仅训练少量低秩矩阵参数而非全部模型参数。

Phase Transition(相变)

原是物理学概念,指系统在外界条件变化时从一种状态突变到另一种状态的过程。在大模型中,指模型的行为或性能在某些参数变化到临界值时发生的突然、显著的变化。

Small-world Network(小世界网络)

一种网络结构特征,兼具 “高聚类系数”(节点的邻居间联系紧密)和 “短平均路径长度”(任意两节点间通过少量步骤即可连接)。大模型的内部模块(如神经元连接)常呈现小世界网络特性,这种结构既保证了局部模块的高效协同,又能实现全局信息的快速传递。

Hierachy (层级结构)

指模型内部模块或特征表示的层级组织方式。大模型通常具有多层级结构,底层可能编码简单特征(如文本中的字符、图像中的边缘),高层则编码更抽象、复杂的概念(如语义、物体类别)。

Recurrent (循环)

指模型中具有 “循环连接” 的结构(如循环神经网络 RNN),即输出会被反馈到输入端,使模型能处理序列数据(如文本、时间序列)并保留上下文信息。

Slow fast timescale separation(快慢时间尺度分离)

指系统中存在两种不同时间尺度的动态过程:“慢过程”(如长期记忆的更新、模型参数的缓慢调整)和 “快过程”(如短期信息的处理、实时输出的计算)。

参考文献

1. Emergent Response Planning in LLMs (ICML 2025)

揭示大语言模型(LLMs)在生成首个词元前已通过隐藏层编码全局输出的结构、内容和行为属性(如回复长度、故事角色选择、答案可信度),提出 “前瞻规划” 机制,为模型可控性和透明度提供新视角。

2.Geva, Mor, et al. "Transformer Feed-Forward Layers Are Key-Value Memories." arXiv:2012.14913, 2020

提出 Transformer 的前馈层(FFNs)本质上是键值记忆结构,键对应文本模式,值对应输出分布,底层捕捉浅层模式,高层编码语义信息,为解释模型的知识存储和推理机制提供了新框架。

3.Zou, Andy, et al. "REPRESENTATION ENGINEERING: A TOP-DOWN APPROACH TO AI TRANSPARENCY." arXiv:2310.01405, 2023

提出一种自上而下的 AI 透明度方法,通过分析模型的 “群体级表示” 而非单个神经元,实现对诚实性、无害性等复杂认知现象的监测与操控,为大模型的安全对齐提供了可操作的技术路径。

4.Cambria, Erik, et al. "SenticNet 7: A Commonsense-based Neurosymbolic AI Framework for Explainable Sentiment Analysis." Semantic Scholar, 2021

构建融合常识知识与神经符号 AI 的 SenticNet 7 框架,通过自动发现概念原语并链接常识概念,实现情感分析的可解释性,同时支持多语言和多模态场景的情感推理。

5.Topology of reasoning: understanding large reasoning models through reasoning graph properties

提出通过构建推理图分析大模型的拓扑结构(如探索密度、分支比、收敛性),发现图结构特征与推理准确性强相关,为评估和优化模型推理能力提供了量化框架。

6. "Hierarchical reasoning model." arXiv:2502.06772, 2025

受大脑层级处理机制启发,设计包含 “抽象规划” 和 “细节计算” 双循环模块的分层推理模型(HRM),仅用 2700 万参数在数独、迷宫等复杂任务上超越传统思维链模型,实现计算深度与效率的平衡。

7.Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond

该论文提出临界学习(LaC)理论框架,通过强化学习将大语言模型(LLMs)参数调整至临界状态,使模型在极少量训练数据下实现最优泛化性能。

8.从「无限深」到「一步之遥」:隐函数定理如何为神经网络「抄近道」

https://zhuanlan.zhihu.com/p/1941426523631486436

主讲人简介

许铁,之江实验室研究员,毕业于以色列理工大学复杂系统专业,研究领域为人工智能。

圆桌嘉宾简介

肖达,人工智能公司彩云科技联合创始人、首席科学家、北京邮电大学网络空间安全学院副教授。

研究方向:主要负责深度神经网络模型和算法的研发用于彩云天气、彩云小译、彩云小梦等产品。

沈旭,阿里云-飞天实验室高级算法专家。博士毕业于中国科学技术大学。曾获浙江省科技进步一等奖,在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等国际顶会上发表论文40余篇,google scholar引用1900余次。

研究方向:大模型可解释性、主权大模型。

杨明哲,北京师范大学系统科学学院硕士生,张江老师因果涌现研究小组成员。

研究方向:因果涌现、复杂系统自动建模。

姚云志,浙江大学计算机科学与技术学院在读博士生,导师为陈华钧教授与张宁豫教授。现在是加州大学洛杉矶分校的访问研究学者,与Nanyun Peng教授一起工作。

研究方向:自然语言处理的机器学习,特别关注支撑大型语言模型 (LLM) 的知识机制。研究 LLM 如何获取、存储和利用知识进行推理,以及不同架构和模式的模型之间的交互方式。目标是开发简洁而精确的模型编辑方法。

章彦博,塔夫茨大学博士后,美国亚利桑那州立大学复杂系统博士,本科毕业于中国科学技术大学凝聚态物理系,集智科学家,曾在瑞典卡罗琳斯卡医学院进行访问交流。研究方向:统计物理、复杂系统等。他的研究兴趣主要是试图理解我们这个世界的“特殊尺度”。为什么原子会存在?为什么分子会存在?为什么“事物”的概念是一个有用的概念?此外,他还致力于利用化学反应网络探索生命的起源。 在他的主要研究之外,他喜欢研究在线社交网络和古代音乐史。

参与时间:

北京时间2025年8月21日(周四)晚上19:30-21:30

扫码报名加入社群交流,并获取腾讯会议链接。

(可开发票)

https://pattern.swarma.org/study_group_issue/969?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天呐!终于知道为什么有的人完全不会内耗了 ​​​

天呐!终于知道为什么有的人完全不会内耗了 ​​​

夜深爱杂谈
2026-01-06 20:24:39
迟到的父爱也是爱!成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

迟到的父爱也是爱!成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

代军哥哥谈娱乐
2026-01-07 11:55:28
达能回应雀巢奶粉召回:未使用涉事供应商ARA原料

达能回应雀巢奶粉召回:未使用涉事供应商ARA原料

界面新闻
2026-01-08 10:12:04
皇帝让自己姑姑侍寝,姑姑开始反对后来顺从,还怂恿他杀自己丈夫

皇帝让自己姑姑侍寝,姑姑开始反对后来顺从,还怂恿他杀自己丈夫

铭记历史呀
2025-12-17 18:02:13
中国第一个6000亿超强县,产自江苏!

中国第一个6000亿超强县,产自江苏!

创客公社-江苏第一创投媒体
2026-01-07 20:57:40
抓拉登,让世界各国认识了海豹突击队;抓马杜罗,让世界各国认识了三角洲特种部队!

抓拉登,让世界各国认识了海豹突击队;抓马杜罗,让世界各国认识了三角洲特种部队!

Ck的蜜糖
2026-01-06 11:19:11
老家河南:一家五个孩子,其中四个离婚了,离婚理由都令人无法反驳

老家河南:一家五个孩子,其中四个离婚了,离婚理由都令人无法反驳

救赎之旅
2026-01-07 07:06:32
Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

新浪财经
2026-01-08 00:29:33
未来社会如同物理学的"费米能级":会用AI,才能在职场活下去

未来社会如同物理学的"费米能级":会用AI,才能在职场活下去

爆角追踪
2026-01-07 09:34:11
追梦:你可以把克努佩尔对标克莱,但我还没看过他去防对方最好的后卫

追梦:你可以把克努佩尔对标克莱,但我还没看过他去防对方最好的后卫

懂球帝
2026-01-08 08:05:13
42+35+33!33+32+30!NBA一生之敌诞生,最佳新秀要失去悬念了

42+35+33!33+32+30!NBA一生之敌诞生,最佳新秀要失去悬念了

世界体育圈
2026-01-08 10:20:39
大幅度涨价,小米正式官宣全新款 SU7!

大幅度涨价,小米正式官宣全新款 SU7!

XCiOS俱乐部
2026-01-07 11:01:51
“遇到交警不洒,遇到行人正常洒”,浙江温州一洒水车被指双标;镇政府:由外包的第三方公司管理,会批评教育,累犯将罚款

“遇到交警不洒,遇到行人正常洒”,浙江温州一洒水车被指双标;镇政府:由外包的第三方公司管理,会批评教育,累犯将罚款

扬子晚报
2026-01-07 12:28:44
美媒爆:特朗普提前放出消息

美媒爆:特朗普提前放出消息

环球时报国际
2026-01-07 00:12:46
短剧演员没法和正剧比 不在一个层次 感觉娜扎眼里嫌恶快要溢出来了

短剧演员没法和正剧比 不在一个层次 感觉娜扎眼里嫌恶快要溢出来了

东方不败然多多
2026-01-06 14:27:48
许晴一看就老了,竟然还没张凯丽显年轻!

许晴一看就老了,竟然还没张凯丽显年轻!

草莓解说体育
2026-01-07 09:12:50
婆婆当众泼我茅台全家看戏,我反手断了小叔子四十万留学费

婆婆当众泼我茅台全家看戏,我反手断了小叔子四十万留学费

温情邮局
2026-01-06 13:59:16
蓝盒子关门,中产梦醒了

蓝盒子关门,中产梦醒了

三人成虎V5
2026-01-07 16:17:41
终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

今日养生之道
2026-01-06 20:07:20
河南发生这种事,可怕的不止于此!

河南发生这种事,可怕的不止于此!

胖胖说他不胖
2026-01-08 11:00:12
2026-01-08 11:43:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5591文章数 4661关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

房产
健康
家居
亲子
教育

房产要闻

三亚新房,又全国第一了!

这些新疗法,让化疗不再那么痛苦

家居要闻

理性主义 冷调自由居所

亲子要闻

汉堡到底是不是垃圾食品呢?

教育要闻

赤裸裸的现实!孩子入职中国电信县公司一年,气到想要离职

无障碍浏览 进入关怀版