网易首页 > 网易号 > 正文 申请入驻

大模型上下文学习的统计物理视角丨周四直播·大模型可解释性读书会

0
分享至


导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

什么是上下文学习?大语言模型如何通过上下文学习获得更强的泛化能力和通用性?上下文学习背后的理论机制又是什么?本次分享中将结合黄海平教授团队最近的工作,详细介绍上下文学习的前因后果,从一个简单的情景出发,通过巧妙的物理模型和强大的数学工具,揭开上下文学习背后的统计物理图像。

分享简介

大语言模型展现出令人惊讶的上下文学习能力:能够仅依靠输入提示和少量示例,在无需额外训练的情况下完成未见过的复杂任务。如何为这一经验现象提供理论解释,并将其与理论物理建立联系,是一个具有挑战性的问题。在本次分享中,我们首先带领大家梳理大模型训练和部署的流程,说明为什么需要上下文学习;然后我们考虑一个简单的情景,将上下文学习任务与经典的统计物理模型建立联系,使用平均场理论求解这个模型,并且解释其背后的物理图像。我们将会揭示,随着预训练任务多样性的增加,模型的能量景观会出现一个全局最小值,从而自然地催生出上下文学习能力。

分享大纲

背景回顾

  • 机器学习的发展历程

  • 大语言模型和Transformer结构

  • 上下文学习的基本概念

相关内容

  • 相关工作介绍

  • 统计物理方法介绍

统计物理模型

  • 从上下文学习到自旋模型

  • 使用空腔方法求解模型

  • 能量景观与物理图像分析

总结与展望

  • 创新点和局限性

  • 进一步的研究方向

核心概念

上下文学习 In-Context Learning

上下文学习(ICL)是指大型语言模型能够通过输入中提供的示例和任务描述,在不更新模型参数的情况下学习执行新任务的能力。这一概念最初由Brown等人在GPT-3的研究中提出。

自旋玻璃模型 Spin Glass Model

自旋玻璃是磁性合金材料的一种亚稳定的状态,其中的磁矩分布呈现出长程无序性。物理学家提出很多数学模型来描述这种具有随机性和阻挫性的系统,后来发现这些模型及其发展出的物理方法可以应用在更广泛的复杂系统和无序网络的研究中。

空腔方法 Cavity Method

空腔方法是M. Mézard、G. Parisi等人发展出的一种数学工具,用于求解统计物理中的平均场模型,特别是自旋玻璃模型,后来发现其与其他领域的方法(比如信念传播算法)密切相关,显示出更广泛的适用性。

能量景观 Energy Landscape

在物理中,能量景观描述的是系统在一组广义坐标下的势能;在机器学习中,能量景观描述的系统在某个参数空间中的损失函数;更普遍地来看,它实际上为数学中的优化问题提供了一个直观的几何视角。

参考文献

[1] Yuhao Li, Ruoran Bai, and Haiping Huang. Spin glass model of in-context learning. arXiv:2408.02288, 2024

[2] Mezard M, Parisi G, Virasoro M A. Spin Glass Theory and Beyond[M]. World Scientific, 1986.

[3] Huang H. Statistical mechanics of neural networks[M]. Springer, 2021.

[4] Brown T, Mann B, Ryder N, et al. Language Models are Few-Shot Learners[C]. Advances in Neural Information Processing Systems: Vol. 33. 2020: 1877-1901.

[5] Von Oswald J, Niklasson E, Randazzo E, et al. Transformers Learn In-Context by Gradient Descent[C]. International Conference on Machine Learning, ICML, 2023.

[6] Lu Y M, Letey M I, Zavatone-Veth J A, et al. Asymptotic theory of in-context learning by linear attention[A]. 2024. arXiv: 2405.11751.

[7] Chen S, Sheen H, Wang T, et al. Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality[A]. 2024. arXiv: 2402.19442.

主讲人简介

李宇豪,本科期间在中山大学物理学院黄海平教授的PMI Lab(物理、机器与智能实验室)实习,研究方向为无序系统的统计物理,特别是自旋玻璃的平均场理论、神经网络的泛化原理、大模型背后的物理机制。

参与时间

2025年7月24日(周四)晚上19:30-21:30


报名加入社群交流

https://pattern.swarma.org/study_group_issue/949?from=wechat

扫码参与,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8场狂轰7球4助!巴萨弃将实现蜕变,20岁潜力还在,有望重返豪门

8场狂轰7球4助!巴萨弃将实现蜕变,20岁潜力还在,有望重返豪门

阿泰希特
2025-09-18 11:53:18
女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

今天说故事
2025-09-12 18:14:21
深圳一女子趁前台不在自助续费两年健身卡会员,店家回应:已报警

深圳一女子趁前台不在自助续费两年健身卡会员,店家回应:已报警

极目新闻
2025-09-18 19:46:12
72岁林凤娇近照老到认不出!站一起比成龙显老,除了能忍没其他优点

72岁林凤娇近照老到认不出!站一起比成龙显老,除了能忍没其他优点

瞎说娱乐
2025-09-18 14:56:12
王毅外长刚回国,马不停蹄见了位稀客,要解决十年来最严重的问题

王毅外长刚回国,马不停蹄见了位稀客,要解决十年来最严重的问题

南宫一二
2025-09-18 08:11:04
继贾国龙后,第二个叫板罗永浩的人出现,言辞犀利,句句戳他痛点

继贾国龙后,第二个叫板罗永浩的人出现,言辞犀利,句句戳他痛点

千言娱乐记
2025-09-16 19:44:56
淋浴玻璃隔断“正退出”中国家庭?看年轻人的做法,那叫一个高级

淋浴玻璃隔断“正退出”中国家庭?看年轻人的做法,那叫一个高级

装修秀
2025-09-04 10:40:03
狼来了!比亚迪超级电摩上市,续航260km,极速百公里

狼来了!比亚迪超级电摩上市,续航260km,极速百公里

电动车小辣椒
2025-09-17 07:03:30
惊呆了!曾经被人忽略的小国塞尔维亚,这次彻底震惊了整个欧洲!

惊呆了!曾经被人忽略的小国塞尔维亚,这次彻底震惊了整个欧洲!

青青子衿
2025-09-17 23:46:42
北约资助的部分美国武器已运抵乌克兰,更多武器正在运送途中

北约资助的部分美国武器已运抵乌克兰,更多武器正在运送途中

山河路口
2025-09-18 23:59:45
江苏女富豪斥资22.18亿元,溢价超270%纯现金买下这家IPO失败企业!后者承诺3年赚5.5亿元

江苏女富豪斥资22.18亿元,溢价超270%纯现金买下这家IPO失败企业!后者承诺3年赚5.5亿元

每日经济新闻
2025-09-18 01:17:02
中国男排30名!巴西出局,法国出局,东道主憾负,世锦赛惊喜太多

中国男排30名!巴西出局,法国出局,东道主憾负,世锦赛惊喜太多

跑者排球视角
2025-09-18 23:56:20
空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

品牌观察官
2025-09-18 19:54:27
SpaceX芯片合作曝光:Starlink手机直连服务或将重塑全球移动通信格局

SpaceX芯片合作曝光:Starlink手机直连服务或将重塑全球移动通信格局

三体引力波
2025-09-17 16:36:18
荷兰F-16开火,意大利台风开火,30枚导弹命中3架,北约咋打的?

荷兰F-16开火,意大利台风开火,30枚导弹命中3架,北约咋打的?

井普椿的独白
2025-09-14 23:14:40
卫健委的这组数据,耐人寻味

卫健委的这组数据,耐人寻味

小萝卜丝
2025-09-17 09:54:40
用脚写的剧本?看完这一集《异形:地球》,我已无力吐槽

用脚写的剧本?看完这一集《异形:地球》,我已无力吐槽

可乐谈情感
2025-09-18 01:44:20
离开东方卫视9年,央视主播潘涛回上海,54岁官宣新身份可喜可贺

离开东方卫视9年,央视主播潘涛回上海,54岁官宣新身份可喜可贺

纪中百大事
2025-09-17 21:26:02
老人每月7千退休金,住院不愿意自己掏钱,61岁的儿子:不能理解

老人每月7千退休金,住院不愿意自己掏钱,61岁的儿子:不能理解

烙任情感
2025-09-18 07:09:08
两性专家不敢说的秘密,女性被征服后,有以下两个特征!

两性专家不敢说的秘密,女性被征服后,有以下两个特征!

小影的娱乐
2025-09-18 16:05:49
2025-09-19 07:39:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5361文章数 4651关注度
往期回顾 全部

科技要闻

黄仁勋亲口确认:正评估英特尔代工

头条要闻

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

头条要闻

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

美英签署历史性科技协议!特朗普发声

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

时尚
教育
数码
旅游
房产

秋冬穿对红黄橙,温暖又高级

教育要闻

多地将从今秋起试行中小学“春秋假”,湖北恩施明确春季和秋季学期放假均不少于1周

数码要闻

彩屏版Meta AI眼镜发布!只支持单眼,Rokid的路子更对?

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

无障碍浏览 进入关怀版