网易首页 > 网易号 > 正文 申请入驻

所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈

0
分享至



编辑|+0、泽南、Panda

LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。

不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。那么,我们是否能找到一个理论框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)?

为了解开这个黑盒,近日,北京大学物理学院、高能物理研究中心以及北京计算科学研究中心联合发力,跨界借用了物理学中经典的最小作用量原理(least action principle)。他们提出了一种新颖的方法,成功估计了嵌入在智能体中的 LLM 隐秘的生成方向性(directionality),揭示了 AI 生成过程背后可能存在的「物理定律」。



  1. 论文标题:Detailed balance in large language model-driven agents
  2. 论文地址:https://arxiv.org/pdf/2512.10047

简单来说,他们通过实验测量了 LLM 生成状态之间的转移概率。基于此,他们在统计上发现了 LLM 生成转移中的细致平衡 (detailed balance) 现象。

这表明:LLM 的生成可能不是通过一般性地学习规则集和策略来实现的,而是通过隐式地学习一类潜在的势函数 (potential functions),这些势函数可能超越了不同的 LLM 架构和提示词模板。

该团队表示:「据我们所知,这是首次在不依赖特定模型细节的情况下,发现 LLM 生成动力学中的宏观物理定律。」

什么意思呢?通俗来说,该团队发现 AI 的思考并不是「死记硬背」,而是像水往低处流一样遵循「物理本能」。

是的,LLM 智能体在解决问题时,其行为模式并不像很多人以为的那样仅仅是在匹配规则或随机尝试,而是隐约看到了一张无形的地形图(势函数)。在这个地形图中,错误的答案就像是高地,而正确的答案则是谷底。智能体的每一次推理和生成,实际上都是在最小作用量原理的驱动下,自然而然地向着势能更低、质量更好的状态流动。

这意味着,AI 能够解决复杂问题,是因为它在海量参数中内化出了一种全局的「直觉」,这也是科学家首次在 AI 生成过程中发现了不依赖于特定模型的宏观物理定律。

这一发现将 AI 研究从「炼丹术」提升到了可量化的「物理科学」高度。通过验证物理学中的「细致平衡」现象,该团队证实了 AI 的思维跳跃并非无迹可寻,而是像热力学平衡系统一样有着严格的数学比例。

这让我们可以用物理指标来给不同的大模型画像;比如,研究发现:

  1. Claude-4 像个急于交卷的优等生,倾向于快速收敛到某个答案(势井),但也容易固执己见;
  2. GPT-5 Nano 则像个探险家,虽然收敛慢,但更愿意在状态空间中多走走,探索未知的可能性。

这一理论框架让我们可以用科学测量的手段去预测和控制 AI 的行为,而不再仅仅依赖盲目的工程试错。看起来,也正如谷歌前些天的一篇论文展现的那样(参阅报道《谷歌发布智能体 Scaling Law:180 组实验打破传统炼金术》),AI 智能体的研究不再只是简单的工程实践,而是正在提升为建立在有效测量基础上的、可预测且可量化的科学。

下面具体来看看这个北大团队究竟发现了什么。

理论

为了严谨地表述这一问题,该团队研究的是一个核心由一个或多个 LLM 组成的智能体。

该智能体将其当前状态 f 作为输入,通过一系列确定性的步骤对状态进行组织和评估,从而生成一个相关的提示词。随后,该提示词被输入到一个或多个 LLM 中,其结构化的输出经解析后得到一个新的状态 g。该状态是研究 LLM 动力学的最小单位。

这种生成过程可以被视为状态空间 中的一个马尔可夫转移过程,其转移核为 P (g|f),保留了 LLM 生成的多样性和适应性。状态由智能体在每个时间步保留的完整信息定义,这应当包含智能体执行连续推理或类比过程所需的所有信息。在本文中,智能体仅包含 LLM 的单个生成步骤,记 (g←f)=P (g|f) 为智能体通过 LLM 生成从包含状态 f 的模板转移到包含状态 g 的输出的概率。

图 1 为示意图。



基于 LLM 的智能体的特征在于,其状态转移并非完全随机,而是表现出某种结构化的偏好。

具体而言,智能体倾向于从当前状态 f 转移到从智能体视角来看「更好」的状态 g。

为了捕捉这一现象,假设存在一个潜在的势函数 V_:→ℝ,它为每个状态分配一个标量值,以反映其「质量」。由于特定的势函数通常难以直接计算,研究者提出了一种有效估计该势函数的方法。

给定一个全局势函数 V,研究者将智能体的给定转移 (g←f) 对势函数的违背定义为 K (V (f)−V (g)),其中 K (x) 是一个凸函数,用于描述从状态 f 到状态 g 的转移在多大程度上违背了势函数 V 的排序。为了量化智能体行为与势函数之间的整体不匹配度,研究者以转移核 (g←f) 为权重,将作用量 定义为全局平均违背:



其中 Df,Dg 是状态空间上的测度。在本文中,研究者选择 K (x)=exp (-βx/2) 作为描述给定状态转移 f 到 g 违背标量函数 V 排序程度的凸函数。作用量 S 或 βV (f) 的分布形状可以代表该状态空间 C 内智能体的全局认知能力。

研究者提出,若要利用势函数量化 LLM 的行为,可以寻找一个使智能体转移与势函数之间的整体不匹配度最小化的势函数。因此,描述给定状态空间中基于 LLM 的智能体 最合适的势函数 V_ ,是那个能使作用量 S 最小化的函数。

这意味着作用量满足关于势函数 V_ 的变分原理:



该变分条件等价于 V_ 满足以下平衡条件:



这对所有 f∈C 成立,其中 K'(x)=dK/dx。

具体而言,如果对于所有转移 (g←f)>0,,均有 V (f)≥V (g) 成立,则表明智能体的状态转移是完全有序的,在此情况下,V 充当李雅普诺夫函数。

值得注意的是,如果 描述的是一个平衡系统的转移,其状态转移满足细致平衡条件,即对于所有状态对 (f,g),下式成立:



其中 π(f) 表示系统在状态 f 处的平衡分布,而 P (g|f) 表示转移核。在这种情况下,存在一个势函数 V 可以明确地将细致平衡表示为:



代入 (3) 式,可以验证该势函数 V=V_ 满足最小作用量原理。这表明对于平衡系统,如果存在细致平衡条件,则可以通过最小作用量原理估计其潜在的势函数。在一般情况下,最小作用量仅仅是在寻求势函数的最有序排列,从而最小化智能体状态转移对该排列的违背。

研究者指出,基于 LLM 的智能体在其 LLM 生成的状态空间中,往往表现得像一个平衡系统,该状态空间相较于 LLM 完整的生成序列是粗粒化的。这一现象的存在表明 LLM 生成动力学中存在一种不依赖于具体模型和任务细节的普遍宏观规律。这表明,尽管看似无关,但在不同的 LLM 生成过程之间存在潜在的联系,使我们能够通过势函数 V_ 描述 LLM 生成中的全局有序性,从而为 LLM 的内部动力学提供解释。

结论与展望

在本文中,研究者提出了一种基于最小作用量原理的框架,旨在描述和分析基于 LLM 的智能体在其 LLM 生成的状态空间中的生成动力学。

通过在多个不同模型和任务上的实验验证,研究者发现这些智能体的状态转移在很大程度上满足细致平衡条件,这表明它们的生成动力学表现出类似于平衡系统的特征。研究者进一步通过最小作用量原理估计了底层的势函数,并揭示了其在捕捉 LLM 生成动力学内在方向性方面的重要作用。

研究者对发现 LLM 生成动力学中的宏观规律进行了初步探索。

该团队也展望了未来:「未来的工作可以进一步扩展这一框架,并探索利用更多来自平衡及近平衡系统的工具,以理解和优化 LLM 的生成过程。例如,研究偏离平衡的程度可能有助于我们理解模型的过拟合水平,因为过拟合的模型可能会学习更多局部的策略集,而不是由势函数支配的全局生成模式。此外,基于势函数的优化方法也可能为提高 LLM 任务相关生成的质量和多样性提供新思路,例如根据不同的安全性和探索需求调整不同幅度的作用量。」

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10万一台?中产的豪车情怀不香了

10万一台?中产的豪车情怀不香了

凤凰网财经
2026-02-09 21:03:47
2月9日俄乌最新:9路反攻

2月9日俄乌最新:9路反攻

西楼饮月
2026-02-09 20:04:25
台湾GDP狂飙,超日韩居亚洲第三!

台湾GDP狂飙,超日韩居亚洲第三!

云中浮生
2026-02-02 09:09:04
曝S妈向具俊晔宣战,争夺大S的10亿遗产,小S发飙,S妈二度回应!

曝S妈向具俊晔宣战,争夺大S的10亿遗产,小S发飙,S妈二度回应!

古希腊掌管月桂的神
2026-02-10 10:34:41
24岁摆摊,34岁25亿,44岁自杀:钱命有定数

24岁摆摊,34岁25亿,44岁自杀:钱命有定数

随梦而飞起
2026-02-09 20:23:09
王福正被查,山东省纪委监委最新通报

王福正被查,山东省纪委监委最新通报

齐鲁壹点
2026-02-10 17:16:11
甘肃药业投资集团有限公司原董事长魏阳接受审查调查

甘肃药业投资集团有限公司原董事长魏阳接受审查调查

界面新闻
2026-02-10 15:04:37
今晚!CCTV5不转,2平台直播中超上海申花出战亚冠,大名单已公布

今晚!CCTV5不转,2平台直播中超上海申花出战亚冠,大名单已公布

晚池
2026-02-10 15:39:26
住久了才明白:装修的尽头是“柜子”,不是胡说,是过来人的经验

住久了才明白:装修的尽头是“柜子”,不是胡说,是过来人的经验

装修秀
2026-02-08 10:45:03
65岁演员黄子华称“到死都不用老年卡”,怕遇到吴镇宇事件

65岁演员黄子华称“到死都不用老年卡”,怕遇到吴镇宇事件

大象新闻
2026-02-10 16:05:21
杨瀚森NBA得分追平河升镇并列亚洲第十一,距离第十还差86分

杨瀚森NBA得分追平河升镇并列亚洲第十一,距离第十还差86分

姜大叔侃球
2026-02-10 14:26:50
斗不过特朗普!古特雷斯官宣下台,临走前怒点中美:别想共管世界

斗不过特朗普!古特雷斯官宣下台,临走前怒点中美:别想共管世界

来科点谱
2026-02-09 07:14:29
再见,阿森纳!7000万攻击手转投AC米兰!1.1亿“打包”米兰双星

再见,阿森纳!7000万攻击手转投AC米兰!1.1亿“打包”米兰双星

头狼追球
2026-02-10 14:02:11
不装了!森林北回应参加相亲节目:给我的条件太好了,为啥不去呢

不装了!森林北回应参加相亲节目:给我的条件太好了,为啥不去呢

小娱乐悠悠
2026-02-10 09:50:59
乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

碳基生物关怀组织
2026-02-05 23:11:54
谷爱凌为美国运动员发声:特朗普骂人抢冬奥会风头 深感难过遗憾

谷爱凌为美国运动员发声:特朗普骂人抢冬奥会风头 深感难过遗憾

念洲
2026-02-10 11:06:32
下一个张子宇?14岁少女轻松扣篮 从排球转型身高已超2米2

下一个张子宇?14岁少女轻松扣篮 从排球转型身高已超2米2

大嘴爵爷侃球
2026-02-10 10:29:37
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
比亚迪开年销量遇冷!国内暴跌超五成,这三大硬伤才是真病根

比亚迪开年销量遇冷!国内暴跌超五成,这三大硬伤才是真病根

老特有话说
2026-02-08 23:27:54
萝莉岛最新照片:办公桌下趴着白色“三点式”的女郎,脚底板很脏

萝莉岛最新照片:办公桌下趴着白色“三点式”的女郎,脚底板很脏

魔都姐姐杂谈
2026-02-09 09:33:15
2026-02-10 19:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12283文章数 142565关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

高铁座椅间隙钻出蜥蜴女子被吓称心跳停了 12306回应

头条要闻

高铁座椅间隙钻出蜥蜴女子被吓称心跳停了 12306回应

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

全红婵官宣喜讯,杂志首秀太惊艳

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

本地
手机
数码
游戏
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

iOS 26.4测试版两周后推出 搭载增强版Siri

数码要闻

新品:ROG飞龙4水冷散热器抢先看 无线快接,全新升级

LPL骑士之路:LNG三局横扫TT!TT止步,LNG晋级下一轮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版