网易首页 > 网易号 > 正文 申请入驻

所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈

0
分享至



编辑|+0、泽南、Panda

LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。

不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。那么,我们是否能找到一个理论框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)?

为了解开这个黑盒,近日,北京大学物理学院、高能物理研究中心以及北京计算科学研究中心联合发力,跨界借用了物理学中经典的最小作用量原理(least action principle)。他们提出了一种新颖的方法,成功估计了嵌入在智能体中的 LLM 隐秘的生成方向性(directionality),揭示了 AI 生成过程背后可能存在的「物理定律」。



  1. 论文标题:Detailed balance in large language model-driven agents
  2. 论文地址:https://arxiv.org/pdf/2512.10047

简单来说,他们通过实验测量了 LLM 生成状态之间的转移概率。基于此,他们在统计上发现了 LLM 生成转移中的细致平衡 (detailed balance) 现象。

这表明:LLM 的生成可能不是通过一般性地学习规则集和策略来实现的,而是通过隐式地学习一类潜在的势函数 (potential functions),这些势函数可能超越了不同的 LLM 架构和提示词模板。

该团队表示:「据我们所知,这是首次在不依赖特定模型细节的情况下,发现 LLM 生成动力学中的宏观物理定律。」

什么意思呢?通俗来说,该团队发现 AI 的思考并不是「死记硬背」,而是像水往低处流一样遵循「物理本能」。

是的,LLM 智能体在解决问题时,其行为模式并不像很多人以为的那样仅仅是在匹配规则或随机尝试,而是隐约看到了一张无形的地形图(势函数)。在这个地形图中,错误的答案就像是高地,而正确的答案则是谷底。智能体的每一次推理和生成,实际上都是在最小作用量原理的驱动下,自然而然地向着势能更低、质量更好的状态流动。

这意味着,AI 能够解决复杂问题,是因为它在海量参数中内化出了一种全局的「直觉」,这也是科学家首次在 AI 生成过程中发现了不依赖于特定模型的宏观物理定律。

这一发现将 AI 研究从「炼丹术」提升到了可量化的「物理科学」高度。通过验证物理学中的「细致平衡」现象,该团队证实了 AI 的思维跳跃并非无迹可寻,而是像热力学平衡系统一样有着严格的数学比例。

这让我们可以用物理指标来给不同的大模型画像;比如,研究发现:

  1. Claude-4 像个急于交卷的优等生,倾向于快速收敛到某个答案(势井),但也容易固执己见;
  2. GPT-5 Nano 则像个探险家,虽然收敛慢,但更愿意在状态空间中多走走,探索未知的可能性。

这一理论框架让我们可以用科学测量的手段去预测和控制 AI 的行为,而不再仅仅依赖盲目的工程试错。看起来,也正如谷歌前些天的一篇论文展现的那样(参阅报道《谷歌发布智能体 Scaling Law:180 组实验打破传统炼金术》),AI 智能体的研究不再只是简单的工程实践,而是正在提升为建立在有效测量基础上的、可预测且可量化的科学。

下面具体来看看这个北大团队究竟发现了什么。

理论

为了严谨地表述这一问题,该团队研究的是一个核心由一个或多个 LLM 组成的智能体。

该智能体将其当前状态 f 作为输入,通过一系列确定性的步骤对状态进行组织和评估,从而生成一个相关的提示词。随后,该提示词被输入到一个或多个 LLM 中,其结构化的输出经解析后得到一个新的状态 g。该状态是研究 LLM 动力学的最小单位。

这种生成过程可以被视为状态空间 中的一个马尔可夫转移过程,其转移核为 P (g|f),保留了 LLM 生成的多样性和适应性。状态由智能体在每个时间步保留的完整信息定义,这应当包含智能体执行连续推理或类比过程所需的所有信息。在本文中,智能体仅包含 LLM 的单个生成步骤,记 (g←f)=P (g|f) 为智能体通过 LLM 生成从包含状态 f 的模板转移到包含状态 g 的输出的概率。

图 1 为示意图。



基于 LLM 的智能体的特征在于,其状态转移并非完全随机,而是表现出某种结构化的偏好。

具体而言,智能体倾向于从当前状态 f 转移到从智能体视角来看「更好」的状态 g。

为了捕捉这一现象,假设存在一个潜在的势函数 V_:→ℝ,它为每个状态分配一个标量值,以反映其「质量」。由于特定的势函数通常难以直接计算,研究者提出了一种有效估计该势函数的方法。

给定一个全局势函数 V,研究者将智能体的给定转移 (g←f) 对势函数的违背定义为 K (V (f)−V (g)),其中 K (x) 是一个凸函数,用于描述从状态 f 到状态 g 的转移在多大程度上违背了势函数 V 的排序。为了量化智能体行为与势函数之间的整体不匹配度,研究者以转移核 (g←f) 为权重,将作用量 定义为全局平均违背:



其中 Df,Dg 是状态空间上的测度。在本文中,研究者选择 K (x)=exp (-βx/2) 作为描述给定状态转移 f 到 g 违背标量函数 V 排序程度的凸函数。作用量 S 或 βV (f) 的分布形状可以代表该状态空间 C 内智能体的全局认知能力。

研究者提出,若要利用势函数量化 LLM 的行为,可以寻找一个使智能体转移与势函数之间的整体不匹配度最小化的势函数。因此,描述给定状态空间中基于 LLM 的智能体 最合适的势函数 V_ ,是那个能使作用量 S 最小化的函数。

这意味着作用量满足关于势函数 V_ 的变分原理:



该变分条件等价于 V_ 满足以下平衡条件:



这对所有 f∈C 成立,其中 K'(x)=dK/dx。

具体而言,如果对于所有转移 (g←f)>0,,均有 V (f)≥V (g) 成立,则表明智能体的状态转移是完全有序的,在此情况下,V 充当李雅普诺夫函数。

值得注意的是,如果 描述的是一个平衡系统的转移,其状态转移满足细致平衡条件,即对于所有状态对 (f,g),下式成立:



其中 π(f) 表示系统在状态 f 处的平衡分布,而 P (g|f) 表示转移核。在这种情况下,存在一个势函数 V 可以明确地将细致平衡表示为:



代入 (3) 式,可以验证该势函数 V=V_ 满足最小作用量原理。这表明对于平衡系统,如果存在细致平衡条件,则可以通过最小作用量原理估计其潜在的势函数。在一般情况下,最小作用量仅仅是在寻求势函数的最有序排列,从而最小化智能体状态转移对该排列的违背。

研究者指出,基于 LLM 的智能体在其 LLM 生成的状态空间中,往往表现得像一个平衡系统,该状态空间相较于 LLM 完整的生成序列是粗粒化的。这一现象的存在表明 LLM 生成动力学中存在一种不依赖于具体模型和任务细节的普遍宏观规律。这表明,尽管看似无关,但在不同的 LLM 生成过程之间存在潜在的联系,使我们能够通过势函数 V_ 描述 LLM 生成中的全局有序性,从而为 LLM 的内部动力学提供解释。

结论与展望

在本文中,研究者提出了一种基于最小作用量原理的框架,旨在描述和分析基于 LLM 的智能体在其 LLM 生成的状态空间中的生成动力学。

通过在多个不同模型和任务上的实验验证,研究者发现这些智能体的状态转移在很大程度上满足细致平衡条件,这表明它们的生成动力学表现出类似于平衡系统的特征。研究者进一步通过最小作用量原理估计了底层的势函数,并揭示了其在捕捉 LLM 生成动力学内在方向性方面的重要作用。

研究者对发现 LLM 生成动力学中的宏观规律进行了初步探索。

该团队也展望了未来:「未来的工作可以进一步扩展这一框架,并探索利用更多来自平衡及近平衡系统的工具,以理解和优化 LLM 的生成过程。例如,研究偏离平衡的程度可能有助于我们理解模型的过拟合水平,因为过拟合的模型可能会学习更多局部的策略集,而不是由势函数支配的全局生成模式。此外,基于势函数的优化方法也可能为提高 LLM 任务相关生成的质量和多样性提供新思路,例如根据不同的安全性和探索需求调整不同幅度的作用量。」

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒披露营救飞行员细节:独自在伊朗与敌人周旋2天,有美军在营救中受伤

美媒披露营救飞行员细节:独自在伊朗与敌人周旋2天,有美军在营救中受伤

小萝卜丝
2026-04-05 17:25:54
“粉底液”将军这回被终结了吧!继军媒狠批后,广电总局也出手了

“粉底液”将军这回被终结了吧!继军媒狠批后,广电总局也出手了

娱乐故事
2026-04-04 21:10:21
美媒:获救美国飞行员已被送往科威特

美媒:获救美国飞行员已被送往科威特

新华社
2026-04-05 15:03:02
“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

辰星杂谈
2026-04-04 13:38:22
清明徒步大军“堵死”南太行,驴友称两个多小时才走2公里,当地领队:民宿已爆满,建议错峰上山

清明徒步大军“堵死”南太行,驴友称两个多小时才走2公里,当地领队:民宿已爆满,建议错峰上山

极目新闻
2026-04-05 16:34:20
王楚钦战胜卫冕冠军,松岛辉空激战7局夺首冠

王楚钦战胜卫冕冠军,松岛辉空激战7局夺首冠

陈錈爱体育
2026-04-05 15:21:41
特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

可达鸭面面观
2026-04-05 12:53:09
美国前被俘飞行员回忆:躲在灌溉渠中仍被抓,战机被击落处境在训练中不可能复制

美国前被俘飞行员回忆:躲在灌溉渠中仍被抓,战机被击落处境在训练中不可能复制

红星新闻
2026-04-05 17:26:39
网传特朗普被紧急送往医院,警车开道视频疯传!白宫辟谣:特朗普并未住院

网传特朗普被紧急送往医院,警车开道视频疯传!白宫辟谣:特朗普并未住院

西游日记
2026-04-05 12:45:05
明日起执行!公立医院挂号不再单独收费,医保直接兜底更省心

明日起执行!公立医院挂号不再单独收费,医保直接兜底更省心

坠入二次元的海洋
2026-04-05 14:37:42
周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

观察者海风
2026-04-04 22:06:54
直落四局轻松打卡!孙颖莎4-0横扫温特,连续3年跻身世界杯决赛

直落四局轻松打卡!孙颖莎4-0横扫温特,连续3年跻身世界杯决赛

全景体育V
2026-04-05 11:40:54
“最风流”央视女主持:把两个有妇之夫玩弄于鼓掌,如今怎样了

“最风流”央视女主持:把两个有妇之夫玩弄于鼓掌,如今怎样了

枫尘余往逝
2026-04-04 17:48:37
北冰洋只添加一滴却当卖点宣传,网友:国内企业是这样的

北冰洋只添加一滴却当卖点宣传,网友:国内企业是这样的

映射生活的身影
2026-04-05 10:52:25
美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

潮鹿逐梦
2026-04-05 16:55:57
黄晓明晒娃骑行,网友:快停!违法了

黄晓明晒娃骑行,网友:快停!违法了

深圳晚报
2026-04-05 17:02:14
重庆铜梁龙继续不败!客场1:0击败浙江绿城,李镇全遭恶意犯规

重庆铜梁龙继续不败!客场1:0击败浙江绿城,李镇全遭恶意犯规

上游新闻
2026-04-05 18:27:09
为什么有人第一泡倒掉,有人却直接喝:茶叶自己早就告诉你答案

为什么有人第一泡倒掉,有人却直接喝:茶叶自己早就告诉你答案

富贵说
2026-04-04 13:59:28
争议!国少助教推搡16岁留洋新星+追着骂 球迷愤怒:严惩+开除他

争议!国少助教推搡16岁留洋新星+追着骂 球迷愤怒:严惩+开除他

我爱英超
2026-04-05 11:37:33
胖东来再回应“鸡蛋被检出角黄素”

胖东来再回应“鸡蛋被检出角黄素”

界面新闻
2026-04-05 17:34:08
2026-04-05 19:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142613关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

健康
时尚
手机
本地
公开课

干细胞抗衰4大误区,90%的人都中招

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

手机要闻

荣耀600 Pro真机曝光,系列新机有望近期发布

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版