网易首页 > 网易号 > 正文 申请入驻

大模型的第一性原理:(一)统计物理篇

0
分享至



机器之心发布

作者:白铂 博士

白铂 博士,华为 2012 实验室理论研究部主任 信息论首席科学家

2022 年底,ChatGPT 横空出世,其能力震惊了整个世界。2024 年底,DeepSeek 以极低的训练成本和极高的性能再次震惊了世界。短短几年间,大模型疯狂迭代,能力不断提升,仅在美国,AI 领域的投资规模便超过了许多国家全年的 GDP!2025 年底,Google 强势推出 Gemini 3,模型能力突飞猛进,TPU 训练范式也对英伟达的生态发起了颠覆式挑战。

业界普遍认为 Gemini 3 是迈向通用人工智能(Artificial General Intelligence,AGI) 和超级人工智能(ASI,Artificial Super Intelligence,ASI)的关键突破,是人类和机器合作的惊人之作。然而,正如 Ilya Sutskever 于 11 月 26 日的访谈中指出:大模型 Scaling Law 和摩尔定律一样,迟早会因为物理限制而失效。因此,如何打开大模型训练的炼丹炉,看清黑盒子背后的基本原理,回答大模型是否已逼近其能力极限就成为迫在眉睫的问题了。但是,前人对大模型的理论研究一直停留在单一维度,使得人们只能看到大模型背后原理的冰山一角,对黑盒子的理解也失之片面。

11 月 3 日,我们在 arXiv 上挂出了一篇论文 Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs [1]。该研究将统计物理、信号处理和信息论三者有机结合,系统地总结了对大模型背后数学原理的思考和理解,期望给全面揭示大模型的第一性原理带来曙光。过去一段时间,我们在以下的学术会议上分别报告了这方面的工作:

  • 11 月 2 日:中国电子学会第 32 届信息论学术年会
  • 11 月 15 日:中国工业与应用数学学会第 3 届信息通信数学及应用大会
  • 11 月 17 日:The 2nd Conference-School on Tensor Methods in Mathematics and Artificial Intelligence Computing
  • 11 月 29 日:福州大学图论与组合研讨会

会上和专家、学者们有很多互动,也收到了不少有价值的反馈。同时也将论文发给了一些海内外的专家、学者们,也收到了不少意见和建议。但是,原论文涉及的领域很多、概念体系复杂,加之写法上很学术,因而比较晦涩难懂。

为了便于理解,这里尝试用通俗易懂的语言写一个文章系列来解读这篇论文,其中一些内容也是原论文没有包含的。预计至少包括以下三篇文章,每一篇围绕一个专题展开:

大模型的第一性原理:(一)统计物理篇,主要内容和结论包括:

  • Attention 模块和 Transformer 架构都可以用统计物理中的能量模型来描述,因而推理是输出能量函数最小的下一个 Token;而训练则是逼近平均能量函数最小的参数组态;
  • 大模型的记忆容量随着模型参数的线性增加而指数增长,因而小模型也可以具备很强的能力,但由于记忆容量的限制,小模型增训很容易导致模型崩塌;
  • 大模型泛化误差上界的核心参数是 Logits 的绝对值的和,因而模型缩减,如剪枝、蒸馏和量化等,必须谨慎的控制对 Logits 的影响;
  • 大模型的能力极限是时间序列维度的 Granger 因果推断,因而 Scaling Law 还会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力。

大模型的第一性原理:(二)信号处理篇,主要内容和结论包括:

  • 大模型的输入是向量化的 Token 序列,因而可将基于概率统计的自然语言处理问题转化为易于数值计算的信号处理问题;
  • 向量内积描述了 Token 之间的语义相关性,因而 Gromov-Wasserstein 距离是天然的语义向量空间距离,Johnson-Lindenstrauss 引理和压缩感知等技术可用于语义压缩 / 降维;
  • 大模型的目标是预测下一个 Token,因而可以用倒向定向信息为优化目标来实现信息论意义下最优的 Token 向量化;
  • Transformer 是时变向量自回归时间序列,它建模的是作为时间序列的自然语言,因而预测下一个 Token 是时间序列维度的 Granger 因果推断。

大模型的第一性原理:(三)信息论篇,主要内容和结论包括:

  • 大模型的信息论抽象是有状态、带反馈的信道,因而符合该抽象的任何结构(不一定是神经网络)都能达到相同的效果;
  • 大模型的端到端性能指标以定向信息为基础,包括预训练阶段的定向速率 - 失真函数、后训练阶段的定向报酬 - 失真函数和推理阶段的定向信息密度,因而只要将核心概念从 Bit 转换为 Token 就可以在 Shannon 信息论的框架下研究大模型;
  • 大模型在推理阶段可以定义语义信息容量,因而上下文工程(或提示词工程)的信息论本质就是通过优化上下文的概率分布来逼近语义信息容量,这与信道编码逼近 Shannon 容量的思想一致;
  • 定向信息是 Granger 因果强度的测度,因而统计物理、信号处理和信息论三个维度共同印证了大模型的能力极限是时间序列维度的 Granger 因果推断。

需要指出,我们的研究并不是要否定大模型的重要价值,它是一个非常强大的工具,当前形态就能极大提升人们整合和处理信息的效率,这是谁也无法否认的。我们想要探讨的是当前大模型的第一性原理,从而界定其能力极限,并探讨面向未来的技术路径。

神经网络与统计物理

2024 年诺贝尔物理学奖授予了 John Hopfield 和 Geoffrey Hinton,颁奖词为:For foundational discoveries and inventions that enable machine learning with artificial neural networks。许多人不太理解,甚至一些 AI 领域的人也认为诺贝尔奖开始蹭热点了。但实际上从早期的 Hopfield 网络开始,神经网络和统计物理就有非常深刻的联系。

Hopfield 本身就是一位物理学家,他于 1982 年提出了 Hopfield 网络,其联想记忆能力震惊了当时的世界 [2]。这一突破重新激发了人们对神经网络和 AI 的大范围研究。可以说,他对 AI 研究走出寒冬做出了不可磨灭的贡献。被称为 “AI 教父” 的 Hinton 则是第一位认识到统计物理方法在神经网络中有巨大价值的计算机科学家。1985 年,他与另外两位合作者提出了 Boltzmann 机,其关键就是引入了统计物理中的能量模型(Energy-based Model,EBM)[3][4]。除了两位诺奖得主外,还有一位女物理学家 Elizabeth Gardner 非常关键。1988 年,Gardner 三度出手,系统地研究了 Hopfield 网络的记忆容量问题,即到底能记住多少个随机模式 [5][6][7]。后来人们将这个容量称为 Gardner 容量。Gardner 用的方法就是统计物理中的 Spin Glass 模型和 Replica 方法。Replica 方法的提出者则是 2021 年诺贝尔物理学奖得主 Giorgio Parisi [8][9]。我们今年和他有一场访谈(视频链接:https://weixin.qq.com/sph/AlRVrYjAi),深入探讨了 AI 与统计物理的关系。

Attention 模块的 EBM 形式

人们逐步认识到大模型的目标只有一个:预测下一个 Token。Transformer 是当前实现这一目标的有效架构。考虑一个 Decoder-only 的 Transformer 架构,按照从输入到输出的顺序,可以分解为 Attention 和 FFN 两个主要模块 [10]。本节将重点讨论 Attention 模块。





Transformer 的 EBM 形式



Transformer 的记忆容量



近年来,人们经常会用能力涌现来描述大模型为什么大就是好。从 Gardner 容量的角度看,其本质可以理解为随着参数量的增加,大模型记住的知识量超过了某个阈值,就出现了统计物理中的相变现象。实际上,Parisi 教授也是从相变的角度来研究 Shannon 容量的,并且提出:即使通信速率小于信道容量,也存在计算上困难的区域。因此,通过统计物理方法,有望从理论上解释模型规模和模型能力的尺度定律(Scaling Law),并最终解释能力涌现的相变现象。我们在这个方向也取得了一些初步成果 [22]。

Transformer 的泛化误差界

泛化误差是刻画大模型实际效果的关键指标。基于 Transformer 的 EBM 形式,可以从理论上推导泛化误差界。详细的数学证明可以参见论文的对应章节。主要用到的数学工具是 Rademacher 复杂度和 Talagrand 不等式 [23]:

  • Rademacher 复杂度的核心思想是考察一个模型对于纯随机序列的拟合能力。这个序列以 0.5 的概率取值于 {−1,1},通常称之为 Rademacher 序列。后面将看到,Rademacher 复杂度项在泛化误差界中起到了核心作用。
  • 前面提到的数学家 Talagrand,发展出了泛型链 (Generic Chaining) 理论,它能对一类非常广泛的随机过程的上确界给出极其精确的估计。这深刻地改变了人们对随机性和高维空间的理解。



大模型推理能力与 Granger 因果



续篇简介



其中 L 为相互影响的长度。后续的相关研究则进一步印证:对于向量高斯自回归过程,传递熵和 Granger 因果是等价的 [27]。另一方面,传递熵也是有限长度版本的定向信息。这一概念由 1988 年香农奖得主 James Massey 在 1990 年提出 [28]。他在论文中也讨论了带反馈的通信系统的因果性问题。由此,我们引出了后续两篇的主要内容:

  • 本系列的第二篇,即信号处理篇,将深入探讨向量自回归时间序列与大模型之间的深刻联系。
  • 本系列的第三篇,即信息论篇,将以定向信息为核心,探讨与结构无关的、更抽象、更本质的大模型第一性原理。

参考文献

1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” Proceedings of the National Academy of Sciences, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.

3. D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.

4. G. Hinton, "A practical guide to training restricted Boltzmann machines," in Neural Networks: Tricks of the Trade, 2nd ed., Berlin, Germany: Springer, 2012, pp. 599-619.

5. E. Gardner, "The space of interactions in neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 257-270, Jan. 1988.

6. E. Gardner and B. Derrida, "Optimal storage properties of neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 271-284, Jan. 1988.

7. E. Gardner and B. Derrida, "Three unfinished works on the optimal storage capacity of networks," Journal of Physics A: Mathematical and General, vol. 22, no. 12, pp. 1983-1994, Jun. 1989.

8. M. Mezard, G. Parisi, and M. Virasoro, Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications. Singapore: World Scientific Publishing, 1987.

9. G. Parisi, In a Flight of Starlings: The Wonders of Complex Systems. Milan, Italy: Penguin Press, 2023.

10. A. Vaswani et al., "Attention is all you need," in Proc. 31st Annual Conference on Neural Information Processing Systems ’17, Long Beach, CA, USA, Dec. 2017.

11. E. Jaynes, Probability Theory: The Logic of Science. New York, NY, USA: Cambridge University Press, 2003.

12. A. Gu and T. Dao, "Mamba: Linear-time sequence modeling with selective state spaces," arXiv: 2312.00752, May 2024.

13. T. Dao and A. Gu, "Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality," arXiv: 2405.21060, May 2024.

14. DeepSeek-AI, “DeepSeek-V3.2: Pushing the frontier of open large language models,” DeepSeek, Hangzhou, China, Dec. 2025.

15. T. Cover, "Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition," IEEE Transactions on Electronic Computers, vol. EC-14, no. 3, pp. 326–334, Jun. 1965.

16. M. Talagrand, Mean Field Models for Spin Glasses - Vol. 1: Basic Examples. Berlin, Germany: Springer, 2011.

17.M. Talagrand, Mean Field Models for Spin Glasses - Vol. 2: Advanced Replica-Symmetry and Low Temperature. Berlin, Germany: Springer, 2011.

18. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, 28 Apr. 2021.

19. M. Geva, R. Schuster, J. Berant, and O. Levy, "Transformer feed-forward layers are key-value memories," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ‘21, Punta Cana, Dominican Republic, Nov. 2021, pp. 5484–5495.

20. J. Fang et al., "AlphaEdit: Null-space constrained knowledge editing for language models," arXiv: 2410.02355, 22 Apr. 2025.

21. W. Fei et al., "NeuralDB: Scaling knowledge editing in LLMs to 100,000 facts with neural KV database," arXiv: 2507.18028, 24 July 2025.

22. X. Niu, B. Bai, L. Deng, and W. Han, "Beyond scaling laws: Understanding transformer performance with associative memory," arXiv: 2405.08707, 14 May 2024.

23. M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning, 2nd ed. Cambridge, MA, USA: The MIT Press, 2018.

24. C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.

25. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

26. T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

27. L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, p. 238701, Dec. 2009.

28. J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory ‘90, Waikiki, HI, USA, Nov. 1990.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张智霖李承铉两家结伴飞北京,20岁魔童比爸爸高,被赞超级大帅哥

张智霖李承铉两家结伴飞北京,20岁魔童比爸爸高,被赞超级大帅哥

李健政观察
2026-01-26 22:28:34
思想配得上苦难

思想配得上苦难

求实处
2026-01-26 22:20:03
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
雪豹伤人真相曝光:不是偶遇是送命!当事人撒谎,航拍图还原真相

雪豹伤人真相曝光:不是偶遇是送命!当事人撒谎,航拍图还原真相

吃货的分享
2026-01-26 02:27:32
他是潜藏在军队里的大间谍,给国家造成永久损失,被注射死刑严惩

他是潜藏在军队里的大间谍,给国家造成永久损失,被注射死刑严惩

近史谈
2025-10-23 20:24:33
身体健康的8大表现占5个以上说明你很健康

身体健康的8大表现占5个以上说明你很健康

吃练双修指南
2026-01-26 14:00:04
广东省政协常委霍启山:建议粤港澳三地联合申办足球亚洲杯

广东省政协常委霍启山:建议粤港澳三地联合申办足球亚洲杯

南方都市报
2026-01-26 21:15:33
湖人129-118公牛!无解的不是赢球,是八村对老詹和东契奇的评价

湖人129-118公牛!无解的不是赢球,是八村对老詹和东契奇的评价

鱼崖大话篮球
2026-01-27 14:34:34
4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

泠泠说史
2026-01-26 18:36:40
宁波律师叶子民涉嫌违纪违规被立案调查

宁波律师叶子民涉嫌违纪违规被立案调查

潮评社
2026-01-27 10:21:21
他汀长期吃,转氨酶出现升高,要吃保肝药吗?

他汀长期吃,转氨酶出现升高,要吃保肝药吗?

李药师谈健康
2026-01-26 12:52:22
张本美和夺冠后!采访哭着给父亲庆生,提到哥哥,未来规划不简单

张本美和夺冠后!采访哭着给父亲庆生,提到哥哥,未来规划不简单

生活新鲜市
2026-01-27 09:42:03
雪豹咬人事件后续:闺蜜曝真相,美女游客或毁容,现场细节太惊心

雪豹咬人事件后续:闺蜜曝真相,美女游客或毁容,现场细节太惊心

复转这些年
2026-01-26 23:24:31
我1.3万退休金带外孙8年,看到女婿手机备注后,果断收拾行李回家

我1.3万退休金带外孙8年,看到女婿手机备注后,果断收拾行李回家

兰姐说故事
2025-05-30 17:10:03
王昭君真实样貌被专家复原,网友看后大失所望,专家:这是事实

王昭君真实样貌被专家复原,网友看后大失所望,专家:这是事实

LULU生活家
2026-01-26 18:21:55
李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

花哥扒娱乐
2026-01-24 16:06:55
苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

历史摆渡
2026-01-24 18:40:03
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
美媒:“林肯”号航母打击群一两天内即可对伊朗动武

美媒:“林肯”号航母打击群一两天内即可对伊朗动武

国际在线
2026-01-27 08:09:14
以色列最后一名人质魂归故里,俄罗斯将全面撤出叙利亚

以色列最后一名人质魂归故里,俄罗斯将全面撤出叙利亚

近距离
2026-01-27 10:51:55
2026-01-27 14:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12198文章数 142551关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

头条要闻

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
旅游
本地
数码
公开课

教育要闻

高中半年直观感受

旅游要闻

泰山之巅惊现七彩灯华奇景 非常罕见

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

苹果M3 Mac现已成功启动Asahi Linux 但暂不具备实际可用性

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版