大模型的第一性原理：（一）统计物理篇|信息论|神经网络

分享至

机器之心发布

作者：白铂博士

白铂博士，华为 2012 实验室理论研究部主任信息论首席科学家

2022 年底，ChatGPT 横空出世，其能力震惊了整个世界。2024 年底，DeepSeek 以极低的训练成本和极高的性能再次震惊了世界。短短几年间，大模型疯狂迭代，能力不断提升，仅在美国，AI 领域的投资规模便超过了许多国家全年的 GDP！2025 年底，Google 强势推出 Gemini 3，模型能力突飞猛进，TPU 训练范式也对英伟达的生态发起了颠覆式挑战。

业界普遍认为 Gemini 3 是迈向通用人工智能（Artificial General Intelligence，AGI）和超级人工智能（ASI，Artificial Super Intelligence，ASI）的关键突破，是人类和机器合作的惊人之作。然而，正如 Ilya Sutskever 于 11 月 26 日的访谈中指出：大模型 Scaling Law 和摩尔定律一样，迟早会因为物理限制而失效。因此，如何打开大模型训练的炼丹炉，看清黑盒子背后的基本原理，回答大模型是否已逼近其能力极限就成为迫在眉睫的问题了。但是，前人对大模型的理论研究一直停留在单一维度，使得人们只能看到大模型背后原理的冰山一角，对黑盒子的理解也失之片面。

11 月 3 日，我们在 arXiv 上挂出了一篇论文 Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs [1]。该研究将统计物理、信号处理和信息论三者有机结合，系统地总结了对大模型背后数学原理的思考和理解，期望给全面揭示大模型的第一性原理带来曙光。过去一段时间，我们在以下的学术会议上分别报告了这方面的工作：

11 月 2 日：中国电子学会第 32 届信息论学术年会
11 月 15 日：中国工业与应用数学学会第 3 届信息通信数学及应用大会
11 月 17 日：The 2nd Conference-School on Tensor Methods in Mathematics and Artificial Intelligence Computing
11 月 29 日：福州大学图论与组合研讨会

会上和专家、学者们有很多互动，也收到了不少有价值的反馈。同时也将论文发给了一些海内外的专家、学者们，也收到了不少意见和建议。但是，原论文涉及的领域很多、概念体系复杂，加之写法上很学术，因而比较晦涩难懂。

为了便于理解，这里尝试用通俗易懂的语言写一个文章系列来解读这篇论文，其中一些内容也是原论文没有包含的。预计至少包括以下三篇文章，每一篇围绕一个专题展开：

大模型的第一性原理：（一）统计物理篇，主要内容和结论包括：

Attention 模块和 Transformer 架构都可以用统计物理中的能量模型来描述，因而推理是输出能量函数最小的下一个 Token；而训练则是逼近平均能量函数最小的参数组态；
大模型的记忆容量随着模型参数的线性增加而指数增长，因而小模型也可以具备很强的能力，但由于记忆容量的限制，小模型增训很容易导致模型崩塌；
大模型泛化误差上界的核心参数是 Logits 的绝对值的和，因而模型缩减，如剪枝、蒸馏和量化等，必须谨慎的控制对 Logits 的影响；
大模型的能力极限是时间序列维度的 Granger 因果推断，因而 Scaling Law 还会延续，但不会产生真正的符号化、概念抽象和逻辑推理能力。

大模型的第一性原理：（二）信号处理篇，主要内容和结论包括：

大模型的输入是向量化的 Token 序列，因而可将基于概率统计的自然语言处理问题转化为易于数值计算的信号处理问题；
向量内积描述了 Token 之间的语义相关性，因而 Gromov-Wasserstein 距离是天然的语义向量空间距离，Johnson-Lindenstrauss 引理和压缩感知等技术可用于语义压缩 / 降维；
大模型的目标是预测下一个 Token，因而可以用倒向定向信息为优化目标来实现信息论意义下最优的 Token 向量化；
Transformer 是时变向量自回归时间序列，它建模的是作为时间序列的自然语言，因而预测下一个 Token 是时间序列维度的 Granger 因果推断。

大模型的第一性原理：（三）信息论篇，主要内容和结论包括：

大模型的信息论抽象是有状态、带反馈的信道，因而符合该抽象的任何结构（不一定是神经网络）都能达到相同的效果；
大模型的端到端性能指标以定向信息为基础，包括预训练阶段的定向速率 - 失真函数、后训练阶段的定向报酬 - 失真函数和推理阶段的定向信息密度，因而只要将核心概念从 Bit 转换为 Token 就可以在 Shannon 信息论的框架下研究大模型；
大模型在推理阶段可以定义语义信息容量，因而上下文工程（或提示词工程）的信息论本质就是通过优化上下文的概率分布来逼近语义信息容量，这与信道编码逼近 Shannon 容量的思想一致；
定向信息是 Granger 因果强度的测度，因而统计物理、信号处理和信息论三个维度共同印证了大模型的能力极限是时间序列维度的 Granger 因果推断。

需要指出，我们的研究并不是要否定大模型的重要价值，它是一个非常强大的工具，当前形态就能极大提升人们整合和处理信息的效率，这是谁也无法否认的。我们想要探讨的是当前大模型的第一性原理，从而界定其能力极限，并探讨面向未来的技术路径。

神经网络与统计物理

2024 年诺贝尔物理学奖授予了 John Hopfield 和 Geoffrey Hinton，颁奖词为：For foundational discoveries and inventions that enable machine learning with artificial neural networks。许多人不太理解，甚至一些 AI 领域的人也认为诺贝尔奖开始蹭热点了。但实际上从早期的 Hopfield 网络开始，神经网络和统计物理就有非常深刻的联系。

Hopfield 本身就是一位物理学家，他于 1982 年提出了 Hopfield 网络，其联想记忆能力震惊了当时的世界 [2]。这一突破重新激发了人们对神经网络和 AI 的大范围研究。可以说，他对 AI 研究走出寒冬做出了不可磨灭的贡献。被称为 “AI 教父” 的 Hinton 则是第一位认识到统计物理方法在神经网络中有巨大价值的计算机科学家。1985 年，他与另外两位合作者提出了 Boltzmann 机，其关键就是引入了统计物理中的能量模型（Energy-based Model，EBM）[3][4]。除了两位诺奖得主外，还有一位女物理学家 Elizabeth Gardner 非常关键。1988 年，Gardner 三度出手，系统地研究了 Hopfield 网络的记忆容量问题，即到底能记住多少个随机模式 [5][6][7]。后来人们将这个容量称为 Gardner 容量。Gardner 用的方法就是统计物理中的 Spin Glass 模型和 Replica 方法。Replica 方法的提出者则是 2021 年诺贝尔物理学奖得主 Giorgio Parisi [8][9]。我们今年和他有一场访谈（视频链接：https://weixin.qq.com/sph/AlRVrYjAi），深入探讨了 AI 与统计物理的关系。

Attention 模块的 EBM 形式

人们逐步认识到大模型的目标只有一个：预测下一个 Token。Transformer 是当前实现这一目标的有效架构。考虑一个 Decoder-only 的 Transformer 架构，按照从输入到输出的顺序，可以分解为 Attention 和 FFN 两个主要模块 [10]。本节将重点讨论 Attention 模块。

Transformer 的 EBM 形式

Transformer 的记忆容量

近年来，人们经常会用能力涌现来描述大模型为什么大就是好。从 Gardner 容量的角度看，其本质可以理解为随着参数量的增加，大模型记住的知识量超过了某个阈值，就出现了统计物理中的相变现象。实际上，Parisi 教授也是从相变的角度来研究 Shannon 容量的，并且提出：即使通信速率小于信道容量，也存在计算上困难的区域。因此，通过统计物理方法，有望从理论上解释模型规模和模型能力的尺度定律（Scaling Law），并最终解释能力涌现的相变现象。我们在这个方向也取得了一些初步成果 [22]。

Transformer 的泛化误差界

泛化误差是刻画大模型实际效果的关键指标。基于 Transformer 的 EBM 形式，可以从理论上推导泛化误差界。详细的数学证明可以参见论文的对应章节。主要用到的数学工具是 Rademacher 复杂度和 Talagrand 不等式 [23]：

Rademacher 复杂度的核心思想是考察一个模型对于纯随机序列的拟合能力。这个序列以 0.5 的概率取值于 {−1,1}，通常称之为 Rademacher 序列。后面将看到，Rademacher 复杂度项在泛化误差界中起到了核心作用。
前面提到的数学家 Talagrand，发展出了泛型链 (Generic Chaining) 理论，它能对一类非常广泛的随机过程的上确界给出极其精确的估计。这深刻地改变了人们对随机性和高维空间的理解。

大模型推理能力与 Granger 因果

续篇简介

其中 L 为相互影响的长度。后续的相关研究则进一步印证：对于向量高斯自回归过程，传递熵和 Granger 因果是等价的 [27]。另一方面，传递熵也是有限长度版本的定向信息。这一概念由 1988 年香农奖得主 James Massey 在 1990 年提出 [28]。他在论文中也讨论了带反馈的通信系统的因果性问题。由此，我们引出了后续两篇的主要内容：

本系列的第二篇，即信号处理篇，将深入探讨向量自回归时间序列与大模型之间的深刻联系。
本系列的第三篇，即信息论篇，将以定向信息为核心，探讨与结构无关的、更抽象、更本质的大模型第一性原理。

参考文献

1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” Proceedings of the National Academy of Sciences, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.

3. D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.

4. G. Hinton, "A practical guide to training restricted Boltzmann machines," in Neural Networks: Tricks of the Trade, 2nd ed., Berlin, Germany: Springer, 2012, pp. 599-619.

5. E. Gardner, "The space of interactions in neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 257-270, Jan. 1988.

6. E. Gardner and B. Derrida, "Optimal storage properties of neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 271-284, Jan. 1988.

7. E. Gardner and B. Derrida, "Three unfinished works on the optimal storage capacity of networks," Journal of Physics A: Mathematical and General, vol. 22, no. 12, pp. 1983-1994, Jun. 1989.

8. M. Mezard, G. Parisi, and M. Virasoro, Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications. Singapore: World Scientific Publishing, 1987.

9. G. Parisi, In a Flight of Starlings: The Wonders of Complex Systems. Milan, Italy: Penguin Press, 2023.

10. A. Vaswani et al., "Attention is all you need," in Proc. 31st Annual Conference on Neural Information Processing Systems ’17, Long Beach, CA, USA, Dec. 2017.

11. E. Jaynes, Probability Theory: The Logic of Science. New York, NY, USA: Cambridge University Press, 2003.

12. A. Gu and T. Dao, "Mamba: Linear-time sequence modeling with selective state spaces," arXiv: 2312.00752, May 2024.

13. T. Dao and A. Gu, "Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality," arXiv: 2405.21060, May 2024.

14. DeepSeek-AI, “DeepSeek-V3.2: Pushing the frontier of open large language models,” DeepSeek, Hangzhou, China, Dec. 2025.

15. T. Cover, "Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition," IEEE Transactions on Electronic Computers, vol. EC-14, no. 3, pp. 326–334, Jun. 1965.

16. M. Talagrand, Mean Field Models for Spin Glasses - Vol. 1: Basic Examples. Berlin, Germany: Springer, 2011.

17.M. Talagrand, Mean Field Models for Spin Glasses - Vol. 2: Advanced Replica-Symmetry and Low Temperature. Berlin, Germany: Springer, 2011.

18. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, 28 Apr. 2021.

19. M. Geva, R. Schuster, J. Berant, and O. Levy, "Transformer feed-forward layers are key-value memories," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ‘21, Punta Cana, Dominican Republic, Nov. 2021, pp. 5484–5495.

20. J. Fang et al., "AlphaEdit: Null-space constrained knowledge editing for language models," arXiv: 2410.02355, 22 Apr. 2025.

21. W. Fei et al., "NeuralDB: Scaling knowledge editing in LLMs to 100,000 facts with neural KV database," arXiv: 2507.18028, 24 July 2025.

22. X. Niu, B. Bai, L. Deng, and W. Han, "Beyond scaling laws: Understanding transformer performance with associative memory," arXiv: 2405.08707, 14 May 2024.

23. M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning, 2nd ed. Cambridge, MA, USA: The MIT Press, 2018.

24. C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.

25. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

26. T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

27. L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, p. 238701, Dec. 2009.

28. J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory ‘90, Waikiki, HI, USA, Nov. 1990.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.