想象一下,我们随机从人口统计表、房价走势、或股票交易量中,随机抓出成千上万个数字。
如果我们提取这些数据的首位数字(即 1 到 9 之间那个数字),哪个数字出现的概率最高?
大多数人的直觉是:从 1 到 9,每个数字出现的概率应该是均等的,大约都是 11.1%。但事实却是:数字 1 出现的概率最高,甚至接近30%,而 9 出现的概率还不到5%。
![]()
这种 分布并非 巧合, 而是一个几乎统治了所 有自然增长数据 集的数学定律:本福德定律(Benford's Law)。
为什么世界偏爱数字“1”?
看似混乱的自然界,其实暗藏着精准的对数规律。1881年,天文学家西蒙·纽康在图书馆翻阅公用对数表时,注意到一个细节:以 1 开头的页面远比以 8、9 开头的更脏更破。这反映了人类处理的数据中,低首位数字的处理频次占据了压倒性的比例。
![]()
这个发现并未被正式记录,直到1938年通用电气的物理学家弗兰克·本福特收集了河流面积、各国人口、物理常数等20余组、逾两万个数字进行验证。结论惊人地一致:首位数字为 1 的数据占比30.1%,为 2 的约占 17.6%,依次递减,到 9 仅剩不足 4.6%,才正式确立并命名了这个规律。
为什么现实世界的数据总是不约而同地服从本福德定律?
1.物理本质:自然界的乘性增长规律
我们习惯用线性的眼光看世界。然而,现实世界的大多数动态过程并非简单的加法叠加,而是比例性的乘法增长。无论是细胞分裂、复利积累、社会财富演变,还是物理学中的放射性衰变,其变化率通常与当前的规模成正比。这种“利滚利”的现象在数学上表现为微分方程:
![]()
这种增长方式决定了:首位数越小,跨越该区间所需的相对增量就越大。
比如,从 100 万增长到 200 万,资产需要翻倍(相对增量为 100%);而从 900 万增长到 1000 万,资产仅需微增 11.1%(首位重新回到 1)。
在线性直尺上,1 到 2 和 8 到 9 的物理距离是一样的;但在乘性增长的世界里,同样的绝对增量对应着完全不同的相对变化。这解释了为什么数值在以 1 开头时最为“吃力”,这也是本福德定律最核心的物理来源。
2. 对数尺度下的线性化转换
由于指数增长是不断加速的,很难在统一标准下观察。数学家引入了对数空间来解决这个问题。当我们对增长等式两边取自然对数ln时,复杂的指数增长被“拉直”成了标准的直线方程:
![]()
在这个转换中,原本剧烈的倍数扩张变成了随时间 t 匀速增加的距离。对数尺子度量的不再是绝对数额,而是增长的进度。只要增长率 r 恒定,数值在对数轴上的演化就是等速的。这意味着,系统在某个区间停留的时间,就严格等于该区间在对数轴上的物理长度。1881 年西蒙·纽康发现对数表前几页更脏,本质上就是因为人类观测的数据大多处在对数轴上那个漫长的低首位区间。
3. 对数空间里的分配规律
既然系统在对数轴上是匀速推进的,那么只要观察时间足够长,数值落在对数轴上任何位置的概率就是相等的。此时,首位数字 d 出现的概率,完全取决于该数字在对数轴上占据的空间宽度。
数字 1 的领地:log₁₀(2) − log₁₀(1) = 0.30
数字 2 的领地:log₁₀(3) − log₁₀(2) = 0.17
数字 9 的区域:log₁₀(10) − log₁₀(9) = 0.046
可以看出,在对数这把尺子上,数字 1 的领地最宽(占总长度30%),数值穿过它所需的时间最长。当你随机观测一个跨越多个数量级的自然系统时,落在 1 到 2 区间的概率,天然就是落在 8 到 9 区间的 6.5 倍。
通过计算从 d 到 d+1 的对数距离在整个单位长度中的占比,我们便得到了本福德定律的通用公式:
![]()
这种分配规律有一种稳健的特性:尺度不变性(Scale Invariance)。也就是无论你用什么度量衡,只要数据跨度足够大,位数字的分布比例都保持恒定,并精准契合本福德定律。数学上,只有对数分布具备这种“不随单位缩放而改变”的深层对称性。
数字世界的“指纹”
人工构造的随机数往往会破坏自然数据中固有的对数秩序。
2001 年安然公司破产后,审计人员回溯时发现,其披露的财报中首位数字的分布严重背离了定律。造假者通过伪造随机数掩盖关联交易,却抹去了自然数据中特有的分布节奏;
![]()
在希腊债务危机爆发前,研究人员也利用了本福德定律发现希腊申报的 GDP 数据偏离度显著高于其他欧洲国家。后期事实证明,希腊确实通过会计手段掩盖了赤字以符合欧元区准入门槛。目前,本福德分析已成为税务稽查、选举审查和科研打假中锁定可疑对象的标准工具。
这种统计规律也存在于图像诊断中。自然景物的光影过渡通常是连续且平滑的,在 JPEG 压缩标准中,图像被划分为 8x8 的像素块,通过离散余弦变换(DCT)将空间位图映射为频域系数,其幅值分布高度契合本福德定律。一旦使用图像处理工具或生成式人工智能进行篡改,即便改动在视觉上难以察觉,算法也能够精准捕捉到系数分布相较于本福德分布的异动,从而判定图像是否经过了后期处理。
![]()
希尔定理:多源分布的收敛
既然单一体制(乘性增长)服从定律,那么如果把一整份报纸里互不相干的数据(气温、比分、股价、人口)混在一起呢?
1995 年,数学家泰德·希尔(Ted Hill)证明了一个关键的收敛机制:如果从多个不同的、互不相关的概率分布中随机抽取样本并进行混合,最终生成的复合集合将趋向于符合本福德分布。
这可以被视作对数空间的中心极限定理。在普通的加法世界里,大量随机变量叠加会产生正态分布(钟形曲线);而在跨越多个量级的乘法世界里,多源数据的混合叠加则导向了对数均匀分布。这种收敛性解释了为什么复杂的系统(无论是企业账目还是社会统计)即使包含了很多不具备指数增长特征的单一环节,整体上却能展现出极高的统计一致性。
本福德定律告诉我们:秩序往往隐藏在表面的不平衡中。造假者可以模仿孤立的数字,却永远无法重构这种自洽的统计生态。
end
参考资料:
[1]The Law of Anomalous Numbers. Benford, F.
[2]Benford's Law: Applications for Forensic Accounting, and Fraud Detection. Nigrini, M. J. (2012).
[3]The Distribution of Leading Digits and Uniform Distribution Modulo 1. Diaconis, P.
[4] A Statistical Derivation of the Significant-Digit Law. Hill, T. P.
来源:DataCafe
编辑:杨樂多
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.