本福特法则:为什么以「1」开头的数字最多?
今天我给你们讲一个关于数字的管理学故事。
在进入正题之前,我想先给大家做两个小测试。
第一个小测试:如果你看到一本书的前几页比后面的页数翻得更烂,你会想到什么?
第二个小测试:对全世界所有城市的海拔高度数据,我们把它都收集来了,然后我们把它的第一个数字提出来。比如说海拔 4567 米,提出的第一位数字就是「4」。那么,在这些所有数字里面,1 到 9 哪个数字出现的次数最多,所有数字的分布又会是怎么样的?
对于第一道题,大部分的人都会想:这是一本无聊的书,人看了开头就看不下去了,所以把开头的页数翻得很烂,后面还是很新。如果你只是想了这么多,那么你可能就错过了一个流芳百世的机会。
对于第二道题,大部分的人认为:第一位数字的分布应该是平均的,因为一共有九位数字,第一位数字不能是 0,那么只能是 1 到 9,每一个数字出现的频率应该是 1/9,就是 11% 左右。如果你也是这么认为的,那么你就大错特错了。
通过真正的数据统计分析,这些海拔高度的第一位数字的分布其实绝对不是一个平均分布。它们的分布实际上是这样的:数字 1 出现的概率大概是 30% 左右,远远高于数字 2 的 18%,数字 3 的 13%,等到 9 出现的时候的概率大概只有不到 5% 了。
这就是著名的本福特法则,从实际生活中得出的数据中,以 1 为首的数字的出现的概率约为总数的三成,接近期望值 1/9 的三倍。
本福特法则其实不是一个新的法则,在大概一百多年前,数学家们就发现了这个现象。
1881 年的时候,有一个加拿大天文学家他叫「西门纽康柏」,他发现对数表以 1 起首的那一页比其他页数翻得更加烂。(我不知道现在有多少朋友还知道什么是对数表,因为现在计算机、计算器已经非常普及了,但是我们那一拨人上学的时候都是要用对数表去查对数,比如 log2、log3 是多少,我们要去查表。)西蒙和大多数人一样,当时也没有往深处想,所以他错过了一个在科学史上留名的机会。