• +1

解释钟形曲线无处不在的数学原理

2026-03-27 12:00
来源:澎湃新闻·澎湃号·湃客
听全文
字号

中心极限定理最初只是18世纪赌徒们的小窍门,如今却成为科学家们日常研究的必备工具。

正是中心极限定理,让钟形分布在各个领域随处可见。

图源:Irene Pérez

作者:Joseph Howlett(量子杂志特约撰稿人)2026-3-16

译者:zzllrr小乐(数学科普公众号)2026-3-26

引言

无论放眼何处,钟形曲线总在身边。

每次下雨时在院子里放一个量杯,记录雨停时的水位高度,所得数据会符合钟形曲线;收集 100 个人对罐中软心糖豆数量的猜测,结果也会呈现钟形曲线;测量足够多女性的身高、男性的体重,统计 SAT 考试分数、马拉松完赛时间 —— 你总会得到那条边缘逐渐收窄、中间圆润隆起的平滑曲线。

为何钟形曲线会出现在如此多的数据集中?

答案归根结底是中心极限定理(central limit theorem)。这一强大的数学规律在初学者眼中往往不可思议,如同大自然的魔术。华盛顿大学的生物统计学家 Daniela Witten 表示:“中心极限定理极为神奇,因为它完全违背直觉、出人意料。” 借助这一定理,看似最随机、最无法捉摸的混沌现象,也能展现出极具规律性的可预测性。

如今,它已是现代实证科学的重要支柱。科学家几乎每次通过观测数据推导世界规律时,研究方法中都暗藏中心极限定理的身影。没有它,科学便难以满怀信心地对任何事物下结论。

卡内基梅隆大学的统计学家 Larry Wasserman 称:“没有中心极限定理,统计学领域恐怕都无法存在,它就是一切。”

从博弈中诞生的科学规律

人类对随机现象中规律性的探索始于赌博研究,这或许并不令人意外。

18 世纪初的伦敦咖啡馆里,亚伯拉罕・棣莫弗(Abraham de Moivre)的数学天赋早已显露无遗,艾萨克・牛顿(Isaac Newton)、爱德蒙・哈雷(Edmond Halley)等同时代学者都认可他的才华。

亚伯拉罕・棣莫弗(Abraham de Moivre,1667 - 1754)

图源:Joseph Highmore (1736)

De Moivre 是英国皇家学会会员,却也是一名难民 —— 年轻时因法国的反新教迫害,他被迫逃离故土。作为外来者,他始终无法获得与才华匹配的稳定学术职位,为了糊口,他成为赌徒们的数学顾问,为他们寻找博弈中的数学优势。

抛硬币、掷骰子、抽扑克牌,这些都是随机行为,每种结果出现的概率均等。而 De Moivre 发现,将大量随机行为结合起来,最终结果会呈现出稳定的规律。

将一枚硬币抛掷 100 次,统计正面朝上的次数,结果大概在 50 次左右,却并非精准的 50 次;重复 10 次这个实验,可能会得到 10 个不同的数值。

但如果将这个实验重复 100 万次,绝大多数结果都会接近 50 次,几乎不会出现少于 10 次或多于 90 次的情况。若把 0 到 100 之间每个数值出现的次数绘制成图,你会看到经典的钟形曲线,50 次正是曲线的中心。实验重复的次数越多,钟形曲线就会越平滑、越清晰。

De Moivre 推导出了这条钟形曲线的精确形态,这一分布后来被命名为正态分布(normal distribution)。借助正态分布,无需实际进行实验,就能推算出不同结果出现的概率。例如,抛 100 次硬币,正面朝上次数在 45 到 55 次之间的概率约为 68%。

De Moivre 带着近乎虔诚的心情,惊叹于这种 “宇宙中永恒的秩序”—— 它最终能克服一切偏离钟形曲线的不规则现象。他写道:“假以时日,这些不规则现象与这种源于固有设计的秩序的反复出现相比,便会显得微不足道。”

1718 年首次出版的《机会论》The Doctrine of Chances是概率论领域的第一本教科书,1738 年的第二版中,收录了为中心极限定理奠定基础的研究成果。

De Moivre 凭借这些研究成果在伦敦勉强维持生计:他撰写的《机会论》成了赌徒们的 “圣经”,还在著名的老斯劳特咖啡馆开设了非正式的咨询时段。但即便如此,De Moivre 也未能意识到自己发现的全部价值。直到他去世数十年后,皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace,1749 - 1827)在 1810 年进一步发展了这一思想,中心极限定理的完整内涵才得以被揭示。

我们再举一个比抛硬币稍复杂的例子:掷骰子。单次掷骰子有 6 种等概率的结果,若反复掷骰子并统计结果,会得到一条平坦的分布图 —— 点数 1、2、4、6 出现的次数大致相等。

但如果将骰子掷 10 次并计算平均值,结果大概率在 3.5 左右;多次重复这一实验并将所有结果绘制成图,会得到一条以 3.5 为峰值的钟形曲线,曲线两侧的形态也有着精确的规律。

这就是中心极限定理的魔力:从毫无规律的随机结果分布(掷出 1 到 6 点的概率均等)出发,通过对多次观测结果取平均值,并反复进行这一过程,就能得到精准、可预测的数学形态 —— 钟形曲线。

Laplace 将这一规律提炼为一个简洁的公式,这便是后来的中心极限定理。无论随机过程多么无规律,即便根本无法建立模型,大量结果的平均值都会遵循这一定理所描述的分布。Witten 说:“这一定理的强大之处在于,我们无需关注被取平均值的变量本身遵循何种分布,唯一关键的是,平均值本身会服从正态分布。”

无处不在的实用工具

取平均值看似是人类主动进行的计算行为,但中心极限定理却会无形地作用于世间所有可观测的现象,比如人类的身高。多伦多大学的统计学家 Jeffrey Rosenthal 解释道:“一个人的身高可能受父亲身高、母亲身高、基因、营养状况等诸多微小因素的共同影响,而这些因素彼此独立 —— 通常来说,父亲的身高和一个人摄入的食物毫无关联。这就相当于对一系列微小影响取平均值,这也是身高大致遵循正态分布的原因。”

这也是各类数据集会自发呈现出这一优美形态的根源。Witten 表示:“只要背后存在取平均值的过程,且参与平均的变量足够多,最终结果就会服从正态分布。”

华盛顿大学生物统计学家丹妮拉・威滕(Daniela Witten)

图源:Elizar Mercado

中心极限定理还能让统计学家发现异常现象。试想,你正在老斯劳特咖啡馆喝咖啡,一位客人递给你一枚硬币,打赌你抛 100 次硬币正面朝上的次数达不到 45 次。你尝试后,只得到了 20 次正面朝上的结果。如何判断对方给的是一枚做了手脚的硬币,且整个过程并非真正的随机?借助中心极限定理可知,20 次及以下的结果仅占钟形曲线下面积的 0.15%,也就是说,一枚公平的硬币出现这样结果的概率只有 0.15%,你几乎肯定被算计了。

这正是 Laplace 提出的公式的真正威力:他发现,对任意过程取平均值都会得到钟形曲线,即便不深入了解过程本身的运作原理,也能借助这一规律对过程做出判断。

谨慎使用

尽管中心极限定理是现代科学的核心,但它也有自身的局限性。它仅适用于大量独立样本的组合分析,若样本不独立 —— 例如,仅在缅因州的一个小镇开展全国总统大选民意调查 —— 即便重复实验,结果也无法接近预期的钟形曲线。

在科学研究中,有时异常值比平均值更重要。威廉姆斯学院的应用统计学家 Richard D. De Veaux 表示:“原本百年一遇的洪水,如今发生的频率越来越高。如今,对极端事件的建模可能和对平均值的建模同等重要。”

幸运的是,中心极限定理背后的核心思想 —— 平均值的有效性和稳定性 —— 已被广泛应用,极大拓展了统计学的应用范围。统计学家会针对研究中遇到的具体问题,构建适用于该场景的中心极限定理变体。Wasserman 说:“许多复杂问题,只要思路巧妙,都能转化为样本均值加误差的形式,这时就能借助定理的变体简化问题。”

中心极限定理最终能成为现代科学的支柱,本质上是因为它本身就是我们所处世界的支柱。当我们整合大量独立的观测数据时,数据会呈现出聚集性规律;只要善于运用这一规律,我们就能从这些规律中,探寻到产生这些数据的背后过程的奥秘。

参考资料

https://www.quantamagazine.org/the-math-that-explains-why-bell-curves-are-everywhere-20260316/

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司