-
法国数学家棣莫佛发现二项分布的极限是正态分布。
-
拉普拉斯将棣莫佛的研究成果进行推广,得到了棣莫佛-拉普拉斯中心极限定理
$$^{[1]}$$ 。 -
勒让德在 1805 年发表了有效的最小二乘法,将之用于误差研究。
-
高斯在 1809 年也发表了最小二乘法,并用于天文观测的数据分析中,准确预言了谷神星的位置。在此分析中,高斯首次给出了极大似然的思想,并由此得到了正态分布的密度函数。并假设误差分布符合正态分布,从而对最小二乘法给出了非常好的解释。
高斯所拓展的最小二乘法成为了 19 世纪统计学的最重要成就,它在 19 世纪统计学的重要性就相当于 18 世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德 1805 年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。
在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人, 所以当时在法国被称为拉普拉斯分布;而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯 - 高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称, 而随后统计学家卡尔 · 皮尔森使得这个名称被广泛接受:
Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.
—Karl Pearson (1920)
不过因为高斯在数学家中的名气实在是太大, 正态分布的桂冠还是更多地被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布, 两者并用。
对于正态分布函数的推导,可以通过不同途径解决。
基本准则:误差分布导出的极大似然估计 = 算术平均值
设真值为
(5)式中再令
而满足上式的唯一的连续函数就是
天文学家赫歇尔 (John Frederick William Herschel, 1792-1871) 和物理学家麦克斯韦 (James Clerk Maxwell, 1831-1879) 在对恒星位置进行测量时,考虑二维的误差分布,并推导了误差的概率密度分布函数。
赫歇尔提出的两条假设:
-
$$x$$ 轴和$$y$$ 轴的误差是相互独立的,即随机误差在正交的方向上相互独立 - 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系
这两个假设对于赫歇尔考虑的实际测量问题看起来都很合理。
由第一条可以得到概率密度分布
综上所述,可以得到
$$
f(x)f(y)=g(r)=g(\sqrt{x^2+y^2})\tag{11}
$$
令
从而可以得到
此外,麦克斯韦-波尔兹曼气体速率分布定理其实是三个正态分布的乘积。 $$ \begin{split} F(v)&=\left(\frac{m}{2\pi kT}\right)^{3/2}e^{-\frac{mv^2}{2kT}} \&=\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_x^2}{2kT}}\times\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_y^2}{2kT}}\times\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_z^2}{2kT}} \end{split}\tag{17} $$ 赫歇尔-麦克斯韦推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。
电气工程师兰登 (Vernon D. Landon) 在 1941 年研究通信电路中的噪声电压,通过分析经验数据,他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差
假设原来的电压为
- 随机噪声具有稳定的分布模式
- 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级 (用方差度量)
用数学的语言描述:
如果
两个随机变量和的分布,即
), 上式可以展开为
f(x)=p(x;σ2)–∂p(x;σ2)∂x∫eq(e)de+12∂2p(x;σ2)∂x2∫e2q(e)de+⋯
将 p(x;σ2)
简记为 p
, 则有
f(x)=p–∂p∂x¯ϵ+12∂2p∂x2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)
对于微小的随机扰动 ϵ
, 我们认为他取正值或者负值是对称的,所以 ¯ϵ=0
。所以有
f(x)=p+12∂2p∂x2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)(2)
对于新的噪声电压 X′=X+ϵ
, 方差由 σ2 增加为 σ2+var(ϵ)=σ2+¯¯¯¯ϵ2,所以按照兰登的分布密度函数模式不变的假设, 新的噪声电压的分布密度函数应该为 f(x)=p(x;σ2+¯¯¯¯ϵ2)。把 p(x;σ2+¯¯¯¯ϵ2) 在 σ2
处做泰勒级数展开,得到
f(x)=p+∂p∂σ2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)(3)
比较 (2) 和 (3) 这两个式子,可以得到如下偏微分方程
12∂2p∂x2=∂p∂σ2
而这个方程就是物理上著名的扩散方程 (diffusion equation), 求解该方程就得到
p(x;σ2)=1√2πσe−x22σ2
又一次,我们推导出了正态分布!
杰恩斯对于这个推导的评价很高,认为兰登 的推导本质上给出了自然界的噪音形成过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,兰登 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 q(e)
是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。
还有一条小径是基于最大熵原理的, 物理学家杰恩斯在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是杰恩斯本人。
熵在物理学中由来已久,信息论的创始人香农 (Claude Elwood Shannon, 1916-2001) 把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,杰恩斯对这条道也是偏爱有加。
对于一个概率分布 p(x)
, 我们定义他的熵为
H(p)=−∫p(x)logp(x)dx
如果给定一个分布密度函数 p(x)
的均值 μ 和方差 σ2(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的), 则在所有满足这两个限制的概率分布中,熵最大的概率分布 p(x|μ,σ2) 就是正态分布 N(μ,σ2)
。
这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
考虑两个概率分布 p(x)
和 q(x),使用不等式 logx≤(x−1)
, 得
∫p(x)logq(x)p(x)dx≤∫p(x)(q(x)p(x)–1)dx=∫q(x)dx–∫p(x)dx=0
于是
∫p(x)logq(x)p(x)dx=∫p(x)log1p(x)dx+∫p(x)logq(x)dx≤0
所以
H(p)≤−∫p(x)logq(x)dx
熟悉信息论的同学都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号当且仅当 q(x)=p(x)
。
对于 p(x)
, 在给定的均值 μ 和方差 σ2 下, 我们取 q(x)=N(μ,σ2)
, 则可以得到
H(p)≤–∫p(x)log{1√2πσe−(x−μ)22σ2}dx=∫p(x){(x−μ)22σ2+log√2πσ}dx=12σ2∫p(x)(x−μ)2dx+log√2πσ
由于 p(x)
的均值方差有如下限制
∫p(x)(x−μ)2dx=σ2
于是
H(p)≤12σ2σ2+log√2πσ=12+log√2πσ
而当 p(x)=N(μ,σ2)
的时候,上式可以取到等号,这就证明了结论。
杰恩斯显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。
好的,风景欣赏暂时告一段落。所谓 “横看成岭侧成峰,远近高低各不同”,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
物理学家认为高斯分布已经在数学上得到证明,而数学家则认为高斯分布在物理试验中得到确认。
[1] 中心极限定理[DB/OL]. http://math.itdiffer.com/central_limit.html , 2022.10.07
[2] 正态分布的前世今生(上). https://cosx.org/2013/01/story-of-normal-distribution-1/ , 2022.10.07