Skip to content

Latest commit

 

History

History
297 lines (180 loc) · 13.2 KB

multivariate-normal-distribution.md

File metadata and controls

297 lines (180 loc) · 13.2 KB

正态分布

发展史$$^{[2]}$$

  1. 法国数学家棣莫佛发现二项分布的极限是正态分布

  2. 拉普拉斯将棣莫佛的研究成果进行推广,得到了棣莫佛-拉普拉斯中心极限定理 $$^{[1]}$$

  3. 勒让德在 1805 年发表了有效的最小二乘法,将之用于误差研究。

  4. 高斯在 1809 年也发表了最小二乘法,并用于天文观测的数据分析中,准确预言了谷神星的位置。在此分析中,高斯首次给出了极大似然的思想,并由此得到了正态分布的密度函数。并假设误差分布符合正态分布,从而对最小二乘法给出了非常好的解释。

    高斯所拓展的最小二乘法成为了 19 世纪统计学的最重要成就,它在 19 世纪统计学的重要性就相当于 18 世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德 1805 年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。

    在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人, 所以当时在法国被称为拉普拉斯分布;而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯 - 高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称, 而随后统计学家卡尔 · 皮尔森使得这个名称被广泛接受:

    Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.

    —Karl Pearson (1920)

    不过因为高斯在数学家中的名气实在是太大, 正态分布的桂冠还是更多地被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布, 两者并用。

对于正态分布函数的推导,可以通过不同途径解决。

1. 高斯(1809)年的推导

基本准则:误差分布导出的极大似然估计 = 算术平均值

设真值为 $$\theta$$ ,$$x_1,\cdots,x_n$$ 为 $$n$$ 次独立测量值,每次测量的误差为 $$e_i=x_i–\theta$$ ,假设误差 $$e_i$$ 的密度函数为 $$f(e)$$ , 则测量值的联合概率为 $$n$$ 个误差的联合概率,记作: $$ \begin{split} L(\theta)&=L(\theta;x_1,\cdots,x_n) \&=f(e_1)\cdots!f(e_n) \&=f(x_1-\theta)\cdots!f(x_n-\theta) \end{split}\tag{1} $$ 为求极大似然估计,令 $$ \frac{\text{d}\log L(\theta)}{\text{d} \theta} = 0\tag{2} $$ 整理后可以得到: $$ \sum_{i=1}^n\frac{f^\prime(x_i-\theta)}{f(x_i-\theta)}=0\tag{3} $$ 令 $$g(x)=\frac{f^\prime(x)}{f(x)}$$ ,则: $$ \sum_{i=1}^ng(x_i-\theta)=0\tag{4} $$ 由于高斯假设极大似然估计的解就是算术平均 $$\overline{x}$$ ,即 $$\theta=\overline{x}$$ 。代入(4)式,可得: $$ \sum_{i=1}^ng(x_i-\overline{x})=0\tag{5} $$ (5)式中,令 $$n=2$$ ,有: $$ g(x_1-\overline{x})+g(x_2-\overline{x})=0\tag{6} $$ 由于此时有 $$x_1−\overline{x}=−(x_2−\overline{x})$$ ,并且 $$x_1,x_2$$ 是任意的,故:$$g(−x)=−g(x)$$ 。

(5)式中再令 $$n=m+1$$ ,并且要求 $$x_1=\cdots=x_m=−x, x_{m+1}=mx$$ ,则有 $$\overline{x}=0$$ ,并且: $$ \sum_{i=1}^ng(x_i-\overline{x})=mg(-x)+g(mx)\tag{7} $$ 所以得到:$$g(mx)=mg(x)$$ 。

而满足上式的唯一的连续函数就是 $$g(x)=cx$$ ,从而可以求解出: $$ f(x)=M\text{e}^{cx^2}\tag{8} $$ 由于 $$f(x)$$ 是概率密度函数,把 $$f(x)$$ 正规化后就得到均值为 $$0$$ 的正态分布密度函数 $$N(0,σ2)$$

2. 赫歇尔 (1850) 和麦克斯韦(1860) 的推导

天文学家赫歇尔 (John Frederick William Herschel, 1792-1871) 和物理学家麦克斯韦 (James Clerk Maxwell, 1831-1879) 在对恒星位置进行测量时,考虑二维的误差分布,并推导了误差的概率密度分布函数。

赫歇尔提出的两条假设:

  1. $$x$$ 轴和 $$y$$ 轴的误差是相互独立的,即随机误差在正交的方向上相互独立
  2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系

这两个假设对于赫歇尔考虑的实际测量问题看起来都很合理。

由第一条可以得到概率密度分布 $$p(x,y)$$ 应该具有如下形式 $$ p(x,y)=f(x)f(y)\tag{9} $$ 把这个函数转换为极坐标,在极坐标下的概率密度函数设为 $$g(r,θ)$$ ,则有: $$ p(x,y)=p(r\cos\theta,r\sin\theta)=g(r,\theta)\tag{10} $$ 由第二条假设, $$g(r,θ)$$ 具有旋转对称性,也就是与 $$\theta$$ 无关, 所以 $$g(r,\theta)=g(r)$$

综上所述,可以得到 $$ f(x)f(y)=g(r)=g(\sqrt{x^2+y^2})\tag{11} $$ 令 $$y=0$$ ,得到 $$g(x)=f(x)f(0)$$ ,所以上式可以转换为 $$ \begin{split} f(x)f(y)=f(\sqrt{x^2+y^2})f(0) \\frac{f(x)f(y)}{f(0)f(0)}=\frac{f(\sqrt{x^2+y^2})}{f(0)} \\log\left[\frac{f(x)}{f(0)}\right]+\log\left[\frac{f(y)}{f(0)}\right]=\log\left[\frac{f(\sqrt{x^2+y^2})}{f(0)}\right] \end{split}\tag{12} $$ 令 $$\log\left[\frac{f(x)}{f(0)}\right]=h(x)$$ ,则有: $$ h(x)+h(y)=h(\sqrt{x^2+y^2})\tag{13} $$ 有(13)式可得:$$h(x)=ax^2$$ 。

从而可以得到 $$f(x)$$ 的一般形式: $$ f(x)=\sqrt{\frac{\alpha}{\pi}}\text{e}^{-\alpha x^2}\tag{14} $$ 即 $$f(x)$$ 是正态分布 $$N(0,\frac{1}{\sqrt{2\alpha}})$$ ,从而 $$p(x,y)$$ 就是标准二维正态分布的密度函数: $$ p(x,y)=\frac{\alpha}{\pi}e^{-\alpha(x^2+y^2)}\tag{15} $$ 1860 年,伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布: $$ \rho(v_x,v_y,v_z)\propto\text{exp}{-\alpha(v_x^2+v_y^2+v_z^2}\tag{16} $$ 这就是著名的麦克斯韦分子速率分布定律。

此外,麦克斯韦-波尔兹曼气体速率分布定理其实是三个正态分布的乘积。 $$ \begin{split} F(v)&=\left(\frac{m}{2\pi kT}\right)^{3/2}e^{-\frac{mv^2}{2kT}} \&=\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_x^2}{2kT}}\times\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_y^2}{2kT}}\times\left(\frac{m}{2\pi kT}\right)^{1/2}e^{-\frac{mv_z^2}{2kT}} \end{split}\tag{17} $$ 赫歇尔-麦克斯韦推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。

3. 兰登 (1941) 的推导

电气工程师兰登 (Vernon D. Landon) 在 1941 年研究通信电路中的噪声电压,通过分析经验数据,他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差 $$\sigma^2$$ 来刻画。因此他推理认为噪声电压的分布密度函数形式是 $$p(x;\sigma^2)$$

假设原来的电压为 $$X$$ ,累加了一个相对其方差 $$\sigma^2$$ 而言很微小的误差扰动 $$\epsilon$$ ,其概率密度是 $$q(e)$$ ,那么新的噪声电压是 $$X^\prime=X+\epsilon$$ 。兰登提出了如下的准则

  1. 随机噪声具有稳定的分布模式
  2. 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级 (用方差度量)

用数学的语言描述:

如果 $$X\sim p(x;\sigma^2),~\epsilon\sim q(e),~X^\prime=X+\epsilon$$ ,则有:$$X^\prime\sim p(x;\sigma^2+\text{var}(\epsilon))$$ 。

两个随机变量和的分布,即 $$X^\prime$$ 的分布密度函数是 $$X$$ 的分布密度函数和 $$\epsilon$$ 的分布密度函数的卷积: $$ f(x^\prime)={\int}p(x^\prime-e;\sigma^2)q(e)de\tag{18} $$ 把 $$p(x^\prime-e;\sigma^2)$$$$x^\prime$$ 处做泰勒级数展开 (为了方便,展开后把自变量由 x′ 替换为 x

), 上式可以展开为

f(x)=p(x;σ2)–∂p(x;σ2)∂x∫eq(e)de+12∂2p(x;σ2)∂x2∫e2q(e)de+⋯

将 p(x;σ2)

简记为 p

, 则有

f(x)=p–∂p∂x¯ϵ+12∂2p∂x2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)

对于微小的随机扰动 ϵ

, 我们认为他取正值或者负值是对称的,所以 ¯ϵ=0

。所以有

f(x)=p+12∂2p∂x2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)(2)

对于新的噪声电压 X′=X+ϵ

, 方差由 σ2 增加为 σ2+var(ϵ)=σ2+¯¯¯¯ϵ2,所以按照兰登的分布密度函数模式不变的假设, 新的噪声电压的分布密度函数应该为 f(x)=p(x;σ2+¯¯¯¯ϵ2)。把 p(x;σ2+¯¯¯¯ϵ2) 在 σ2

处做泰勒级数展开,得到

f(x)=p+∂p∂σ2¯¯¯¯ϵ2+o(¯¯¯¯ϵ2)(3)

比较 (2) 和 (3) 这两个式子,可以得到如下偏微分方程

12∂2p∂x2=∂p∂σ2

而这个方程就是物理上著名的扩散方程 (diffusion equation), 求解该方程就得到

p(x;σ2)=1√2πσe−x22σ2

又一次,我们推导出了正态分布!

杰恩斯对于这个推导的评价很高,认为兰登 的推导本质上给出了自然界的噪音形成过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,兰登 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 q(e)

是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

5.4 基于最大熵的推导

还有一条小径是基于最大熵原理的, 物理学家杰恩斯在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是杰恩斯本人。

熵在物理学中由来已久,信息论的创始人香农 (Claude Elwood Shannon, 1916-2001) 把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,杰恩斯对这条道也是偏爱有加。

对于一个概率分布 p(x)

, 我们定义他的熵为

H(p)=−∫p(x)logp(x)dx

如果给定一个分布密度函数 p(x)

的均值 μ 和方差 σ2(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的), 则在所有满足这两个限制的概率分布中,熵最大的概率分布 p(x|μ,σ2) 就是正态分布 N(μ,σ2)

这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。

考虑两个概率分布 p(x)

和 q(x),使用不等式 logx≤(x−1)

, 得

∫p(x)logq(x)p(x)dx≤∫p(x)(q(x)p(x)–1)dx=∫q(x)dx–∫p(x)dx=0

于是

∫p(x)logq(x)p(x)dx=∫p(x)log1p(x)dx+∫p(x)logq(x)dx≤0

所以

H(p)≤−∫p(x)logq(x)dx

熟悉信息论的同学都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号当且仅当 q(x)=p(x)

对于 p(x)

, 在给定的均值 μ 和方差 σ2 下, 我们取 q(x)=N(μ,σ2)

, 则可以得到

H(p)≤–∫p(x)log{1√2πσe−(x−μ)22σ2}dx=∫p(x){(x−μ)22σ2+log√2πσ}dx=12σ2∫p(x)(x−μ)2dx+log√2πσ

由于 p(x)

的均值方差有如下限制

∫p(x)(x−μ)2dx=σ2

于是

H(p)≤12σ2σ2+log√2πσ=12+log√2πσ

而当 p(x)=N(μ,σ2)

的时候,上式可以取到等号,这就证明了结论。

杰恩斯显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

好的,风景欣赏暂时告一段落。所谓 “横看成岭侧成峰,远近高低各不同”,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

物理学家认为高斯分布已经在数学上得到证明,而数学家则认为高斯分布在物理试验中得到确认。

参考资料

[1] 中心极限定理[DB/OL]. http://math.itdiffer.com/central_limit.html , 2022.10.07

[2] 正态分布的前世今生(上). https://cosx.org/2013/01/story-of-normal-distribution-1/ , 2022.10.07