热线电话:13121318867

登录
首页精彩阅读数据挖掘中所需的概率论与数理统计知识(六 )
数据挖掘中所需的概率论与数理统计知识(六 )
2014-11-29
收藏

数据挖掘中所需的概率论与数理统计知识(六 )


高斯导出误差正态分布

    事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。
   追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。
    1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!
    高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢?请看下文。
    跟上面一样,还是设真值为,而为n次独立测量值,每次测量的误差为,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为
    到此为止,高斯的作法实际上与拉普拉斯相同,但在继续往下进行时,高斯提出了两个创新的想法。
    第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的作为的估计值,这也恰恰是他解决此问题采用的创新方法,即
     现在我们把L(θ)称为样本的似然函数,而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
    高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:
    然后高斯再去寻找相应的误差密度函数以迎合这一点。即寻找这样的概率分布函数,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中,唯一满足这个性质的就是(记为(11)式):
   
    而这恰巧是我们所熟知的正态分布的密度函数,就这样,误差的正态分布就被高斯给推导出来了!
    但,高斯是如何证明的呢?也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢?如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来的概率密度函数):
    进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有,则结合高斯的第一个创新方法:极大似然估计及上述的概率密度,(e1,⋯,en)的联合概率分布为
    要使得这个概率最大,必须使得取最小值,这正好就是最小二乘法的要求。
    高斯的这项工作对后世的影响极大,它使正态分布同时有了”高斯分布“的名称,不止如此,后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献,人们    采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线,借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明的进程影响最大。
    至此,咱们来总结下:
  1. 如你所见,相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。
  2. 但事情就完了么?没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性,故其中无论正反论点都必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由。
    也就是上面说到的高斯的第二点创新的想法他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。
    受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理应当有高斯分布(换言之,按中心极限定理来说,正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。
    至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

正态分布的时间简史

    至此,正态分布从首次出现到最终确立,其时间简史为:
  1. 1705年,伯努力的著作推测术问世,提出伯努利大数定律;
  2. 1730-1733年,棣莫弗从二项分布逼近得到正态密度函数,首次提出中心极限定理;
  3. 1780年,拉普拉斯建立中心极限定理的一般形成;
  4. 1805年,勒让德发明最小二乘法;
  5. 1809年,高斯引入正态误差理论,不但补充了最小二乘法,而且首次导出正态分布
  6. 1811年,拉普拉斯利用中心极限定理论证正态分布
  7. 1837年,海根提出元误差学说,自此之后,逐步正式确立误差服从正态分布
    如上所见,是先有的中心极限定理,而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证了正态分布),能了解这些历史,想想,都觉得是一件无比激动的事情。所以,我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理,而颠倒原有历史的发明演进过程。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询