热线电话:13121318867

登录
首页精彩阅读数据挖掘中所需的概率论与数理统计知识(十)
数据挖掘中所需的概率论与数理统计知识(十)
2014-11-29
收藏

数据挖掘中所需的概率论与数理统计知识(十)


正态分布和最大熵

    还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
    熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
    对于一个概率分布,我们定义它的熵为
    如果给定一个分布函数的均值和方差(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布就是正态分布
    这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
    考虑两个概率分布,使用不等式,得
    于是
      (读者注意:经好友白石指正,上述等式,右边的第一项p(x)之后,1/p(x) 之前少画了个log符号
    所以

    熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取
    对于,在给定的均值和方差下,我们取,则可以得到
    由于的均值方差有如下限制:,于是
    而当的时候,上式可以取到等号,这就证明了结论。

    E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询