信息的基本作用就是减少人们对事物的不确定性,或者是增加对事物的确定性。
不确定性函数f是概率P的减函数
P增加——>不确定性 减少——>信息熵减少——>信息增益为正。
p越大,不确定性越小,信息(惊奇度)越少
信息=惊奇度
信息增益:熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度。
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
我们如何来衡量信息量的多少呢? 我们用信息熵来横向信息中包含的信息量的多少。
Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,信息熵简称为熵。
我们用一个随机变量来举例进行信息熵的概念。
比如我们有一个随机变量Y,Y只可能取两个值,我们把这两个取值称为两个事件,分别是事件1和事件2,在不给任何条件的情况下,Y取1的概率为P1=0.6,Y取2的概率为P2=0.4。
我们认为变量Y的不确定性可以用如下熵公式来衡量:
两个独立符号所产生的不确定性应等于各自不确定性之和
熵函数:
注:这里的log是以2为底的。
p越大,f(P)越小,f是P的减函数
熵函数f(P)的名字叫不确定性函数,它是关于P的减函数
事件1的不确定性是 -log0.6
事件2的不确定性是 -log0.4
随机变量Y的不确定性
=H(Y)
=事件1发生的概率*事件1的不确定性+事件2发生的概率*事件2的不确定性
=p1*(-log0.6)+p2*(-log0.4)
=0.9709505944546686
然后我们考虑两种比较极端的情况
1.如果事件1发生的概率为0.5,事件2发生的概率为0.5,则H(Y)=1
2.如果事件1发生的概率为1,事件2发生的概率为0,则H(Y)=0
接下来介绍一下信息增益
信息增益:熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度。
通俗地讲,Y(明天是否下雨)是一个随机变量,Y的熵可以算出来, X(明天是否阴天)也是随机变量,在给定X情况下Y的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。
Y的熵减去X条件下Y的熵,就是信息增益。
用具体的数值来举例说明,原本明天是否下雨的信息熵是0.9,给定X之后的条件熵是0.3,这样相减后为0.6。在获得X这个信息后,下雨信息不确定性减少了0.6,不确定减少了很多,所以信息增益大。也就是说,是否阴天这个信息对明天是否下雨这一推断来说非常重要。
所以在特征选择的时候常常用信息增益(IG),如果信息增益大的话,那么这个特征对于分类来说很重要,决策树就是这样来找特征的。
暂无数据