机器学习实现与分析之五（高斯判别分析）-CDA数据分析师官网

机器学习实现与分析之五（高斯判别分析）

2017-03-15

机器学习实现与分析之五（高斯判别分析）

高斯判别分析（GDA）简介

首先，高斯判别分析的作用也是用于分类。对于两类样本，其服从伯努利分布，而对每个类中的样本，假定都服从高斯分布，则有:

这样，根据训练样本，估计出先验概率以及高斯分布的均值和协方差矩阵（注意这里两类内部高斯分布的协方差矩阵相同），即可通过如下贝叶斯公式求出一个新样本分别属于两类的概率，进而可实现对该样本的分类。

GDA详细推导

那么高斯判别分析的核心工作就是估计上述未知量ϕ,μ0,μ1,Σϕ,μ0,μ1,Σ。如何来估计这些参数？又该最大似然估计上场了。其对数似然函数为：

注意此函数第一部分只和μ0,Σμ0,Σ有关，第二部分只和μ1,Σμ1,Σ有关，最后一部分只和ϕϕ有关。最大化该函数，首先求ϕϕ,先对其求偏导数：

此处II为指示函数。令其为0，可求解出：

同样地，对μ0μ0求偏导数：

令其为0，可求解得：

根据对称性可直接得出：

下面对ΣΣ求偏导数，由于似然函数只有前面两部分与ΣΣ有关，则将前两部分改写如下：

进而有：

这里推导用到了：

令其为0，从而求得：

上面的推导似乎很复杂，但其结果却是非常简洁。通过上述公式，所有的参数都已经估计出来，需要判断一个新样本x时，可分别使用贝叶斯求出p(y=0|x)和p(y=1|x)，取概率更大的那个类。

实际计算时，我们只需要比大小，那么贝叶斯公式中分母项可以不计算，由于2个高斯函数协方差矩阵相同，则高斯分布前面那相同部分也可以忽略。实际上，GDA算法也是一个线性分类器，根据上面推导可以知道，GDA的分界线(面)的方程为：

取对数展开后化解，可得：

若，则

这就是GDA算法的线性分界面。

GDA实现

这里也采用前面讲逻辑回归生成的数据来进行实验，直接load进来进行处理，详见逻辑回归。GDA训练代码如下：

View Code

测试代码：

View Code

训练结果如下，训练样本中，正负样本均为100个，故ϕ=0.5：

改变正负样本数量，即相当于改变先验概率，则实验结果如下(相应的ϕϕ的值显示在图像标题)：

算法分析

1.与逻辑回归的关系

根据上面的结果以及贝叶斯公式，可有

而

那么,令

则

这不就是逻辑回归的形式么？

在推导逻辑回归的时候，我们并没有假设类内样本是服从高斯分布的，因而GDA只是逻辑回归的一个特例，其建立在更强的假设条。故两者效果比较：

a.逻辑回归是基于弱假设推导的，则其效果更稳定，适用范围更广

b.数据服从高斯分布时，GDA效果更好

c.当训练样本数很大时，根据中心极限定理，数据将无限逼近于高斯分布，则此时GDA的表现效果会非常好

2.为何要假设两类内部高斯分布的协方差矩阵相同？

从直观上讲，假设两个类的高斯分布协方差矩阵不同，会更加合理（在混合高斯模型中就是如此假设的），而且可推导出类似上面简洁的结果。

假定两个类有相同协方差矩阵，分析具有以下几点影响：

A．当样本不充分时，使用不同协方差矩阵会导致算法稳定性不够；过少的样本甚至导致协方差矩阵不可逆，那么GDA算法就没法进行

B．使用不同协方差矩阵，最终GDA的分界面不是线性的，同样也推导不出GDA的逻辑回归形式

3.使用GDA时对训练样本有何要求？

首先，正负样本数的比例需要符合其先验概率。若是预先明确知道两类的先验概率，那么可使用此概率来代替GDA计算的先验概率；若是完全不知道，则可以公平地认为先验概率为　　50%。

其次，样本数必须不小于样本特征维数，否则会导致协方差矩阵不可逆，按照前面分析应该是多多益善。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

逻辑回归先验概率特征机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

机器学习实现与分析之五（高斯判别分析）

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...