逻辑斯谛回归&最大熵模型-CDA数据分析师官网

逻辑斯谛回归&最大熵模型

2018-02-21

逻辑斯谛回归&最大熵模型

逻辑斯谛回归和最大熵模型，从原理上看二者并不十分相关，不知是不是因为篇幅都相对较小，所以将这两部分内容放到一起。本文还是从原理、应用场景以及优缺点来做简要介绍。

1、逻辑斯谛回归

逻辑斯谛回归通过结合线性回归和Sigmod转换函数（f(x)=1/(1+exp(x))），将数值预测结果转换为不同类别的条件概率，取条件概率最大的类别为预测结果，从而实现样本的分类。

该模型可应用于各种分类场景。相比于其它分类算法，其最大的特点在于可以为预测的结果提供相应的概率值，即可以直观的分析每个样本分类结果的确信程度。

2、最大熵模型

最大熵模型是指：在所有满足约束条件的概率模型集合中，熵最大的模型是最好的；可以证明，在没有其它约束条件时，均匀分布模型是最大熵模型。

例如：P(A)+P(B)=1，按照最大熵模型得到P(A)=P(B)=0.5，也就是均匀分布。

可以从物理学的角度来理解该模型：根据热力学第二定理，如果没有外力干扰，系统的熵值是趋于不断增加的。由此，在没有其它额外参考信息的情况下，选择熵值最大的模型是最可靠的，因为没有外在动力时，宇宙本来就是趋于无序的。

延伸：和决策树模型的比对分析

粗看起来，上述模型似乎与在决策树中选用熵增最大的特征参量有点儿矛盾。因为熵增（即信息增益）最大，即意味着要得到熵最小的模型。

先明确一点：两个模型中关于熵的定义完全一样，均用来表征模型的有序程度。熵值越大，越是无序。但两个模型其实并不矛盾，理由如下：

1）二者应用的前提不同。对于最大熵模型而言，在所有满足约束条件的模型中，如果没有其他的参考信息，则选用熵最大的模型；而决策树模型中，由于提供了特征参量这样的额外参考信息，因此不能直接应用最大熵原理。

2）决策树并没有使用最小熵模型。我们都知道，完全生长决策树的熵是最小的，然而却常常不是最好的模型（容易“过拟合”），经过剪枝后的决策树反而能够反映真实数据分布。如果说树的分裂意味着熵的减小，则剪枝意味着熵的增加；这样看来，我们选择的其实是应用了所有已知信息之后熵较大的模型。

3、梯度下降和牛顿法

关键的，二者主要的不同在于：梯度下降采用平面去逼近最优解（要求函数一阶可导），牛顿法采用曲面去逼近（要求函数二阶可导），牛顿迭代法一般收敛的速度要快一些。

与梯度下降法（gradientdecend）对应的，还有梯度上升法（gradient boost）；它们的原理相同，梯度下降常用来求最小值，梯度上升用来求最大值。我们在处理分类问题时，常常将其转换为损失函数最小化的问题，因此梯度下降更为常用。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

决策树特征线性回归过拟合损失函数

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇利用python库计算person相关系数

下一篇Python用list或dict字段模式读取文件的方法

逻辑斯谛回归&最大熵模型

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...