R语言使用逻辑回归分类算法-CDA数据分析师官网

R语言使用逻辑回归分类算法

2018-05-31

逻辑回归属于概率统计的分类算法模型的算法，是根据一个或者多个特征进行类别标号预测。在R语言中可以通过调用logit函数执行逻辑回归分类算法并预测输出概率。通过调用glm函数将family参数也就是响应分布指定为binominal（二项式），就是使用逻辑回归算法。

操作
同进述内容一样准备好训练数据集与测试数据集。
fit = glm(churn ~ .,data = trainset,family = binomial)
summary(fit)
Call:
glm(formula = churn ~ ., family = binomial, data = trainset)

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-3.1519   0.1983   0.3460   0.5186   2.1284

Coefficients:
                                Estimate Std. Error z value Pr(>|z|)
(Intercept)                    8.3462866 0.8364914   9.978 < 2e-16 ***
international_plan1           -2.0534243 0.1726694 -11.892 < 2e-16 ***
voice_mail_plan1               1.3445887 0.6618905   2.031 0.042211 *
number_vmail_messages         -0.0155101 0.0209220 -0.741 0.458496
total_day_minutes              0.2398946 3.9168466   0.061 0.951163
total_day_calls               -0.0014003 0.0032769 -0.427 0.669141
total_day_charge              -1.4855284 23.0402950 -0.064 0.948592
total_eve_minutes              0.3600678 1.9349825   0.186 0.852379
total_eve_calls               -0.0028484 0.0033061 -0.862 0.388928
total_eve_charge              -4.3204432 22.7644698 -0.190 0.849475
total_night_minutes            0.4431210 1.0478105   0.423 0.672367
total_night_calls              0.0003978 0.0033188   0.120 0.904588
total_night_charge            -9.9162795 23.2836376 -0.426 0.670188
total_intl_minutes             0.4587114 6.3524560   0.072 0.942435
total_intl_calls               0.1065264 0.0304318   3.500 0.000464 ***
total_intl_charge             -2.0803428 23.5262100 -0.088 0.929538
number_customer_service_calls -0.5109077 0.0476289 -10.727 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1938.8 on 2314 degrees of freedom
Residual deviance: 1515.3 on 2298 degrees of freedom
AIC: 1549.3

Number of Fisher Scoring iterations: 6

找到分类模型中包含的可能导致错误分类的非显著变量，仅使用显著的变量来训练分类模型。

fit = glm(churn ~ international_plan + voice_mail_plan + number_customer_service_calls,data = trainset,family = binomial)
summary(fit)

Call:
glm(formula = churn ~ international_plan + voice_mail_plan +
    number_customer_service_calls, family = binomial, data = trainset)

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-2.6485   0.3067   0.4500   0.5542   1.6509

Coefficients:
                              Estimate Std. Error z value Pr(>|z|)
(Intercept)                    2.68272    0.12064 22.237 < 2e-16 ***
international_plan1           -1.97626    0.15998 -12.353 < 2e-16 ***
voice_mail_plan1               0.79423    0.16352   4.857 1.19e-06 ***
number_customer_service_calls -0.44341    0.04445 -9.975 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1938.8 on 2314 degrees of freedom
Residual deviance: 1678.5 on 2311 degrees of freedom
AIC: 1686.5

Number of Fisher Scoring iterations: 5
调用fit使用一个内置模型来预测testset数据集的输出，可以通过调整概率是否高于0.5来改变类别标记的输出结果。
#这是选择预测之后的输出结果，这个参数能用在binomial数据，也就是响应变量是二分型的时候，这个参数选成type＝response，表示输出结果预测响应变量为1的概率。
pred = predict(fit,testset,type = "response")
#将ped中概率大于0.5的设置TRUE,代表为“no”,没有流失客户，1
#将ped中概率小于0.5的设置FALSE,代表为“yes”,有流失
客户，0
Class = pred > 0.5
summary(Class)
   Mode   FALSE    TRUE
logical      28     990

对测试数据集的分类和预测结果进行统计分析计数：

tb = table(testset$churn,Class)
> tb
     Class
      FALSE TRUE
yes    15 126
no     13 864
将上一步骤的统计结果用分类形式表输出，并生成混淆矩阵

churn.mod = ifelse(testset$churn == "yes",1,0)
> churn.mod
   [1] 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0
[44] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0
[87] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0
[130] 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0
[173] 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
[216] 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0
[259] 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 1 0
[302] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0
[345] 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
[388] 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0
[431] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
[474] 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0
[517] 0 0 0 0 0 0 0 0 1 0 1 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0
[560] 0 0 0 0 0 0 0 1 0 1 0 1 1 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1
[603] 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0
[646] 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0
[689] 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0
[732] 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
[775] 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
[818] 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
[861] 1 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[904] 0 0 1 1 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1
[947] 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0
[990] 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0

将Class转化成numeric

ABC = as.numeric(Class)
ABC与churn.mod 中0，1代表的意思相反，将ABC进行数值取反

BC = 1 - ABC
计算混淆矩阵

confusionMatrix(churn.mod,BC)
Confusion Matrix and Statistics

          Reference
Prediction   0   1
         0 864 13
         1 126 15

               Accuracy : 0.8635
                 95% CI : (0.8408, 0.884)
    No Information Rate : 0.9725
    P-Value [Acc > NIR] : 1

                  Kappa : 0.138
Mcnemar's Test P-Value : <2e-16

            Sensitivity : 0.8727
            Specificity : 0.5357
         Pos Pred Value : 0.9852
         Neg Pred Value : 0.1064
             Prevalence : 0.9725
         Detection Rate : 0.8487
   Detection Prevalence : 0.8615
      Balanced Accuracy : 0.7042

       'Positive' Class : 0

逻辑回归算法和线性回归非常相似，两者区别是在于线性回归算法中的变量是连续变量，而逻辑回归响应变量是二分类的变量（名义变量），使用逻辑回归算法主要目的是利用logit模型去预测和测量变量相关的名义变量的概率。逻辑回归公式：ln(P/(1-P)),P为某事情发生的概率。

逻辑回归的算法的优势是在于算法易于理解，能够直接输出预测模型的逻辑概率逻辑值以及结果的置信区间，与决策树难以更新模型不同，逻辑回归算法能够迅速在逻辑回归算法中合并新的数据，更新分类模型，逻辑回归算法的不足是无法处理多重共线性问题，因此解决变量必须线性无关。glm提供了一个通用的线性回归模型，可以通过设置family参数得到，当为binomial回归时，可以实现二元分类。

调用fit函数预测测试数据集testset的类别响应变量，fit函数能够输出类标号的概率，如果概率值小于等于0.5,意味预测得出的类标号与测试数据集的实际类标号不相符，如果大于0.5则说明两者是一致的，进一步调用summsary函数来得到预测的模型。最后进行计数统计与混淆矩阵。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

逻辑回归线性回归混淆矩阵 R语言二分类决策树特征统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

R语言使用逻辑回归分类算法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...