R语言使用朴素贝叶斯分类算法-CDA数据分析师官网

R语言使用朴素贝叶斯分类算法

2018-01-15

朴素贝叶斯分类器也是一类基于概率的分类器，它源于贝叶斯理论，假设样本属性之间相互独立。
操作
利用朴素贝叶斯分类器对churn数据集进行分类：
导入e1071库，使用naiveBayes函数构建分类器
library(e1071)
classifier = naiveBayes(trainset[,!names(trainset) %in% c("churn")],trainset$churn)
classifier
Naive Bayes Classifier for Discrete Predictors

Call:
naiveBayes.default(x = trainset[, !names(trainset) %in% c("churn")],
    y = trainset$churn)

A-priori probabilities:
trainset$churn
      yes        no
0.1477322 0.8522678

Conditional probabilities:
              international_plan
trainset$churn          0          1
           yes 0.70467836 0.29532164
           no 0.93512418 0.06487582

              voice_mail_plan
trainset$churn         0         1
           yes 0.8333333 0.1666667
           no 0.7045109 0.2954891

              number_vmail_messages
trainset$churn     [,1]     [,2]
           yes 5.099415 11.80618
           no 8.674607 14.03670

              total_day_minutes
trainset$churn     [,1]     [,2]
           yes 205.8877 69.10294
           no 174.2555 50.16357

              total_day_calls
trainset$churn     [,1]     [,2]
           yes 101.0234 22.02903
           no 100.5509 19.67038

              total_day_charge
trainset$churn     [,1]      [,2]
           yes 35.00143 11.747587
           no 29.62402 8.527769

              total_eve_minutes
trainset$churn     [,1]     [,2]
           yes 213.7269 51.92206
           no 199.6197 50.53780

              total_eve_calls
trainset$churn     [,1]     [,2]
           yes 101.4123 19.48658
           no   99.9478 20.16161

              total_eve_charge
trainset$churn     [,1]     [,2]
           yes 18.16702 4.413058
           no 16.96789 4.295730

              total_night_minutes
trainset$churn     [,1]     [,2]
           yes 205.4640 47.11434
           no 201.4184 51.34049

              total_night_calls
trainset$churn     [,1]     [,2]
           yes 100.2573 20.32690
           no 100.0193 19.68094

              total_night_charge
trainset$churn     [,1]    [,2]
           yes 9.245994 2.12038
           no 9.063882 2.31040

              total_intl_minutes
trainset$churn     [,1]     [,2]
           yes 10.73684 2.752784
           no 10.15119 2.819086

              total_intl_calls
trainset$churn     [,1]     [,2]
           yes 4.134503 2.487395
           no 4.514445 2.394724

              total_intl_charge
trainset$churn     [,1]      [,2]
           yes 2.899386 0.7432760
           no 2.741343 0.7611755

              number_customer_service_calls
trainset$churn     [,1]     [,2]
           yes 2.204678 1.808803
           no 1.441460 1.150114

生成测试数据集分类表：

bayes.table = table(predict(classifier,testset[,!names(testset) %in% c("churn")]),testset$churn)
bayes.table

      yes no
yes 68 45
no   73 832

利用分类表生成混淆矩阵：
confusionMatrix(bayes.table)
Confusion Matrix and Statistics

      yes no
yes 68 45
no   73 832

               Accuracy : 0.8841
                 95% CI : (0.8628, 0.9031)
    No Information Rate : 0.8615
    P-Value [Acc > NIR] : 0.01880

                  Kappa : 0.4701
Mcnemar's Test P-Value : 0.01294

            Sensitivity : 0.4823
            Specificity : 0.9487
         Pos Pred Value : 0.6018
         Neg Pred Value : 0.9193
             Prevalence : 0.1385
         Detection Rate : 0.0668
   Detection Prevalence : 0.1110
      Balanced Accuracy : 0.7155

       'Positive' Class : yes
说明

朴素贝叶斯算法假设特征变量都是条件独立，即预测变量（x）对分类结果（c）的影响与其它变量对c的影响是相互独立的。
先验概率P(ωj)是由先验知识而获得的。
后验概率P(ωj|x)，即假设特征值x已知的条件下类别属于ωj的概率。朴素贝叶斯算法的优势在于其简单性，应用也比较直接，适合用训练数据集规格较小，有可能存在某些缺失与噪音的情况，预测值的概率计算比较简单，算法不足之处在于它假定的所有的特征变量之间相互独立，并且同等重要，这个前提在现实世界中很难成立。
本节使用e1071包中的朴素贝叶斯分类器构成分类模型，首先，我们假定在朴素贝叶斯函数中调用的所有变量（包括churn类标号)都是输入函数的第一输入参数，churn类标号为算法的第二输入参数。接下来，将分类模型指派给不同的变量分类。再输出分类器的相关信息，包括函数调用、先验概率以及条件概率等。我们也可以使用predict函数预测结果，并使用table函数得到测试数据集的分类表，最后，生成混淆矩阵计算分类模型。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

朴素贝叶斯特征先验概率混淆矩阵

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇R语言线性回归诊断

下一篇R语言使用逻辑回归分类算法

R语言使用朴素贝叶斯分类算法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...