简单的认识R语言和逻辑斯蒂回归-CDA数据分析师官网

简单的认识R语言和逻辑斯蒂回归

2017-02-15

简单的认识R语言和逻辑斯蒂回归

在生活中并不是所有的问题都要预测一个连续型的数值，比如药剂量，某人薪水，或者客户价值；逻辑斯蒂回归回归它主要用于只有两个结果的分类问题，它定义结果的变量只有两类的值，然后根据线性模型来预测归属类的概率；本文可能写的浅显，如果有错还望能指出来，因为只是写了普及问而已； logistic回归

假设有一个变量它一共只有两类值，现在我们需要估计出A属于这两个类别的概率，假设他的线性模型是这样的一个形式；

然而在上面的式子中Y值的分布不是固定的，因为我们都知道概率只能是0-1之间，所以我们必须要变换一下式子，让Y的值和概率一样必须是0~1的数值，一个有效的办法就是用一个连接函数也有人称之为联系函数，它大概的作用就是就是将Y变换后成为服从正态分布的变量；这样就可以对A进行估计了，这就是logtistic思想；

在logistic回归中，预测变量和概率之间的关系可以通过Logistic函数表示

然后通过一系列的logit变换后就成为下面的式子，感兴趣的可以查阅一下资料，这里就不写详细的步骤：

这里我们用 R语言核心技术手册里面的一系列代码和数据来说明逻辑斯蒂回归；

首先是我们先载入相应的包和数据，这个数据是关于足球射门命中的数据，对于球员来说每次射门都是由一定的概率进球，这个概率与距离有关，离球门越近越可能进球；

library(nutshell)

data("field.goals")

这时候我们先用summary()这个函数观察一下数据的分布

粗劣解读一下数据，进球的距离最近是18码，最远是62码；

我们下列函数是创建进球与否的份二分类变量

field.goals.forlr <- transform(field.goals,good=as.factor(ifelse(play.type=="FG good","good","bad")))

这时候我们在用summary()这个函数观察一下射门数据的分布

大部分都是进球的，那么我们继续进行数据探究，让我们看看根据距离计算一下进球比例

field.goals.table <- table(field.goals.forlr$good,field.goals.forlr$yards)

field.goals.table

得到的结果如下

当然我们也可以画图出来看

plot(colnames(field.goals.table),field.goals.table["good",]/(field.goals.table["bad",]+field.goals.table["good",]))

请各位自动忽略我的没给XY命名，人比较懒

从上图的结果上看进球的百分比在随着距离发生变化

这时候我们使用glm函数建模对数据进行建模，因为在测试数据中是每一次的射门都是独立的，因此我们可以认为是贝努力实验，因此我们在GLM函数中使用family='binomial',因此我们需要执行R代码如下

并打印结果；

field.goals.mdl <- glm(good~yards,data=field.goals.forlr,family = "binomial")

summary(field.goals.mdl)

下面是一些结果的解读

NULL deviance 是指仅包括截距项、不包括解释变量的模型和饱和模型比较得到的偏差统计量的值

residual deviance 是指既包括截距项，又包括解释变量的模型和饱和模型比较得到的偏差统计量的值

如变量的值不止两类的情况，可以使用其他的函数multinom函数预测概率；今天我们就讲到这里；有兴趣的可以和我一起交流

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

偏差 R语言正态分布客户价值

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

简单的认识R语言和逻辑斯蒂回归

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...