logistic回归和probit回归预测公司被ST的概率
1.适合阅读人群:
知道以下知识点:盒状图、假设检验、逻辑回归的理论、probit的理论、看过回归分析,了解AIC和BIC判别准则、能自己跑R语言程序
2.本文目的:用R语言演示一个相对完整的逻辑回归和probit回归建模过程,同时让自己复习一遍在学校时学的知识,记载下来,以后经常翻阅。
3.本文不涉及的部分:
(1)逻辑回归和probit回归参数估计的公式推导,在下一篇写;
(2)由ROC曲线带来的阈值选择,在下下一篇写;
(3)本文用的数据取自王汉生老师《应用商务统计分析》第四章里的数据,直接描述性分析和建模,没有涉及到数据预处理。
4.废话少说,上程序:
#适合人群:知道以下知识点:盒状图、假设检验、逻辑回归的理论、probit的理论、看过回归分析,了解AIC和BIC判别准则、能读R语言程序
1.#########读入数据##############
a=read.csv("C:/Users/Thinkpad/Desktop/ST.csv",header=T)
a1=a[a$year==1999,-1] #训练集
a2=a[a$year==2000,-1] #测试集
a1[c(1:5),]
2.####初步描述性分析######
boxplot(ARA~ST,data=a1,main="ARA") #画出各变量与ST的盒状图,初步查看因变量单独和各个解释性变量的关系
par(mfrow=c(3,2)) #只是初步的描述性分析,没有控制其他因素的影响,没有经过严格的统计检验
boxplot(ASSET~ST,data=a1,main="ASSET")
boxplot(ATO~ST,data=a1,main="ATO")
boxplot(GROWTH~ST,data=a1,main="GROWTH")
boxplot(LEV~ST,data=a1,main="LEV")
boxplot(ROA~ST,data=a1,main="ROA")
boxplot(SHARE~ST,data=a1,main="SHARE")
par(mfrow=c(1,1))
glm0.a=glm(ST~1,family=binomial(link=logit),data=a1) ####逻辑回归时:计算模型的整体显著性水平#####
glm1.a=glm(ST~ARA+ASSET+ATO+GROWTH+LEV+ROA+SHARE, #结果为7.4e-05,说明模型整体高度显著,也就是说所考虑的7个解释性变量中,至少有一个与因变量有关,具体哪一个不知道
family=binomial(link=logit),data=a1)
anova(glm0.a,glm1.a)
1-pchisq(30.565,7)
glm0.b=glm(ST~1,family=binomial(link=probit),data=a1) ####probit回归时:计算模型的整体显著性水平#####
glm1.b=glm(ST~ARA+ASSET+ATO+GROWTH+LEV+ROA+SHARE, #和逻辑回归结果一样,显著
family=binomial(link=probit),data=a1)
anova(glm0.b,glm1.b)
1-pchisq(31.702,7)
####看看是哪个自变量对因变量有影响#####
Anova(glm1.a,type="III") #对模型glm1.a做三型方差分析
summary(glm1.a)
Anova(glm1.b,type="III") #对模型glm1.b做三型方差分析
summary(glm1.b)
3.#######模型选择时要解决的问题:(1)选哪个模型;(2)选哪个阈值。
#######其中选6个中的哪个模型用ROC曲线确定(里面涉及到两个指标:TPR,FPR。至于为什么选择用这两个指标来衡量模型的好坏,请往下看,下面会解释,别着急),选择ROC曲线最上面的那条线所对应的模型。
#######模型确定之后,选取阈值可以根据ROC曲线和实际业务确定。(这里还需要查资料,至于什么ROC曲线,别急,继续向下看)
#######6个模型:逻辑回归的全模型,逻辑回归的AIC模型,逻辑回归的BIC模型,probit回归的全模型,probit回归的AIC模型,probit回归的BIC模型,
#我们先随便选两个模型感受一个AIC和BIC值
AIC(glm0.a) #计算逻辑回归方法时,空模型glm0.a的AIC取值
AIC(glm1.a) #计算逻辑回归方法时,全模型glm1.a的AIC取值
AIC(glm0.a,k=log(length(a1[,1]))) #计算逻辑回归方法时,空模型glm0.a的BIC取值
AIC(glm1.a,k=log(length(a1[,1]))) #计算逻辑回归方法时,全模型glm1.a的BIC取值
#上面只是比较了两个模型的AIC值,BIC值,我们有7个解释变量,一共会有128个不同模型,理论上说需要对这128个模型逐一研究,并选择最有模型,在R中
#我们可以自动的、尽量多的根据AIC搜索最优模型
logit.aic=step(glm1.a,trace=0) #根据AIC准则选择逻辑回归最优模型
summary(logit.aic)
n=length(a1[,1]) #根据BIC准则选择逻辑回归最优模型###
logit.bic=step(glm1.a,k=log(n),trace=0)
summary(logit.bic)
#上面AIC和BIC的结果有点差别,可以理解为AIC三个结果都很重要,而其中的ARA极其重要,BIC选择的模型更简单
#AIC选择的模型的预测精度似乎更好,我们老师当时也说要用AIC准则选模型
probit.aic=step(glm1.b,trace=0) #根据AIC准则选择probit回归最优模型,并赋值给probit.aic
summary(probit.aic)
probit.bic=step(glm1.b,k=log(n),trace=0) #根据bIC准则选择probit回归最优模型,并赋值给probit.bic
summary(probit.bic)
##############画出6个模型的ROC曲线来确定最终选哪一个模型################
p=matrix(0,length(a2[,1]),6) #生成矩阵,用于存储各模型的预测值
p[,1]=predict(glm1.a,a2)
p[,2]=predict(logit.aic,a2)
p[,3]=predict(logit.bic,a2)
p[,c(1:3)]=exp(p[,c(1:3)])/(1+exp(p[,c(1:3)])) #计算预测得到的概率
p[,4]=predict(glm1.b,a2)
p[,5]=predict(probit.aic,a2)
p[,6]=predict(probit.bic,a2)
p[,c(4:6)]=pnorm(p[,c(4:6)]) #计算预测得到的概率
plot(c(0,1),c(0,1),type="l",main="FPR vs. TPR",xlab="FPR",ylab="TPR") #画图,生成基本框架
FPR=rep(0,ngrids)
TPR=rep(0,ngrids)
for(k in 1:6){
prob=p[,k] #取出p中第K列的值,即第K个模型的预测概率
for(i in 1:ngrids){
p0=i/ngrids #选取阈值
ST.hat=1*(prob>p0) #根据阈值生成预测值
FPR[i]=sum((1-ST.true)*ST.hat)/sum(1-ST.true)
TPR[i]=sum(ST.true*ST.hat)/sum(ST.true)
}
points(FPR,TPR,type="b",col=k,lty=k,pch=k) #向图上添加第k个模型的TPR与FPR的散点图
}
legend(0.6,0.5,c("LOGIT FULL MODEL","LOGIT AIC MODEL",
"LOGIT BIC MODEL","PROBIT FULL MODEL","PROBIT AIC MODEL",
"PROBIT BIC MODEL"),lty=c(1:6),col=c(1:6),pch=c(1:6))
4.#########预测与评估,由ROC曲线,我们这里选择基于AIC准则的逻辑回归模型,阈值选择0.05,这块的选择还需要再查阅资料确定###########
p=predict(logit.aic,a2)
p=exp(p)/(1+exp(p))
a2$ST.pred=1*(p>0.05)
table(a2[,c(8,9)])
####对于每个个体,最终的预测结果为
a2$ST.pred
####TPR=59.57%,FPR=23.89%
TPR=28/(28+19)
FPR=167/(532+167)
#####################有一定基础的到这里就可以结束啦,感兴趣的还可以向下看##########################
##########下面我们随便选几个模型,来解释下为什么要使用TPR和FPR这两个指标衡量模型的精度,然后画出ROC曲线,提供逻辑回归全模型时,在众多不同的FPR下的TPR取值######################################
summary(glm1.a)
p=predict(glm1.a,a2) #利用逻辑回归的全模型glm1.a对数据a2进行预测
p=exp(p)/(1+exp(p)) #计算预测得到的概率
a2$ST.pred=1*(p>0.5) #以0.5为阈值生成预测值
table(a2[,c(8,9)])
###从结果看来,预测精度699/746=93.7%,没有正确预测一家ST公司
#####说明不能用总体精度来衡量预测的好坏,我们有可能犯两类错误:(1)把真实的ST公司预测为0;(2)把真实的非ST公司预测为1。由于我们关心的是找出那些ST公司
#####,可以通过下面两个指标来度量上面两种错误
#####TPR:把真实的ST公司正确地预测为ST=1的概率;
#####FPR:把真实的非ST公司错误地预测为ST=1的概率
#####上面预测TPR=0(很糟糕),FPR=0(非常好),下面我们把阈值改为0试试结果
a2$ST.pred=1*(p>0) #以0为阈值生成预测值,TPR=100%(非常好),FPR=100%(很糟糕)
table(a2[,c(8,9)])
######由结果可知这两个指标的取值是鱼和熊掌不可兼得
a2$ST.pred=1*(p>0.05) #以0.05为阈值生成预测值
table(a2[,c(8,9)]) #计算预测值与真实值的2维频数表
######上面一直说了ROC曲线,这里开始解释ROC曲线是何方神圣,上面说了FPR和TPR是鱼和熊掌不可兼得,那么现在我们便以FPR为横坐标,TPR为纵坐标,画出他们的曲线,看看他们究竟是什么关系,而这个曲线的名字就是ROC曲线
#########下面为了得到全面的分析,我们写了循环,以逻辑回归的全模型为例,提供在众多不同的FPR下的TPR取值
ngrids=100
TPR=rep(0,ngrids)
FPR=rep(0,ngrids)
p0=rep(0,ngrids)
for(i in 1:ngrids){
p0[i]=i/ngrids; #选取阈值p0
ST.true=a2$ST
ST.pred=1*(p>p0[i])
TPR[i]=sum(ST.pred*ST.true)/sum(ST.true)
FPR[i]=sum(ST.pred*(1-ST.true))/sum(1-ST.true)
}
plot(FPR,TPR,type="l",col=2) #画出FPR与TPR的散点图,即ROC曲线
points(c(0,1),c(0,1),type="l",lty=2) #添加对角线
5.结果:
图1 箱形图:用来观察哪个变量对因变量有影响
图2 ROC曲线:为了确定选择哪个模型以及作为阈值选择的初步参考
图3 预测结果:1:ST了,0:未被ST
图4 预测模型的精度
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13