R语言主成分分析
解决自变量之间的多重共线性和减少变量个数
根据主成分分析的原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法;另一方面。主成分分析可以用较少的变量取代较多的不独立的原变量,减少分析中变量的个数。概括地说,主成分分析有以下几方面的应用。
I.相关R函数以及实例
主成分分析相关的R函数:
prinpomp() 作主成分分析最重要的函数
summary() 提取主成分的信息
loadings() 显示主成分分析或因子分析中的loadings(载荷),在这里是主成分对应的各列
predict() 预测主成分的值
screeplot() 画出主成分的碎石图
biplot() 画出数据关于主成分的散点图和原坐标在主成分下的方向
例1. 肝病患者功能指标的主成分分析:
某医学院测得20例肝病患者的4项肝功能指标:SGPT(转氨酶)、肝大指数、ZnT(硫酸锌浊度)和AFP(胎甲球蛋白),分别用X1-X4表示,研究数据见以下程序,试进行主成分分析
#从sas导出数据存为csv格式,输入数据
princomp1 <- read.csv("princomp1.csv",header=T)
#生成相关矩阵 p513
cor(princomp1)
#作主成分分析
princomp1.pr <- princomp(princomp1,cor = TRUE)
#或者用 princomp1.pr <- princomp(~X1+X2+X3+X4,data=princomp1,cor=TRUE)
#显示分析结果,loadings(载荷)
summary(princomp1.pr,loadings = TRUE)
##predict(princomp1.pr),显示各样本的主成分的值,数据太多不显示
#画出主成分的碎石图,主成分特征值的大小构成的陡坡图
screeplot(princomp1.pr,type = "lines")
#画出数据关于前两个主成分的散点图和原坐标在主成分下的方向(比如,倾向第一主成分,可选择4、9、8等编号。箭头代表xi在主成分下的方向)
biplot(princomp1.pr)
summary()列出结果的重要信息,Standard deviation行表示的是主成分的标准差,也就是特征值λ1,λ2,λ3,λ4的开方
Proportion of Variance行表示的是方差的贡献率
Cumulative Proportion行表示的是方差的累计贡献率
前两个特征值均大于1,第3个接近于1,第4个远小于1。特征值越大,它所对应的主成分变量包含的信息就越多,第1-4个主成分的贡献率分别为42.95%、27.33%、24.53%、5.17%,前3个主成分就包含了原来4个指标的94.82的信息,即能够解释94.82%的方差。因此,确定主成分的个数为3比较合理
loadings=TRUE,则结果列出了loadings(载荷)的内容,它实际上是主成分对于原始变量X1,X2,X3,X4的系数。也是特征值对应的特征向量,它们是线性无关的单位向量。第1列表示第1主成分z1的得分系数,依次类推。据此可以写出由标准化变量所表达的各主成分的关系式,即:
Z1 = 0.700X1 +0.690X2 +0.163X4
Z2、Z3、Z4同上
由碎石图可以看出 第二个主成分之后 图线变化趋于平稳 因此可以选择前两个主成分做分析
在各主成分的表达式中,各标准化指标Xi前面的系数与该主成分所对应的特征值之平方根的乘积是该主成分与该指标之间的相关系数。系数的绝对值越大,说明该主成分受该指标的影响也越大。因此,决定第1主成分Z1大小的主要为X1和X2,即SGPT和肝大指数;决定第2主成分Z2大小的主要为X3,即ZnT;决定第3主成分Z3大小的主要为X4,即AFP;决定第4主成分大小的主要为X1和X2,但作用相反。这提示:Z1指向急性炎症;Z2指向慢性炎症;Z3指向原发性肝癌可疑;Z4贡献率很小,仅作参考,它可能指向其他肝病。
II.主成分分析的应用
除了减少自变量的个数外,主成分分析可以用来解决自变量共线性的问题。线性回归分析要求自变量是相互独立的,但是在实际应用中,经常会遇到自变量相关的问题。这时,一个好的可行的方法就是借助于主成分分析,用主成分回归来求回归系数。即先用主成分分析法计算出主成分表达式和主成分得分变量,而主成分得分变量相互独立,因此可以将因变量对主成分得分变量回归,然后将主成分的表达式代回回归模型中,即可得到标准化自变量与因变量的回归模型,最后将标准化自变量转为原始自变量。
例2. 影响女大学生肺活量因素的多元回归分析
某学校20名一年级大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如下表所示,试对影响女大学生肺活量的有关因素作多元回归分析
1) 模型共线性诊断
princomp2 <- read.csv("princomp2.csv",header=T)
#作线性回归
lm.sol<-lm(y~x1+x2+x3, data=princomp2)
summary(lm.sol)
由summary结果,按三个变量得到回归方程: Y=-4.71 + 0.06X1 +0.036X2 +0.049X3
从参数估计值t检验的结果可以看出:变量x1和x2的参数估计值显著性均<0.05,说明参数估计值与0有显著的区别,而x3的参数估计值与0无显著的区别。
共线性诊断
#共线性诊断
#利用kappa函数,计算自变量矩阵的条件数;从实际经验的角度,一般若条件数<100,则认为多重共线性的程度很小,若100<=条件数<=1000,则认为存在中等程度的多重共线性,若条件数>1000,则认为存在严重的多重共线性.
x <- cor(princomp2)
kappa(x, exact=T)
#可以计算X矩阵的秩qr(X)$rank,如果不是满秩的,说明其中有Xi可以用其他的X的线性组合表示
qr(princomp2)$rank
#相关系数矩阵
cor(princomp2[,-c(0,4)])
#特征根法。根据矩阵性质,矩阵的行列式等于其特征根的连乘积。因而当行列式|X′X|→0,矩阵X′X至少有一个特征根近似等于零。说明解释变量之间存在多重共线性。
#输出的内容分别为特征值和相对应的特征向量,矩阵中的每一列都为特征向量。
x <- cbind(rep(1,length(princomp2[,1])),princomp2[,-c(0,4)])
x <- as.matrix(x) #以1,x1,x2,x3为四列的矩阵
eigen(t(x)%*%x) #x的转置*x 的特征向量
#条件指数法(Conditional Index,CI)。条件指数CI=(λmax/λmin)0.5,其中λmax,λmin分别是矩阵XX′的最大和最小特征根。条件指数度量了矩阵XX′的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。一般认为,当0<CI<10 时,X 没有多重共线性;当10<CI<100 时, X存在较强的多重共线性;当CI>100 时,存在严重的多重共线性。
#条件判别法,计算的条件指数值
CI <- eigen(t(x)%*%x)$values[1]/eigen(t(x)%*%x)$value[3] #value指eigen()函数的特征值value的第一个值
CI
#方差膨胀因子(Variance Inflation Factors,VIF)。自变量j X 的方差扩大因子VIFj=Cjj=1/(1-Rj2),j=1,2,…p,其中C j j为(X ' X)???1中第 j个对角元素, R j 2为Xj为因变量,其余 p ???1个自变量为自变量的回归可决系数,也即复相关系数。
#方差膨胀因子法.若变量膨胀因子都很大,则表明存在严重的多重共线性
library(car)
vif(lm.sol)
观察特征向量,x2和x3出现0.91981490和0.999931723,这个结果接近1。如果一个模型中同时包含这两个变量,得到的结果就会很不稳定,甚至产生误导
2) 对原始变量主成分分析
#基本统计量,包括mean,sd,相关系数矩阵,相关系数矩阵的特征值特征向量
mean <- c( mean(princomp2$x1),mean(princomp2$x2),mean(princomp2$x3))
sd <- c(sd(princomp2$x1),sd(princomp2$x2),sd(princomp2$x3))
rbind(mean,sd)
cor(princomp2[,-c(0,4)]) #相关系数矩阵,设置[]就只取x1,x2,x3三列,不取y
eigen(cor(princomp2[,-c(0,4)])) #求princomp2[]的特征值和特征向量
#作主成分分析
princomp2.pr<-princomp(~x1+x2+x3, data=princomp2, cor=T)
summary(princomp2.pr, loadings=TRUE)
#predict(princomp2.pr) 各样本的主成分的值,结果篇幅太长,略
从特征值和解释比例来看,第一主成分和第二主成分的特征值很大,能够解释的因变量变动已经达到0.8827,因此,我们可以选择前两个主成分来表示3个指标的信息。用原始变量表达前两个主成分的式子如下:
Z1=-0.585003X1-0.447445X2-0.676435X3
Z2=0.55658X1-0.828133X2+0.066442X3
其中Xi为标准指标变量,Xi = (xi-x均)/si, i=1,2,3
3) 对主成分得分变量进行回归分析
# 预测样本主成分, 并作主成分分析
pre<-predict(princomp2.pr)
princomp2$z1<-pre[,1]
princomp2$z2<-pre[,2]
princomp2$z3<-pre[,3]
lm.sol<-lm(y~z1+z2+z3, data=princomp2)
summary(lm.sol)
#write.csv(princomp2,"princomp2_test.csv")
模型检验的结果F值为21.23,显著性P<0.001,拒绝原假设,说明主成分得分变量z1和z2均与因变量y具有显著的相关关系
截距项和β1的t检验显著性p值均<0.0001,说明主成分z1与y显著相关,而β2的显著性没有意义(p=0.942),则因变量y在主成分上的线性回归方程式:
Y=2.76300-0.309737 * z1
=2.76300-0.309737 * (-0.585003 * X1-0.447445 * X2-0.676435 * X3)
=2.76300 + 0.1811971 * X1 +0.1385903 * X2 + 0.2095169 * X3
#以x1,x2,x3为三列组成的矩阵A
A <- cbind(princomp2$x1,princomp2$x2,princomp2$x3)
#取x1,x2,x3和X1,X2,X3
x1 <- A[,1]
x2 <- A[,2]
x3 <- A[,3]
X1 <- (x1 - mean(princomp2$x1)) / sd(princomp2$x1)
X2 <- (x2 - mean(princomp2$x2)) / sd(princomp2$x2)
X3 <- (x3 - mean(princomp2$x3)) / sd(princomp2$x3)
#建模算得的结果
Y <- 2.76300 + 0.1811971 * X1 +0.1385903 * X2 + 0.2095169 * X3
Y #去除β2影响的回归方程
Z <- -4.128216 + 0.04583787 * x1 + 0.02943588 * x2 + 0.06849709 * x3
Z #换算成用x1,x2,x3表示的式子
I <- -4.27585990 + 0.04774617 * x1 + 0.02930425 * x2 + 0.07038718 * x3
I #编写计算系数的函数结果,没有去除β2影响的回归方程
X1=(x1-49.510)/3.953
X2=(x2-78.790000)/4.708212
X3=(x3-33.615000)/3.058771
将标准自变量还原为原始自变量,X1,X2,X3用x1,x2,x3表示,得到因变量y对原始自变量的回归模型:
Y = 2.76300 + 0.1811971 * (x1-49.510)/3.953 + 0.1385903 * (x2-78.790000)/4.708212 + 0.2095169 * (x3-33.615000)/3.058771
= 2.76300 + 0.04583787 * (x1-49.51000) + 0.02943588 * (x2-78.79000) + 0.06849709 * (x3-33.615000)
即: Y= -4.128216 + 0.04583787 * x1 + 0.02943588 * x2 + 0.06849709 * x3
上述例子是先求summary(lm()),根据p值得到主成分,去除其他zi,得到回归方程
我们还可以先确定主成分,只将主成分的预测值存放在数据框中,lm()函数中y~只对主成分,直接得到回归方程
下面是这种方法回归方程系数的计算函数:
编写计算系数的函数
#这里得到回归方程的系数,是没有去除z2(β2)影响的,在上面用I表示
#作变换,得到原坐标下的关系表达式
beta<-coef(lm.sol); A<-loadings(princomp2.pr)
x.bar<-princomp2.pr$center; x.sd<-princomp2.pr$scale
coef<-(beta[2]*A[,1]+ beta[3]*A[,2])/x.sd
beta0 <- beta[1]- sum(x.bar * coef)
c(beta0, coef)
* 回归方程为: Y = -4.27585990 + 0.04774617 x1 + 0.02930425 * x2 + 0.07038718 * x3 **
write.csv(princomp1,"write_princomp1.csv")
write.csv(princomp2,"write_princomp2.csv")
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17