京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SAS中的协方差分析
所谓的协方差分析,就是在方差分析的基础上加上协变量这一额外因素,而方差分析则只考虑组变量这一因素。协变量可以有一个,也可以有多个。
在这篇文章中,我只讲述单变量的协方差分析。在医学上通常用来判断治疗前后带来的差异性结果是否与治疗前的结果是否存在线性关系,如果存在线性关系,则通过线性模型去掉这一因素所带来的影响。
以人体增重为例,假如在服用某种药物之前体重为X,服用药物之后体重为X1,则减肥效果通常是用Y = X - X1来表示。那么X则称之为协变量。因为在比较不同组间的减肥结果的时候我们需要去除服药前体重的不同而带来的误差,协方差模型就是通过对Y和X以及组变量CLASS建立一个线性回归模型,通过模型来求得X的回归系数β,然后通过Y-β(X - X平均值)得到调整之后的Y,通过这一调整,使得由于不同的疗前体重所带来的误差被剔除,相当于使得大家在疗前都处于同一水平上,进而可以以调整后的Y对组间的减肥效果进行方差分析。
在SAS里,可以通过各种过程步来进行求解,例如reg过程、glm过程。
我就选glm过程,以下述数据作为例子简单写一下如何通过SAS来进行协方差分析。
例:
比较三种猪饲料A1,A2,A3对猪增重的影响,测得每头猪的增重(Y)和出生重(X),数据列在表4-3中。问三种饲料对猪增重是否有显著不同的效果?
表4-3 不同饲料对猪增重的影响
首先确定X为出生体重,组变量为class,反应变量为Y,建立回归模型,如下所示:
data tmp;
input x y @@;
class = scan("A1,A2,A3",ceil(_n_/8));
if class ='A1' then do;
k1 =0; k2 =1;
end;
else if class ='A2' then do;
k1 =1; k2 =0;
end;
else do;
k1 =0; k2 =0;
end;
cards;
16 8513 83 11 6512 76 12 80 16 91 14 84 17 90
17 9716 9018 10018 9521 10322 10619 9918 94
22 8924 9120 8323 9525 10027 10230 10532 110
;
run;
ods output ParameterEstimates = stat;
proc glm data = tmp;
model y = x k1 k2;
run;
ods output close;
得到结果如下所示:
模型的x的回归系数在0.05的水平上是明显不为0的,因此可以认为x与y存在线性关系,那么接下来就需要去掉这一因素不同水平差异而带来的变异了。
proc sql noprint;
create table tmp1 as
select a.*,mean(a.x) as mean_X,b.Estimate as beta, y - beta * (a.x - calculated mean_X) as y1 label = "调整后的Y"
from tmp a,stat b
where b.Parameter = 'x';
quit;
可以看到上述sql过程得到调整之后的y,剔除了不同水平差异的X之后,那么接下里就可以进行方差分析了,这里就不再赘述了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18