sas输出基尼方差,F检验
有时候,我们在建模前期会有一个变量探索的单变量与因变量的数据分析报告,但其实,不同的数据形式有不同的指标来衡量变量与因变量的解释能力
今天的代码介绍的就是单变量与因变量之间的基尼方差,F检验的输出,你会说那proc reg中就有p值的输出啊,为什么要自己写。我个人是觉得proc reg是针对线性回归的,但是我们今天用到的因变量依旧还是二元的分类变量,所以就用我自己写到啦。
01
基尼方差
基尼方差被定义为衡量以下三种情况下变量之间的关联性指标:
1、一个连续变量和一个名字或顺序变量。
2、两个名字变量。
3、两个顺序变量。
这里介绍一个连续变量以及一个名义变量x的情况。介绍之前先明白几个符号的由来
基尼方差可以定义为:
G=1-SSE/STD
02
F检验
F检验衡量的是一个连续变量和一个名义变量之间的关联性,其中,谁是因变量不重要,该检验对两种情况都有效,F检验的统计量定义为:
F=MSTR/MSE
如果x是二元变量,并用0,1表示,F值及其相关联的p值可以用线性回归模型进行计算,模型中的y作为因变量,x作为唯一的自变量,用线性回归计算出来的f值可以用p值进行解释。这里你肯定你懵逼,你这不是打脸吗,说好y是二元的。因为我这部分是只有y和x两个变量,所以谁做因变量都无所谓。p值是可以建立模型的概率,及变量x和y之间无关联的概率。数据分析师培训
终于可以贴代码了!!!
%let DSin=test.SCORE_TOTAL_LIST_TEST_4;
%let Xvar=customer_status;
%let YVar=var1;
%macro CalcGrF(DSin, Xvar, YVar, M_Gr, M_Fstar, M_Pvalue);
proc freq data=&DSin noprint ;
tables &XVar /missing out=Temp_Cats;
run;
Data _null_;
retain N 0;
set Temp_Cats;
N=N+count;
call symput ("X_" || left(_N_), compress(&XVar));
call symput ("n_" || left(_N_), left(count));
call symput ("K", left(_N_));
call symput ("N", left(N));
Run;
proc sql noprint;
select avg(&YVar) into :Ybar from &DSin;
%local i;
%do i=1 %to &K;
select avg(&YVar) into :Ybar_&i
from &DSin where &XVar = "&&X_&i";
%end;
select var(&YVar) into: SSTO from &DSin;
%let SSTO=%sysevalf(&SSTO *(&N-1));
%let SSR=0;
%let SSE=0;
%do i=1 %to &K;
select var(&YVar) into: ssei
from &DSin where &Xvar="&&X_&i";
%let SSE=%sysevalf(&SSE + &ssei * (&&n_&i - 1)) ;
%let SSR=%sysevalf(&SSR+ &&n_&i * (&&Ybar_&i - &Ybar)*(&&Ybar_&i - &Ybar));
%end;
quit;
%let MSR=%sysevalf(&SSR/(&K-1));
%let MSE=%sysevalf(&SSE/(&N-&K));
%let M_Gr=%Sysevalf(1-(&SSE/&SSTO));
%let M_Fstar=%sysevalf(&MSR/&MSE);
%let M_PValue=%sysevalf(%sysfunc(probf(&M_Fstar,&K-1,&N-&K)));
data result;
M_Gr=&M_Gr.;
M_Fstar=&M_Fstar.;
M_PValue=&M_PValue.;
run;
proc datasets library=work nolist;
delete temp_cats;
run; quit;
%mend;
%CalcGrF(DSin=&DSin., Xvar=&Xvar., YVar=&YVar.);
结果如下:
这个结果显示的是:p值很高,没有什么关联性。具体的解释也可以自行百度哈
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29随着技术的飞速发展与行业的持续变革,不少人心中都存有疑问:到了 2025 年,数据分析师还有前途吗?给你分享一篇阿里P8大佬最近 ...
2024-12-29如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27