热线电话:13121318867

登录
2020-07-30 阅读量: 1562
统计学精简笔记(常用分析方法)

一、列联分析(用于分析定性数据对定性数据的影响)(本质上是比较不同总体的比例是否有差异)
(一)原理与步骤:
1.提出假设:H0:没有差异,没有影响;H1:有差异,有影响
2.构造边缘分布表
3.计算期望频数
4.构造χ2分布,比较实际频数与期望频数,自由度:(行数-1)(列数-1)
5.查临界值,得出结论
(二)相关测量
1. φ相关系数

二、方差分析(用于分析定性数据对定量数据的影响)(本质上是比较不同总体的均值是否有差异)
(一)原理与步骤:
1.不能单一使用平均数进行比较,需要综 合考虑组内和组间(平方和),且需要用方差或标准差。
2.方法论(三种比较):
组内比较SSE:组内每个数互相比较(可以使用组内每个 数与该组平均数比较)
组间比较SSA:各组互相比较(可以使用各组平均数与总 平均数比较,注意以各组数据个数做权数)
所有数据一起比较SST:每个数互相比较(可以每个数与 总平均数比较
3.计算方差:
组内方差MSE=SSE/(n-k)
组间方差MSA=SSA/(k-1)
总方差MST=SST/(n-1)
4.使用F统计量
【总结】方差分析解决问题的步骤
1.提出假设:H0:没有差异,没有影响;H1:有差异,有影响
2.分析“差异”: ⚫计算各组平均数,总平均数 ⚫计算组间平方和SSA、组内平方和SSE、总平方和SST
3.计算均方:MSA、MSE
4.计算F=MSA/MSE,查临界值,决策

相关分析一般与回归分析并用:相关分析:有没有关系,关系有多大——回归分析:关系是什么

三、相关分析(用于分析定量数据对定量数据的影响)
(一)相关关系的描述——散点图
1.【相关关系的类型】
➢从涉及的变量数量看:简单相关;多重相关(复相关)
➢从变量相关关系的表现形式看:线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
➢从变量相关关系变化的方向看:正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减
➢从变量相关的程度看:完全相关;不相关;不完全相关
(二)简单线性相关关系程度的度量—相关系数
1.定义
2.计算
3.相关系数的特点
➢ X和Y都是相互对称的随机变量;
➢线性相关系数只反映变量间的线性相关程度,不能说明非 线性相关关系;
➢样本相关系数是总体相关系数的样本估计值,由于抽样波 动,样本相关系数是个随机变量,其统计显著性有待检验;
➢相关系数只能反映线性相关程度,不能确定因果关系,不 能说明相关关系具体接近哪条直线;
➢r 的取值范围是 [-1,1]
➢-1r<0,为负相关;0<r1,为正相关
➢r = 0,表明不存在线性相关关系相关 ➢|r|=1,为完全相关:r =1,为完全正相关,r =-1, 为完全负正相关
➢|r|越趋于1表示关系越密切;|r|越趋于0表示关系 越不密切

四、回归分析(用于分析定量数据与定量数据间的关系)
(一)起源:高尔顿对父母身高与子女身高的关系的研究;回归思想:事物总有向其大概率方向回归的趋势
(二)回归模型:
1.构成:
(1)因变量:被预测或被解释的变量(dependent variable),常用y 表示——通常一个模型只有一个因变量
(2)自变量;用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),常用x表示——可以是一个,也可以是多个。
2.类型:
➢从自变量的个数分:
• 一元回归 • 多元回归
➢从变量之间的关系分:
• 线性回归 • 非线性回

回归函数有两类:
总体回归函数:条件均值形式 个别值形式
样本回归函数:条件均值形式 个别值形式

3.一元线性回归:
3.1.模型设定(确定模型的回归函数)
<误差项的性质决定了模型方法选择和使用>
【一元线性回归模型的基本假定】
① 因变量y与自变量x之间具有线性关系
② 在重复抽样中,自变量x的取值是固定的,即x非随机。 ③ 误差项ε是一个期望值为0的随机变量,即E(ε)=0。
④ 对于所有的x值,ε的方差σ2都相同
⑤ 误差项ε是一个服从正态分布的随机变量,且相互独立。 即ε~N(0,σ2 )
3.2.模型参数的估计——最小二乘估计法
3.3.回归模型的检验
(1)拟合优度检验(针对因变量Y进行检验)(拟合优度的度量是建立在对数据总变差分解的基础上的);拟合优度计算=SSR/SST,计算的结果称为可决系数(或判定系数),记作R2。 即: R2 = SSR/SST = 1-SSE/SST
(2)回归系数的显著性检验(针对X对Y是否有显著影响进行检验);
检验步骤 :
提出假设 H0: β1 = 0 (没有线性关系) H1: β1  0 (有线性关系) ;
计算检验的统计量:
确定显著性水平,并进行决策:  t>t/,拒绝H0; t<t/,不拒绝H0。
3.4模型应用 :
(1)经济意义解释:表示当x每增加1个单位时,就会增加 个 单位。
(2)预测,即:根据自变量x 的取值估计或预测因变量y的取值

4..多元线性回归:
⚫模型设定:4种写法
⚫模型估计:最小二乘法
⚫模型检验:修正的可决系数 ;F检验
⚫模型应用:经济意义解释;预测

5.非线性回归:线性化处理之后按照线性回归模型。

6.Logistic回归:将因变量转化为逻辑值进行分析,常用极大似然估计法对模型参数b1和b0进行估计。(因变量为多个分类取值时进行两两比较)


30.6626
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子