2020-05-22
阅读量:
3740
线性回归建模的流程
步骤一:明确需求
- 明确因变量Y
步骤二:数据清洗
- 缺失值处理
- 异常值处理:三倍标准差以外的数值
- 分类变量
步骤三:相关性分析
- 探索所有自变量与因变量的相关性,得出相关系数,并画出散点图
步骤四:分割测试集训练集
- 20%的数据作为测试集
- 80%的数据作为训练集
步骤五:回归
- F检验
- T检验
- R^2:一元线性回归,看R^2:多元线性回归,看调整R^2
步骤六:模型调优
- 残差服从正态分布
- 含义:残差服从正态分布
- 检验方法
(1)SW (n<5000):原假设:H0:残差是正态分布
(2) KS (n>5000):原假设:H0:残差是正态分布
- 解决措施(若残差不符合正态分布)
(1)对y取自然对数 ln
(2)Box-cox变换:---缺点:把不属于正态分布扭成正态分布,可能会导致数据失真
2.残差具有同方差性
- 含义:如果残差有喇叭状或非线性波懂归类等,则明显具有异方差性
- 检验方法
(1)BP检验:任何时候都可以用;原假设:残差是同方差
(2)WHITE检验:精确度高,会用掉大量自由度,一般样本量大的时候可以用;原假设:残差是同方差
- 解决措施(若残差具有异方差性)
(1)对y取自然对数 ln
(2)加权最小二乘
3.内生性
- 含义
(1)残差的条件均值为0:cov(u,x)=0
(2)内生性:自变量和残差相关,遗漏重要变量
- 检验方法:
(1)Hanseman
- 解决措施(若残差具有内生性):工具变量
- 备注:在实际工作中,内生性问题可以先暂时忽略,如果要用到,可以利用上面的检验方法和解决措施
4.自变量X具有线性相关性
- 含义:自变量不存在完全共线性
- 检验方法:VIF
- 解决措施(若VIF普遍偏高):
(1)主成分分析---缺点:会改变变量的属性
(2)岭回归/lasso---缺点:无法保证无偏性
5.序列相关性
- 含义
(1)残差无序列相关
(2)数学描述:lim cov(t,t-h)=lim f(h)=0 [h-->正无穷]
- 检验:时间序列分析
步骤七:继续调项
步骤八:逐步回归、交叉验证
步骤九:模型测试






评论(0)


暂无数据
推荐帖子
0条评论
1条评论
0条评论