热线电话:13121318867

登录
2020-05-22 阅读量: 3577
线性回归建模的流程

步骤一:明确需求

  • 明确因变量Y

步骤二:数据清洗

  • 缺失值处理
  • 异常值处理:三倍标准差以外的数值
  • 分类变量

步骤三:相关性分析

  • 探索所有自变量与因变量的相关性,得出相关系数,并画出散点图

步骤四:分割测试集训练集

  • 20%的数据作为测试集
  • 80%的数据作为训练集

步骤五:回归

  • F检验
  • T检验
  • R^2:一元线性回归,看R^2:多元线性回归,看调整R^2

步骤六:模型调优

  1. 残差服从正态分布
  • 含义:残差服从正态分布
  • 检验方法

(1)SW (n<5000):原假设:H0:残差是正态分布

(2) KS (n>5000):原假设:H0:残差是正态分布

  • 解决措施(若残差不符合正态分布)

(1)对y取自然对数 ln

(2)Box-cox变换:---缺点:把不属于正态分布扭成正态分布,可能会导致数据失真

2.残差具有同方差性

  • 含义:如果残差有喇叭状或非线性波懂归类等,则明显具有异方差性
  • 检验方法

(1)BP检验:任何时候都可以用;原假设:残差是同方差

(2)WHITE检验:精确度高,会用掉大量自由度,一般样本量大的时候可以用;原假设:残差是同方差

  • 解决措施(若残差具有异方差性)

(1)对y取自然对数 ln

(2)加权最小二乘

3.内生性

  • 含义

(1)残差的条件均值为0:cov(u,x)=0

(2)内生性:自变量和残差相关,遗漏重要变量

  • 检验方法:

(1)Hanseman

  • 解决措施(若残差具有内生性):工具变量
  • 备注:在实际工作中,内生性问题可以先暂时忽略,如果要用到,可以利用上面的检验方法和解决措施

4.自变量X具有线性相关性

  • 含义:自变量不存在完全共线性
  • 检验方法:VIF
  • 解决措施(若VIF普遍偏高):

(1)主成分分析---缺点:会改变变量的属性

(2)岭回归/lasso---缺点:无法保证无偏性

5.序列相关性

  • 含义

(1)残差无序列相关

(2)数学描述:lim cov(t,t-h)=lim f(h)=0 [h-->正无穷]

  • 检验:时间序列分析

步骤七:继续调项

步骤八:逐步回归、交叉验证

步骤九:模型测试

34.4522
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子