2022-03-03
阅读量:
541
数据建模流程
1.明确需求(因变量Y)
2.数据清洗(重复值,缺失值,异常值,数据编码)
重复值针对行,可能是因为数据来源于多个系统
缺失值:1.删除所在行
2.填补(所在列为连续型数据用均值填补;所在列为分类型数据用分数填补或者直接将缺失值单独做一类)
异常值:错误值 数据治理SQL
离群值 学术 清洗阶段处理离群值(小样本)
业界 残差的离群值(大样本)
数据编码:将一些不方便提取信息的东西编码变成易提取的数字
3.变量筛选(凭借业务知识去筛选,相关分析(相关系数,散点图)逐步回归(向前法))变量选择以本人意愿为准
变量变换 (非线性,PCA,卷积(图)/词模型(文本))
4.分割 测试集 训练集(预测) Y 连续型:直接切分
Y 分类型:样本不平衡
5.回归(F检验,t检验,adjusted R^20
6.模型调优(线性性,序列相关性,共线性,内生性,同方差,正态性)
7.继续优化(季节变量,高次项,交互项,哑变量...)
8.模型测试(交叉验证,测试集)
59.7358
3
0
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论