数据建模流程_CDA答疑社区

闫粤东

2022-03-03 阅读量: 541

数据建模流程

1.明确需求（因变量Y）

2.数据清洗（重复值，缺失值，异常值，数据编码）

重复值针对行，可能是因为数据来源于多个系统

缺失值：1.删除所在行

2.填补（所在列为连续型数据用均值填补；所在列为分类型数据用分数填补或者直接将缺失值单独做一类）

异常值：错误值数据治理SQL

离群值学术清洗阶段处理离群值（小样本）

业界残差的离群值（大样本）

数据编码：将一些不方便提取信息的东西编码变成易提取的数字

3.变量筛选（凭借业务知识去筛选，相关分析（相关系数，散点图）逐步回归（向前法））变量选择以本人意愿为准

变量变换 (非线性，PCA，卷积（图）/词模型（文本））

4.分割测试集训练集（预测） Y 连续型：直接切分

Y 分类型：样本不平衡

5.回归（F检验，t检验，adjusted R^20

6.模型调优（线性性，序列相关性，共线性，内生性，同方差，正态性）

7.继续优化（季节变量，高次项，交互项，哑变量...）

8.模型测试（交叉验证，测试集）

59.7358

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子