热线电话:13121318867

登录
2021-02-04 阅读量: 701
为什么要先划分数据集再进行归一化处理呢?

问:

为什么要先划分数据集再进行归一化处理呢?


答:

根据归一化的处理手段,我们是使用数据中的最小值和极差在对数据进行压缩处理,如果我们在全数据集上进行归一化,那最小值和极差的选取是会参考测试集中的数据的状况的。因此,当我们归一化后,无论我们如何分割数据,都会由一部分测试集的信息被 "泄露" 给训练集(当然,也有部分训练集的信息被泄露给了测试集,但我们不关心这个),这会使得我们的模型效果被高估。

在现实业务中,我们只知道训练集的数据,不了解测试集究竟会长什么样,所以我们要利用训练集上的最小值和极差来归一化测试集。


57.1429
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子