机器学习中容易出现的误区-CDA数据分析师官网

机器学习中容易出现的误区

2019-02-22

在机器学习中很多人都可能有一定的误解，那就是认为复杂的事物容易出错，而简单的事物往往会得到极高的准确率，那么事实真的是这样的吗？在这篇文章中我们详细的给大家介绍一下这个问题，并给大家介绍一下特征的相关知识。

其实简单并不意味着准确。在机器学习中，这通常意味着，给定两个具有相同训练错误的分类器，两者中较简单的可能具有最低的测试错误。有关这一说法的证据在文献中经常出现，但事实上有很多反例，比如“天底下没有免费的午餐”定理也暗示它不可能是真的。

我们知道融合模型，融合模型有一个特点，那就是即使在训练误差已经达到零之后，通过添加分类器，增强融合模型的泛化误差仍然在不断提高。因此，与直觉相反，一个模型的参数数量与其过度拟合倾向之间没有必然的联系。其实，更复杂的观点是将复杂性等同于假设空间的大小，因为较小的空间允许假设由较短的符号表示。像上面有理论保证的那部分界限就可以被认为是在暗示更短的假设能更好地概括。这可以通过给空间中的假设分配更短的符号来进一步论证，这些空间我们是有先验偏好的。但是，把这看作准确性和简单性之间权衡的证据，就会是循环推理：我们做出假设，人们喜欢更简单的设计，如果它们是准确的，那就是因为我们的偏好是准确的，而不是因为在我们选择的表征方式上假设是简单的。由此我们可以发现，简单并不意味着准确。

而特征工程的重要性大家也是知道的，一般来说，特征选择也叫特征子集选择。是指从已有的 M 个特征中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。而特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点，连续的曲线或者连续的区域。

关于机器学习中存在的误解我们就给大家讲到这里了。由此可见，机器学习是一个十分严谨的内容，容不得一点马虎，所以我们还是需要注意好数据的准确性。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征机器学习特征提取特征工程计算机视觉

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇深度学习中的强化学习和对抗学习

下一篇大数据学习阶段都有哪些（一）

机器学习中容易出现的误区

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介