关于机器学习有这十大误区，比如以为它不久后将变得超级智慧-CDA数据分析师官网

关于机器学习有这十大误区，比如以为它不久后将变得超级智慧

2018-05-17

关于机器学习有这十大误区，比如以为它不久后将变得超级智慧

机器学习过去往往发生在幕后：亚马逊通过挖掘你的点击和购买记录来给你推荐新物品；谷歌通过挖掘你的搜索来投放广告；脸书通过挖掘你的社交网络来选择给你展示不同的新鲜事。

然而机器学习现在已然登上了头版头条，成为了被热烈讨论的话题！机器学习算法可以驾驶车辆，可以翻译演讲，赢得危险边缘游戏（哥伦比亚广播公司益智问答游戏节目）！

我们不由自主会问：“他们到底能做什么不能做到什么？他们会是隐私、工作甚至是人类消失的开始呢？”大家对机器学习的关注固然很好，因为机器学习将会是塑造未来的主要推动力，但是这其中又有太多关于机器学习的错误观念，我接下去要做的第一步就是纠正这些错误的观念。让我们快速浏览一下那些错误观念。

机器学习只是在总结数据

事实上，机器学习的主要目的是预测未知。知道你过去看了什么电影只是一种推测你之后想看什么电影的方式；你的信用记录预示了你会否按时付账单。而对于机器人科学家，学习算法提出假设，改进假设，而只有假设提出的预测成真时才会相信这些假设。学习算法并不比科学家聪明，但却有比科学家百万倍快速的计算能力。

学习算法只是发现了事件之间的关联

这是你对媒体口中机器学习的第一印象。一个非常著名的例子就是，谷歌搜索中关于“流感”搜索的增加是流感流行的迹象。当然这没有错，但是大多学习算法可以发现更丰富的信息，例如如果痣有着奇怪的形状和颜色，并且在逐渐变大，那么这可能会是皮肤癌。

机器学习只能发现相关性，而无法发现因果关系

实际上，最流行的机器学习算法之一就是由尝试不同的行为之后观察行为的结果（本质上是发现因果关系）所组成的。比方说，电商网站可以尝试不同呈现商品的方式，然后选择其中能带来最高购买量的方式。你可能不经意间已经参与了成千次这种实验。因果关系甚至可以在一些无法进行实验只能通过计算机处理之前记录的数据的情形下被发现。

机器学习无法预测未见过的事件，也称作“黑天鹅”效应

如果某些事之前从未发生过，那么预测它发生的概率必然为零，不然呢？相反，机器学习很擅长高精度地预测稀有事件。如果A是B发生的原因，B又是C发生的原因，那么A可能导致C发生，即便我们从未见过其发生过。每一天，垃圾邮件过滤器可以标记出刚刚捏造而成的垃圾邮件（之前未出现过）。像2008年发生的房地产危机实际上是被广泛预测到了的，只不过不是那时大多数银行所使用的是有缺陷的模型而已。

你有越多的数据，你越可能得到错误的模式

试想，国家安全局查看了越多的电话记录，越可能把一个无辜的人标记为恐怖分子，因为他的通话记录正好匹配了恐怖分子检测的机制。对同一个体挖掘越多的属性是会增加误判的可能性，然而机器学习专家们是很善于把这种可能性降到最低的。另一方面，挖掘不同个体的同种属性可以降低误判风险，因为从中学习的规则有更多的依据。而且有些学习算法可以在不同个体之间找到某些模式，从而使检测机制更加稳定。也许某人拍摄纽约市政府的视频并不可疑，同时另外一个大量购买硝酸铵的人也不可疑；然而如果这两个人之间有电话联系，也许FBI就应该调查一下以保证他们之间不是在密谋爆炸袭击了。

机器学习无视现存的知识

许多被机器学习渗透的领域里的专家质疑像机器学习这样不需掌握任何领域知识的方法。真正的知识是一个长期推理与实验的过程中累积下的，你无法靠在一个数据库里跑一个原型算法而学到。但不是所有的学习算法都不使用领域知识；其中一些就会用数据去精炼已有的繁杂知识，使其变得十分精巧，进而呈现为计算机所能理解的形式。

计算机习得的模型人类无法理解

这自然会是一个引起人们关心的原因。如果一个学习算法是黑箱模型，那么我们怎么能相信它给出的推荐呢？某些模型却是非常难理解，比如给机器学习带来最大成功的深度神经网络（从youtube的视频里识别猫咪）。但其他大多模型都完全可以被理解，比如我们之前提到的诊断皮肤癌用到的方法。

以上所有的误解都是负向的，它们认为机器学习的能力比实际上更有限。以下的则是过于正向的错误观念：

越简单的模型越准确

这个观念有时来自“奥卡姆剃刀”，但只说了我们应该倾向于更简单的模型却没有给出原因。简单模型更可取是因为他们更易于解释和推理。但是有时与数据相容的简单假设比复杂模型更不准确。一些强有力的学习算法输出模型看起来毫无理由的复杂，甚至还会继续给复杂模型添加组件即便他们已经完美拟合了数据，但这也是它们比简单模型更准确的原因。

机器学习发现的模式可以直接被采纳

如果一个学习算法输出了一条诊断皮肤癌的规则，并且极其准确（任何符合这个条件的痣都是皮肤癌），这也不意味着你应该相信它。对于数据微小的改动都会导致算法输出同等精确却非常不同的规则。只有那些对于数据中随机扰动稳定的规则可以被相信，而不仅仅是作为预测的方式。

机器学习不久后会变成超级智慧

从每天人工智能发展的新闻来看，非常容易有一种感觉，计算机已经接近于像我们一样可以看，说话，推理；不久后就会把我们抛弃在尘土里了。我们在人工智能的第一个五十年走了条长路，机器学习是其近来成功的主要原因，然而我们还有很长的路要走。计算机可以非常好的完成特定的任务，却依然没有通用智能，也还没有人知道怎么去教它们。

好了，到这你已经知道机器学习有时比我们想象的更强力，有时却不那么好。如何使我们更好运用机器学习也取决于我们！我们要对它们有更准确的理解！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习人工智能神经网络精度

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

关于机器学习有这十大误区，比如以为它不久后将变得超级智慧

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介