统计建模和机器学习的区别之我见-CDA数据分析师官网

统计建模和机器学习的区别之我见

2016-11-26

统计建模和机器学习的区别之我见

最近我多次被问到统计(尤其是统计建模)、机器学习和人工智能之间有何区别。其实这三者之间在目标、技术和算法方面有很多重叠的部分。引起困惑的原因不仅仅是因为这些重叠部分，也是因为我们被很多非科普文中的时髦词儿给迷惑了。

统计建模

统计建模最基本的目标是回答一个问题：哪一种概率模型可以产生我所观察到的数据?因此你必须：

• 从一个合理的模型群里挑出候选模型

• 预估未知变量(参数，Aka拟合模型到数据中)

• 比较拟合模型与其他备选模型

举个例子，如果你的数据需要计算，例如流失客户数或者细胞分裂数，那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都可能适用。

一旦某统计模型被选定，那预估模型将用于测试假设、创建预测值以及置信测量。预估模型将成为我们解析数据的透镜。我们从未宣称选定模型就能产生数据，但是我们能观察它基于某验证推理在随机过程所获取的合理近似值。

验证推理是统计建模的一个重要部分。举例而言，要决策到底是哪一种或者哪三种医疗设备可以让病患获得最好的治疗，你也许会感兴趣使用一个模型，该模型能捕获某种数据机制来判断该病患在接受不同治疗所获得的不同结果。如果某个模型可以很好地捕获数据产生机制，那么其也可以在那些被观察数据区间内做出很好的预测，甚至可能预测出新的观察结果。

经典机器学习

经典机器学习是一种数据驱动型技术，受模式识别启动，专注于回归算法和分类算法。其潜在的随机机制通常并没有作为最首要一项关注点。当然很多机器学习技术也能通过随机模型和回归计算来定义，但是数据并不被认为是由其模型直接生成的。因此，最重要的关注点是识别到底是执行哪项特定任务的算法还是技术鉴定(或者集成方法)：也就是说客户到底最好被分段于K(数据集群或聚类)，还是DBSCAN，或者是决策树，或者是随机森林，又或者是SVM?

简而言之，对统计人员来说模型是第一位的，对机器学习者而言，数据是第一位的。因为机器学习的终点是数据，而不是模型。将数据分离出来去做训练集和测试集的验证技术(鉴定方法)是很重要的。一个解决方案的质量高低并不仅仅依赖p-值，而是需要证明这个解决方案在以前不可见数据中是否表现良好。将一个统计模型拟合到一个数据集，或者将一个决策树训练成一个数据集，将会需要融合一些未知值的预估值。该决策树的最佳分割点取决于从属变量的条件分布参数的预估值。

对我而言，没有什么技术被证明可以自我学习。训练才是成型某种学习的必要过程，换句话说，这意味着要获取一项新的技能技术，训练就是学习的一部分。训练深度神经网络取决于输入数据的权重和偏差，如果它学习分类，而该网络就变形成为一个分类器。

现代机器学习

机器学习系统如果不是编程去执行一个任务，而是编程去学习执行一项任务，那么这就是一个真正的学习系统，我把这叫做现代机器学习。就像经典机器学习的变体，这也是一个数据驱动型的实践。但不一样的地方是，现代机器学习不仅仅是依赖于丰富的算法技术，几乎所有的这类机器学习的应用都基于深度神经网络技术。

这个领域我们现在倾向于称它为深度学习，一种机器学习的细分，经常应用于人工智能，也就是说让机器去执行人类的任务。

数据扮演什么角色?

现在我们可以通过数据所承担的角色来区分统计建模、经典机器学习和现代机器学习。

在统计建模里面，数据引导我们去选择随机模型，来形成对不同问题概率的抽象表达，例如假设、预测和预报。

在经典机器学习里，数据驱动的是对分析技术的选择，如何最佳地执行即将任务，这是数据训练算法。

在现代机器学习里，数据驱动基于神经网络算法的系统，去学习具体任务，系统可以自动判定数据常量规则。在训练神经网络数据的过程中，系统逐渐学习到执行任务，就像某人所说：“是数据在做编程。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习神经网络决策树人工智能 SVM 偏差随机森林深度学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

统计建模和机器学习的区别之我见

CDA考试动态

CDA报考指南

热门栏目

最新资讯

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...