机器学习处理问题如何选择一个合适的算法？-CDA数据分析师官网

机器学习处理问题如何选择一个合适的算法？

2019-03-06

我们在进行数据分析或者数据挖掘工作的时候，总会遇到很多的问题，而解决这些问题的方式有很多。如果需要我们用机器学习来处理，那么就需要我们根据算法去选择一个合适的算法。但问题是，用机器学习处理问题，该如何选择一个合适的算法呢？下面我们就给大家介绍一下选择算法的流程，希望这篇文章能够更好地帮助大家理解机器学习。

选择算法是一个比较麻烦的事情，但是并不是不能选择，选择就需要我们十分细心，这样我们才能够选择出一个合适的算法，以便于我们更好的处理问题。选择算法首先需要分析业务需求或者场景，这一步完成以后，就需要我们初探数据，看看自己是否需要预测目标值，如果需要的话，那么就使用监督学习，当然，使用监督学习的时候，如果发现了目标变量，如果是离散型，那么就使用分类算法，如果是连续型，那么就使用回归算法。当然，如果我们发现不需要预测目标值，那么就使用无监督学习，具体使用的算法就是K-均值算法、分层聚类算法等其他算法。

当我们充分了解数据及其特性，有助于我们更有效地选择机器学习算法。采用以上步骤在一定程度上可以缩小算法的选择范围，使我们少走些弯路，但在具体选择哪种算法方面，一般并不存在最好的算法或者可以给出最好结果的算法，在实际做项目的过程中，这个过程往往需要多次尝试，有时还要尝试不同算法。但是对于初学者，还是根据上面选择算法的方式选择算法为好。

说完了选择算法的步骤，下面我们就说一下spark在机器学习方面的优势，在大数据上进行机器学习，需要处理全量数据并进行大量的迭代计算，这要求机器学习平台具备强大的处理能力。Spark与Hadoop兼容，它立足于内存计算，天然的适应于迭代式计算，Spark是一个大数据计算平台，在这个平台上，有我SQL式操作组件Spark SQL;功能强大、性能优良的机器学习库Spark MLlib；还有图像处理的Spark Graphx及用于流式处理的Spark Streaming等，其优势十分明显。

优势一：在完整的大数据生态系统中，有我们熟悉的SQL式操作组件Spark SQL，还有功能强大、性能优良的机器学习库、图像计算及用于流式处理等算法。

优势二：在高性能的大数据计算平台中，由于数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存后续的频繁访问需求。基于内存运算，Spark可以比Hadoop快100倍，在磁盘中运算也比hadoop快10倍左右。

优势三：这个算法能够与Hadoop、Hive、HBase等无缝连接：Spark可以直接访问Hadoop、Hive、Hbase等的数据，同时也可使用Hadoop的资源管理器。

在这篇文章中我们给大家介绍了机器学习处理问题如何选择一个合适的算法以及spark算法的优势的内容，通过这篇文章相信大家已经找到了使用机器学习解决数据分析以及数据挖掘问题的方法了吧？希望这篇文章能够帮助到大家。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习 Hadoop SQL 大数据 spark Hive 数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇关于强化学习需要了解的知识

下一篇关于机器学习需要了解的知识

机器学习处理问题如何选择一个合适的算法？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...