避免五大误区丨数据科学家新手进阶之路-CDA数据分析师官网

避免五大误区丨数据科学家新手进阶之路

2018-07-12

避免五大误区丨数据科学家新手进阶之路

你为成为数据科学家做好了充分的准备。你参加Kaggle比赛，看了大量的Coursera课程。你感觉已经准备好了，但数据科学家的实际工作将与你的预期大不相同。

本文探讨了数据科学家新手的5个常见误区。这是我在Sébastien Foucaud博士的帮助下一起总结的，他在学术界和行业领域指导年轻数据科学家有超过20年的经验。本文旨在帮助你更好地走向数据科学家进阶之路。

误区1 热衷参加Kaggle比赛

你通过参与Kaggle比赛练习了数据科学技能。如果你掌握决策树和神经网络那就更好了。但其实作为数据科学家，你不需要完成那么多模型融合。通常，你将花80％的时间进行数据预处理，剩下20％的时间用于构建模型。

参加Kaggle比赛的好处在于，给出的数据都很干净，从而你有更多的时间调整模型。但是在实际工作中很少出现这种情况，你需要使用不同的格式和命名方式来汇总不同来源的数据。

你需要做的是，熟练掌握你大部分时间将要做的事，即数据预处理。例如抓取图像或从API收集图像；从Genius收集歌词数据等。为解决特定问题准备所需的数据，然后将其输入到计算机中开始机器学习生命周期。精通数据预处理无疑将大大帮助你成为一名出色的数据科学家，从而让你在公司制定决策中起到关键作用。

误区2 神经网络能搞定一切

深度学习模型在计算机视觉和自然语言处理领域优于其他机器学习模型，但也有明显的缺点。

神经网络需要大量数据。如果样本较少，那么使用决策树或逻辑回归模型效果会更好。众所周知，神经网络难以说明和解释，因此也被称为”黑匣子“。当产品负责人或主管对模型输出产生质疑时，你需要进行解释，而传统的模型更容易解释。

有很多出色的统计学习模型，你需要了解其优缺点，并根据具体任务应用相关模型。除非是用于计算机视觉或自然语音识别等专业领域，否则传统的机器学习算法的成功率会更高。你很快就会发现，像逻辑回归等简单模型是最好的模型。

来源：来自scikit-learn.org的算法表

误区3 机器学习是产品

在过去十年里，机器学习大受吹捧，许多创业公司都认为机器学习能解决任何存在的问题。

来源：过去5年中机器学习的谷歌指数趋势

机器学习永远不应该是产品。机器学习是强大的工具，用于生产满足客户需求的产品。机器学习可以用于让客户收到精准的商品推荐；准确识别图像中的对象；帮助企业向用户展示有价值的广告。

作为数据科学家，你必须以满足客户需求为目标制定计划，在此基础上你才能充分利用机器学习。

误区4 混淆因果关系与相关性

大约90％的数据是在过去几年中产生的。随着大数据的出现，机器学习从业者能够获得大量数据。由于有大量的数据需要分析评估，学习模型也更容易发现随机的相关性。

来源：http://www.tylervigen.com/spurious-correlations

上图显示了美国小姐的年龄与蒸汽、热蒸汽和发热物体导致的谋杀总数。根据这些数据，算法会发现美国小姐的年龄与某些物体导致谋杀间的模式。然而，这些数据点实际上是无关的，并且这两个变量对其他变量没有任何预测作用。

当在数据中发现模式时，要应用你的专业知识。当中是相关性还是因果关系？回答这些问题是从数据中得出分析见解的关键。

误区5 优化错误的指标

开发机器学习模型遵循敏捷的生命周期。首先，你定义概念和关键指标。然后，将结果原型化。接着，不断进行改进直到指标令你满意。

在构建机器学习模型时，记得要进行手动错误分析。虽然这个过程繁琐且费时费力，但可以帮助你在迭代中有效地改进模型。

结语

年轻的数据科学家能为公司提供巨大价值。他们通常是自学成才，因为很少有大学设有数据科学学位。同时他们具有强烈的好奇心，并且对自己选择的领域充满热情，并渴望了解更多的知识。对于刚入行的数据科学家来说，一定要注意以上提到的误区。

注意以下几点：

· 练习数据管理

· 研究不同模型的优缺点

· 让模型尽可能简单

· 检查结论中的因果性和相关性

· 优化最有希望的指标

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习神经网络计算机视觉逻辑回归决策树商品推荐深度学习大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇干货丨Power Query 数据类型及数据结构

下一篇Python的Asyncore异步Socket模块及实现端口转发的例子

避免五大误区丨数据科学家新手进阶之路

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...