数据分析入门方法论-CDA数据分析师官网

数据分析入门方法论

2016-10-28

数据分析入门方法论

关于数据分析，最重要的是思路和方法论，无论是什么工具，最终的输出无非就是：

有价值的结论（对应分析报告）

有价值的决策过程（对应机器学习模型）

从提出问题入手，例如流量、留存率、新增用户为什么发生变化，练习如何解决问题：

你会提出哪些假设？

如何验证这些假设？（统计方法）

如何取数？（SQL / Hive / Spark）

如何清洗和整理数据？（R / Python Pandas / PySpark）

如何可视化？（Excel / FinBI / R ggplot2 / Python matplotlib / Spark Zeppelin）

以怎样的方式展示给非技术人员？（PowerPoint / Tableau / FinBI / iPython Notebook / R Markdown）

如何提出假设？

问题的发现常常是基于常理或者过往经验，所以提出假设的方式大多也是从经验事实出发。比如根据你研究问题的需要，你需要验证哪个需求结论，以及你自己也可以提出基于事实层面上的基本假设。例如用户（UV）上升，但是流量反而减少，UV一般是跟随着流量成正相关的。所以这里不是流量这块除了问题就是用户这边出现新情况。

假设是流量的问题，流量来源于渠道，是否是减少了某些效果差的渠道而专注于一些优质渠道，带来了这样好的结果。

如果是用户问题，用户数的增长是新用户还是老用户带来的，如果都有，各占多少分成。

当然，还得排除一些技术问题，是否是统计口径出现了问题。

如何验证这些假设？

将每一种假设都列举在纸上，每一条都细分，根据主题的类似性做出分类，同一类型的假设，按照可能性依次排列，建立金字塔模型。同一层级划分维度，比如时间、地区等其他属性，构建模型。

如何取数？

SQL是最基本的数据库语言，无论从什么数据库、数据仓库、大数据平台取数，都需要掌握。

Hive和Spark都是基于大数据的，Hive可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计。

清洗和处理数据

没有高质量的数据，就没有高质量的挖掘结果，有时候分毫之差就会影响结果的判断。原始数据出现不一致、重复、不完整（感兴趣的属性没有值）、存在错误或异常（偏离期望值）的数据。这些都可通过

数据清洗：去掉噪声和无关数据

数据集成：将多个数据源中的数据结合起来存放在一个一致的数据存储中

数据变换：把原始数据转换成为适合数据挖掘的形式

数据归约：数据立方体聚集，维归约，数据压缩，数值归约，离散化和概念分层等

可视化&展示

分析的结论要用合适的方式表达，可视化工具是最后一步也是不可或缺的工具。

如果使用常规Excel或者传统报表工具，可以将做成的图表贴至PPT中，涉及Excel的高级功能，就需要学习VBA和数据透视表，但Excel适合已经处理好的成品数据。一旦涉及大数据量或频繁链接数据库，一些带有接口的数据可视化工具或报表工具就比较适合。

最后，从提出问题到输出结论，作为数据分析师的你可能使用各种工具，具体要使用哪一种可根据具体情况而定。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

SQL Hive 数据分析大数据 matplotlib 数据透视表透视表数据透视

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析入门方法论

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...