一名合格的数据分析师，统计基础不可或缺-CDA数据分析师官网

热线电话：13121318867

一名合格的数据分析师，统计基础不可或缺

2019-10-25

作者 | CDA数据分析师

来源 | CDA数据科学研究院

从事数据分析工作，统计基础不可或缺。今天小编就来给大家好好梳理一下关于一名合格数据分析师所要掌握的统计基础都有哪些，旨在为大家查缺补漏，让大家的数据分析之路走得更扎实稳靠。

统计的基本任务是对经济社会发展情况进行统计调查、统计分析，提供统计资料和统计咨询意见、实行统计监督。统计的信息、咨询和监督三大职能，是相互作用、相互促进、相辅相成和密切联系的。信息职能是统计最基本的职能，是保证咨询和监督职能得以有效发挥的前提。咨询和监督职能是在信息职能基础上的拓展和深化，是在充分发挥信息资源作用的基础上，对统计整体效能的提高。

按照所采用的计量尺度的不同，可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的。

数值型数据是按数字尺度测量的观测值，其结果表现为具体的数值。现实中所处理的大多数数据都是数值型数据。

分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述的，其结果均表现为类别，因而也可统称为定性数据或称品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此也可以称为定量数据或数量数据。

本文主要介绍了一名合格的数据分析师所应具备的统计基础——统计描述。数据分析的前提就是要学会观察数据，了解数据，统计描述包括对数据的图表描述和统计量描述，它能让我们对数据有一个直观的认识，比如数据是否完整、是否存在异常、服从什么分布、存在什么规律等，为数据预处理和数据分析做准备。

内容框架

一．图表描述

1. 分类数据描述

（1）频数分布表——单变量分布表

主要用于计数和汇总一个分类变量的数据，通过它可以使频数、比例等一目了然，从而为进一步分析做准备。

（2）频数分布表——双变量列联表

主要用于计数和汇总两个分类变量的数据，通过它可以使两个变量交叉分类的频数、比例等一目了然，从而为进一步分析做准备。

（3）条形图

它可以用来展示各类别的绝对值和数据的分布特征。它通过相同宽度条形的长短来表示各类别的数值大小。

（4）帕累托图

它可以用来比较各类别的频数大小。它是按各类别数据出现的频数多少排序后绘制的条形图，通过对条形图的排序，容易看出哪类数据出现得多，哪类数据出现的少。

（5）饼图

它可以用来展示一个样本的结构。它通过一个圆来表示总的数值大小，用圆内各扇形的角度来表示各类别的数值大小。

（6）环形图

它可以显示多个样本各部分所占的相应比例，从而用来比较多个样本的结构。它是把饼图叠在一起，挖去中间的部分；图中每一个环都表示一个样本，样本中的每一部分数据则用环中的一段表示。

2. 顺序数据描述

（1）频数分布表——累计频数分布表

主要用于计数和汇总顺序变量的数据，通过它可以使频数、比例、累积频数、累积频率等一目了然，从而为进一步分析做准备。

（2）累计频数分布图

主要是用于展示顺序变量的累积频数分布情况。它是将各类别按级别大小进行升序或降序排列在横坐标上，用纵坐标表示各类别的频率，然后用折线绘制出累积频率。

3. 数值型数据描述

（1）频数分布表——分组表

主要是用于计数和汇总数值型分组数据。通过它可以使分组后的频数、比例等一目了然，从而为进一步分析做准备。

用于展示数据分布特征的图形主要有以下几种：

（2）直方图

它可以用来展示分组数据的分布特征。它用矩形的面积来表示频数分布，在矩形的高度表示每一组的频数或频率，宽度则表示各组的组距。

直方图与条形图的区别与联系：

区别：条形图主要用来展示分类数据，其高度表示各类别频数的多少，其宽度是固定的；直方图则主要是用于展示数值型分组数据，是用面积表示频数分布，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度和宽度均有意义。且由于分组数据具有连续性，直方图的各矩形通常是连续排列的，而条形图则是分开排列的。

联系：二者都用来展示数据的分布情况；在平面直角坐标系中，二者的横轴都表示分组，纵轴都可表示频数或频率大小。

（3）茎叶图

它不仅可以用来反映数据的分布特征，还可以保留原始数据的信息，更适用于观察少量数据的分布。它由“茎”和“叶”两部分构成。绘制时，首先将一个数值分成两部分，通常是以该数据的高位数值作为树茎，而叶上只保留该数值的最后一个数字。

（4）箱线图

它不仅可以用来反映原始数据的分布特征，还可以进行多组数据分布特征的比较。绘制时，先找出数据的最大值、最小值、中位数和两个四分位数；然后连接两个四分位数画出箱子；再将最大值和最小值与箱子相连，中位数在箱子中间。箱线图还可用来寻找离群点，从而来处理数据的异常值。

用于展示时间序列的图形：

（5）线图

它可以用于展示时间序列数据，反映现象随时间变化的特征。绘制时，时间一般绘在横轴，观测值绘在纵轴。一般情况下，横轴应长于纵轴，纵轴数据下端应从“0”开始（若起始数据与“0”相差大，可采用折断符号），以便于比较。

用于展示变量之间的关系的图形主要有以下几种：

（6）散点图（两个数值型变量）

它可以用来展示两个数值型变量之间的关系，一个变量在横轴，一个变量在纵轴，通过观察散点的趋势判断两变量的相关性。

（7）气泡图（三个数值型变量）

它可以用来展示三个数值型变量之间的关系。第一个变量用横轴表示，第二个变量用纵轴表示，第三个变量用气泡的大小表示。

（8）矩阵散点图（两个以上数值型变量）

它可以用来同时比较多个变量两两之间的关系。

（9）雷达图（两个以上数值型变量）

它是从一点出发，用每一条射线代表一个变量，多个变量的数据的连成线就围成了一个区域，多个样本就能绘制多个区域，从而方便研究各样本间的相似程度。

（10）轮廓图（两个以上数值型变量）

它是用横轴表示各样本，纵轴表示每个样本的多个变量的取值，将不同样本同一个变量的取值用折线连接，从而便于分析各个样本之间的相似程度。

二．统计量描述

1. 集中趋势度量

(1) 分类数据：众数

众数是一组数据中出现次数最多的变量值，常用于反映一组分类数据的集中趋势，且不受极端值影响。

(2) 顺序数据：中位数、四分位数

中位数是一组数据排序后处于中间位置的变量值。四分位数是一组数据排序后处于25%和75%位置上的值。它们常用于反映一组顺序数据的集中趋势，且不受极端值影响。

(3) 数值型数据：平均数

平均数是一组数据相加后除以数据的个数得到的结果，它的计算公式有多种，如简单平均数、加权平均数、几何平均数。主要是用于反映一组数值型数据的集中趋势，且易受极端值影响。

2. 离散程度度量

(1) 分类数据：异众比率

异众比率是指非众数组的频数占总频数的比例，它主要用于衡量众数对一组数据的代表程度。其值越大，众数的代表性越差；值越小，众数代表性越好。

(2) 顺序数据：四分位差

四分位差是上四分位数与下四分位数之差。它反映了中间50%数据的离散程度，其数值越小说明数据越集中，数值越大说明数据越发散。

(3) 数值型数据：方差和标准差

方差是各变量值与其均值离差平方的平均数。方差的平方根成为标准差。它们是实际中应用最广的数值型数据离散程度测度值。其值越大，说明数据越分散。此外，还有极差、平均差等可以对离散程度进行测度。

此外，还有极差，平均差等统计量有时也可以反映数值型数据的离散程度，不过极差描述的效果不太好，而平均差则不方便计算，故不常用。

注：数值型数据的相对位置度量用标准分数（sc）如z=-1.5，则表示该数值低于平均数的1.5倍标准差，标准分数公式如下：

3. 分布形状度量：偏态系数、峰态系数

(1) 偏态系数是对数据分布对称性的测度，当分布对称时，其值为0；分布左偏时，其值为负；分布右偏时，其值为正。

(2) 峰态系数是对数据分布平峰或尖峰程度的测度，它是通过与标准正态分布的峰态系数进行比较来实现的，当分布为正态时，其值为0；分布为尖峰时，其值为正；分布为平峰时，其值为负。

4. 相对离散程度：离散（变异）系数

离散系数是一组数据的标准差与其相应的平均数之比，其计算公式为：

它主要用来比较不同样本之间的离散程度。离散系数越大，说明数据的离散程度越大；离散系数越小，则说明数据的离散程度越小。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析特征条形图直方图散点图正态分布气泡图统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习中的评价指标

下一篇智能化发展之路：AI和机器学习如何优化数据中心

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一名合格的数据分析师，统计基础不可或缺

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

一名合格的数据分析师，统计基础不可或缺

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...