京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | CDA数据分析师
来源 | CDA数据科学研究院
从事数据分析工作,统计基础不可或缺。今天小编就来给大家好好梳理一下关于一名合格数据分析师所要掌握的统计基础都有哪些,旨在为大家查缺补漏,让大家的数据分析之路走得更扎实稳靠。
统计的基本任务是对经济社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见、实行统计监督。统计的信息、咨询和监督三大职能,是相互作用、相互促进、相辅相成和密切联系的。信息职能是统计最基本的职能,是保证咨询和监督职能得以有效发挥的前提。咨询和监督职能是在信息职能基础上的拓展和深化,是在充分发挥信息资源作用的基础上,对统计整体效能的提高。
按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。
数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。现实中所处理的大多数数据都是数值型数据。
分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可以称为定量数据或数量数据。
本文主要介绍了一名合格的数据分析师所应具备的统计基础——统计描述。数据分析的前提就是要学会观察数据,了解数据,统计描述包括对数据的图表描述和统计量描述,它能让我们对数据有一个直观的认识,比如数据是否完整、是否存在异常、服从什么分布、存在什么规律等,为数据预处理和数据分析做准备。
内容框架
一. 图表描述
1. 分类数据描述
(1) 频数分布表——单变量分布表
主要用于计数和汇总一个分类变量的数据,通过它可以使频数、比例等一目了然,从而为进一步分析做准备。
(2) 频数分布表——双变量列联表
主要用于计数和汇总两个分类变量的数据,通过它可以使两个变量交叉分类的频数、比例等一目了然,从而为进一步分析做准备。
(3) 条形图
它可以用来展示各类别的绝对值和数据的分布特征。它通过相同宽度条形的长短来表示各类别的数值大小。
(4) 帕累托图
它可以用来比较各类别的频数大小。它是按各类别数据出现的频数多少排序后绘制的条形图,通过对条形图的排序,容易看出哪类数据出现得多,哪类数据出现的少。
(5) 饼图
它可以用来展示一个样本的结构。它通过一个圆来表示总的数值大小,用圆内各扇形的角度来表示各类别的数值大小。
(6) 环形图
它可以显示多个样本各部分所占的相应比例,从而用来比较多个样本的结构。它是把饼图叠在一起,挖去中间的部分;图中每一个环都表示一个样本,样本中的每一部分数据则用环中的一段表示。
2. 顺序数据描述
(1) 频数分布表——累计频数分布表
主要用于计数和汇总顺序变量的数据,通过它可以使频数、比例、累积频数、累积频率等一目了然,从而为进一步分析做准备。
(2) 累计频数分布图
主要是用于展示顺序变量的累积频数分布情况。它是将各类别按级别大小进行升序或降序排列在横坐标上,用纵坐标表示各类别的频率,然后用折线绘制出累积频率。
3. 数值型数据描述
(1) 频数分布表——分组表
主要是用于计数和汇总数值型分组数据。通过它可以使分组后的频数、比例等一目了然,从而为进一步分析做准备。
用于展示数据分布特征的图形主要有以下几种:
(2) 直方图
它可以用来展示分组数据的分布特征。它用矩形的面积来表示频数分布,在矩形的高度表示每一组的频数或频率,宽度则表示各组的组距。
区别:条形图主要用来展示分类数据,其高度表示各类别频数的多少,其宽度是固定的;直方图则主要是用于展示数值型分组数据,是用面积表示频数分布,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度和宽度均有意义。且由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形图则是分开排列的。
联系:二者都用来展示数据的分布情况;在平面直角坐标系中,二者的横轴都表示分组,纵轴都可表示频数或频率大小。
(3) 茎叶图
它不仅可以用来反映数据的分布特征,还可以保留原始数据的信息,更适用于观察少量数据的分布。它由“茎”和“叶”两部分构成。绘制时,首先将一个数值分成两部分,通常是以该数据的高位数值作为树茎,而叶上只保留该数值的最后一个数字。
(4) 箱线图
它不仅可以用来反映原始数据的分布特征,还可以进行多组数据分布特征的比较。绘制时,先找出数据的最大值、最小值、中位数和两个四分位数;然后连接两个四分位数画出箱子;再将最大值和最小值与箱子相连,中位数在箱子中间。箱线图还可用来寻找离群点,从而来处理数据的异常值。
用于展示时间序列的图形:
(5) 线图
它可以用于展示时间序列数据,反映现象随时间变化的特征。绘制时,时间一般绘在横轴,观测值绘在纵轴。一般情况下,横轴应长于纵轴,纵轴数据下端应从“0”开始(若起始数据与“0”相差大,可采用折断符号),以便于比较。
用于展示变量之间的关系的图形主要有以下几种:
(6) 散点图(两个数值型变量)
它可以用来展示两个数值型变量之间的关系,一个变量在横轴,一个变量在纵轴,通过观察散点的趋势判断两变量的相关性。
(7)气泡图(三个数值型变量)
它可以用来展示三个数值型变量之间的关系。第一个变量用横轴表示,第二个变量用纵轴表示,第三个变量用气泡的大小表示。
(8)矩阵散点图(两个以上数值型变量)
它可以用来同时比较多个变量两两之间的关系。
(9)雷达图(两个以上数值型变量)
它是从一点出发,用每一条射线代表一个变量,多个变量的数据的连成线就围成了一个区域,多个样本就能绘制多个区域 ,从而方便研究各样本间的相似程度。
(10)轮廓图(两个以上数值型变量)
它是用横轴表示各样本,纵轴表示每个样本的多个变量的取值,将不同样本同一个变量的取值用折线连接,从而便于分析各个样本之间的相似程度。
二. 统计量描述
1. 集中趋势度量
(1) 分类数据:众数
众数是一组数据中出现次数最多的变量值,常用于反映一组分类数据的集中趋势,且不受极端值影响。
(2) 顺序数据:中位数、四分位数
中位数是一组数据排序后处于中间位置的变量值。四分位数是一组数据排序后处于25%和75%位置上的值。它们常用于反映一组顺序数据的集中趋势,且不受极端值影响。
(3) 数值型数据:平均数
平均数是一组数据相加后除以数据的个数得到的结果,它的计算公式有多种,如简单平均数、加权平均数、几何平均数。主要是用于反映一组数值型数据的集中趋势,且易受极端值影响。
2. 离散程度度量
(1) 分类数据:异众比率
异众比率是指非众数组的频数占总频数的比例,它主要用于衡量众数对一组数据的代表程度。其值越大,众数的代表性越差;值越小,众数代表性越好。
(2) 顺序数据:四分位差
四分位差是上四分位数与下四分位数之差。它反映了中间50%数据的离散程度,其数值越小说明数据越集中,数值越大说明数据越发散。
(3) 数值型数据:方差和标准差
方差是各变量值与其均值离差平方的平均数。方差的平方根成为标准差。它们是实际中应用最广的数值型数据离散程度测度值。其值越大,说明数据越分散。此外,还有极差、平均差等可以对离散程度进行测度。
此外,还有极差,平均差等统计量有时也可以反映数值型数据的离散程度,不过极差描述的效果不太好,而平均差则不方便计算,故不常用。
注:数值型数据的相对位置度量用标准分数(sc)如z=-1.5,则表示该数值低于平均数的1.5倍标准差,标准分数公式如下:
3. 分布形状度量:偏态系数、峰态系数
(1) 偏态系数是对数据分布对称性的测度,当分布对称时,其值为0;分布左偏时,其值为负;分布右偏时,其值为正。
(2) 峰态系数是对数据分布平峰或尖峰程度的测度,它是通过与标准正态分布的峰态系数进行比较来实现的,当分布为正态时,其值为0;分布为尖峰时,其值为正;分布为平峰时,其值为负。
4. 相对离散程度:离散(变异)系数
离散系数是一组数据的标准差与其相应的平均数之比,其计算公式为:
它主要用来比较不同样本之间的离散程度。离散系数越大,说明数据的离散程度越大;离散系数越小,则说明数据的离散程度越小。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
尊敬的考生: 您好! 我们诚挚通知您,CDA Level III 考试大纲将于 2025 年 12 月 31 日实施重大更新,并正式启用,2026年3月考 ...
2025-12-31“字如其人”的传统认知,让不少“手残党”在需要签名的场景中倍感尴尬——商务签约时的签名歪歪扭扭,朋友聚会的签名墙不敢落笔 ...
2025-12-31在多元统计分析的因子分析中,“得分系数”是连接原始观测指标与潜在因子的关键纽带,其核心作用是将多个相关性较高的原始指标, ...
2025-12-31对CDA(Certified Data Analyst)数据分析师而言,高质量的数据是开展后续分析、挖掘业务价值的基础,而数据采集作为数据链路的 ...
2025-12-31在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24