显然,仅仅反映数据的集中趋势是远远不够的,还要反映数据的离散趋势,即数据的 波动范围,描述该趋势的统计量称为尺度统计量(Scale Statistic),常用的尺度统计量有标准 差、方差、四分位间距等。 全距(Range):全距又称为极差,即一组数据中大值与小值之差,它是简单 的变异指标,但因其过于简单,因此一般只用于预备性检查。 方差(Variance)和标准差(Standard Deviation):总体和样本的标准差分别用 σ 和 s 来 表示,方差即标准差的平方,这两个指标是应用广泛的离散程度描述指标,由 于标准差和方差的计算利用到每个原始变量值,所以它们反映的信息在离散指标 中是全的,因此也是理想、可靠的变异描述指标。但也正是由于标准差和 方差的计算用到每一个变量值,所以它们会受到极端值的影响,当数据中有较明 显的极端值时不宜使用。实际上,方差和标准差的适用范围应当是服从正态分布 的数据。 百分位数、四分位数与四分位间距:百分位数(Percentile)是一种位置指标,用 Px 表示。一个百分位数 Px 将一组观察值分为两部分,理论上有 x%的观察值比它小, 有(100-x)%的观察值比它大。前面学习过的中位数实际上就是一个特定的百分位 数,即 P50。除中位数外,常用的百分位数还有四分位数,即 P25、P50 和 P75 分 位数的总称。这 3 个分位数正好能够将总体单位按标志值的大小等分为四部分, 且 P25 和 P75 这两个分位数间包括中间 50%的观察值,因此四分位间距既排除了 两侧极端值的影响,又能够反映较多数据的离散程度,它是当方差、标准差不适 用时较好的离散程度描述指标。 变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如 果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比 较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点, 它是标准差与其平均数的比。CV 显然没有量纲,同时又按照其均数大小进行了标 准化,这样就可以进行客观比较了。








暂无数据