集中趋势用于描述数据的平均水平,这可能是人们希望了解的基本的汇总信息,在 统计学中用于描述集中趋势,或者说数据分布的中心位置的统计量就被称为位置统计量 (Location Statistic)。针对不同的数据分布状况,统计学家提供了多种统计量来代表原始数据 的中心趋势,比如平均值、中位数和众数等。
算术均数(Arithmetic Mean):是常用的描述数据分布集中趋势的统计指标,往往将 其直接简称为均数。总体均数用希腊字母μ表示,样本均数常用 X 表示。对一组数 据X1,……,Xn而言,均数的算法为各数据直接相加,再除以例数 n。均数是常用 的集中趋势描述指标,但它不适用于对严重偏态分布的变量进行描述,只有单峰 和基本对称的分布资料,使用均数作为集中趋势描述的统计量才是合理的。
中位数(Median):将全体数据按大小顺序排列,在整个数列中处于中间位置的那个 值。它把全部数值分成两部分,比它小和比它大的数值个数正好相等。中位数适 用于任意分布类型的资料,但由于中位数只考虑居中位置,对信息的利用不充分, 所以当样本量较小时数值会不太稳定。因此对于对称分布的资料,分析者会优先 考虑使用均数,仅仅在均数不能使用的情况下才用中位数加以描述。
几何均数(Geometric Mean):用 G 表示,适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。可以发现,几何均数实际上就是对数转换后的数据 lg X 的算术均数的反对数。
截尾均数(Trimmed Mean):由于均数较易受极端值的影响,因此可以考虑按照一定 比例去掉两端的数据,然后再计算均数。如果截尾均数和原均数相差不大,则说 明数据不存在极端值,或者两侧极端值的影响正好抵消。常用的截尾均数有 5%截 尾均数,即两端各去掉 5%的数据。
其他集中趋势描述指标:除了上述常用的几种指标外,还会遇到众数、调和均 数等,前者是指样本数据中出现频次大的那个数字,后者是指观察值 X 倒数之 均数的倒数,这些指标的实际应用都比较少见。
暂无数据