热线电话:13121318867

登录
2020-07-24 阅读量: 2059
数据分析统计学(724)

什么是统计学

统计学是一门收集,处理,分析,解释并从中得出结论的科学。

核心:数据

数据分析步骤:收集数据=》处理数据=》分析数据=》解释数据

统计学运用在分析数据的方法分为两大类:

  1. 描述性数据方法。总体规模、对比关系、集中趋势、离散程度、偏态、 峰态、......

  2. 推断性数据分析方法。估计、假设检验、列联分析、方差分析、相关分析、 回归分析、......

统计学的对象是数据

数据有两种形式:数字和文字。

如何区分文字和数字:是否可以运算。

将数据按照计量尺度不同分

分类型数据:数据表现为类别,文字型数据。

顺序型数据:数据表现为类别,文字型数据。

数值型数据:结果表现为具体的数字

分类型和顺序型数据称为:定性数据。

数值型数据称为:定量数据。

image.png

注意:区间是数值型数据(分组的数值型数据)。

不同类型数据见可以转换(高级=》低级,反之不行)。数据抓取时,尽量抓取高级数据。

重要规律:低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用。


总体和样本

(1)总体(population) 指研究的所有元素的集合。其中每个元素称为个体。

(2)样本 (sample) 从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量。

样本推断总体

参数和统计量

(1)参数(parameter) 指研究者想要了解的总体的某种特征值 主要有总体均值、标准差、总体比例等。

(2)统计量(statistic) 指根据样本数据计算出来的一个量,即样本的某个特征值; 常见的统计量有样本均值、样本标准差(s)、样本 比例(p)等。

变量

指描述事物某种特征的概念,如商品销售额、受教育 程度、产品的质量等级等。

变量与数据的关系:变量的具体表现称为变量值,即数据。

变量的分类:根据变量的数据计量尺度不同来分:

A.分类变量(categorical variable) :说明事物类别的一个名称

B.顺序变量(rank variable) :说明事物有序类别的一个名称

C.数值型变量(metric variable) :说明事物数字特征的一个名称

方法都是人提出来的


描述统计

五个角度:

一.总体规模的描述——总量指标

1.总量指标:反映在一定时间.空间条件下某种现象 的总体规模、总水平或总成果的统计指标。

2.分类

• 按内容分:单位总量指标(人、物、…)、标志总量指标 (营业额、利润、…)

• 按时间不同分:时期指标、时点指标

• 按计量不同分:实物指标、价值指标、劳动量指标

二.对比关系的描述——相对指标

1.相对指标:又称“相对数”,是两个有相互联系的指标数值 之比。

2.常用相对指标的计算

计划完成程度相对指标:实际完成/计划完成

结构相对指标:部分/总体

比例相对指标:一部分/另一部分

比较相对指标:A的指标/B的相同指标

强度相对指标:某总量指标/另一性质不同但关联的总量指标

动态相对指标:报告期/基期

三.集中趋势的描述——平均指标

1.定义:一组数据向其中心值靠拢的趋势

2.测度集中趋势就是寻找数据水平的代表值或中心值

(一)众数(mode)

1.定义:出现次数最多的变量值

2.表示的符号:Mo

3.计算:寻找数据中出现次数最多的值。

(二)分位数(是一类指标)

【分位数:是指根据对数据位置进行划分,处于某些 特定位置上的数。常用的分位数有二分位数(也叫“中 位数”)、四分位数、十分位数、百分位数等,这里重 点讲中位数和四分位数。】

1.中位数 (median)

定义:数据排序后,处于中间位置上的值;

表示的符号:Me

2.四分位数(quartile)

定义:四分位数分下四分位数和上四分位数两种, 指排序后处于25%和75%位置上的值。

表示的符号:下四分位数Ql ,上四分位数Qu

计算:数据的个数为n,则下四分位数 的位置:n/4;上四分位数 的位置:3n/4

三.数值型数据:均值(mean)

算术平均数

定义:数据的和与数据个数之比。

表示的符号:xbar

特点:A.易受极端值的影响,受max的影响>受min的影响。B.各变量值与均值的离差之和等于零。C.各变量值与均值的离差平方和最小。

调和平均数

定义:变量值倒数的算术平均数的倒数。

表示的符号:H

特点:A.易受极端值的影响,受min的影响>受max的影响 。B.调和平均数总小于算术平均数 。C.常用于效率数据的研究。 D.均值的另一种表现形式。 E.有一项为0就无法计算H

几何平均数

定义:n个变量值乘积的 n 次方根

表示的符号:G

特点:A.易受极端值的影响,但受极端值的影响比算术平均数和调和平均数要小.。B.适用于对比率数据的平均,主要用于计算平均增长率。 C.可看作是均值的一种变形 。D.有一项为0就无法计算H

幂平均数

是所有平均数的通式

当k=1 时,是算术平均数; 当k=-1 时,是调和平均数; 当k=0 时,是几何平均数。

四.离散程度的描述——变异指标

离散程度

定义:反映各变量值远离其中心值的程度,是数据分布的另一个重要特征。

从另一个侧面说明了集中趋势测度值的代表程度。

1.极差 (range)

定义:一组数据的最大值与最小值之差;

表示的符号: R

特点: ①离散程度的最简单测度值 ②极易受极端值影响 ③未考虑数据的分布

2.平均差(mean deviation)

定义:各变量值与其均值离差绝对值的平均数;

表示的符号:Md

特点: ①能全面反映一组数据的离散程度: 越大,表示 数据越分散。 ②数学性质较差,实际中应用较少

3.方差和标准差(variance and standard deviation)

统计学中出现抵消就平方

方差和标准差分两种:根据总体数据计算的, 称为总体方差或标准差;根据样本数据计算的, 称为样本方差或标准差(simple variance and standard deviation)。

定义:变量值与其算术平均数的离差的平方的 算术平均数;

自由度:样本数据自由度=n-约束条件的个数(不等价的),xbar的出现总会减少一个自由度。

特点: ①数据离散程度的最常用测度值 ②反映了各变量值与均值的平均差异:方差或标准 差越大,表示变量值与均值的平均差异越大

4.相对离散程度:离散系数 (coefficient of variation)

定义:又称“变异系数”,是标准差与均值之比。

表示的符号:Vs

特点: ①是对数据相对离散程度的测度; ②消除了数据水平不同和数据计量单位不同对数据离散程度 的影响; ③常用于对不同组别数据离散程度的比较。

五.分布形态的描述——偏态与峰态

一.偏态(skewness)

定义:是指数据分布偏斜程度。 由统计学家K Pearson于1895年首次提出。

测量方法:使用偏态系数来测度数据的偏态。偏 态系数用符号SK表示。

偏态的判断: ①是否存在:SK=0对称分布;SK>0右偏分布; SK<0左偏分布

偏态对众数、中位数和均值之间关系的影响

对称分布:均值=中位数=众数 左偏分布:均值<中位数<众数 右偏分布:众数<中位数<均值

众数:数据分布偏斜程度较大时应用 中位数:数据分布偏斜程度较大时应用 均值:数据对称分布或接近对称分布时应用

二.峰态(kurtosis)

定义:是指数据分布的扁平程度。 由统计学家Pearson于1905年首次提出。

测量方法:使用峰态系数来测度数据的偏态。 峰态系数用符号K表示。

峰态的判断:

是否存在:K=0扁平峰度适中; K> 0尖峰分布; K< 0扁平分布。


常用的分布

1.两点分布与二项分布

2.正态分布

3.标准正态分布

4. χ2分布 (相互独立标准正态分布的平方和)

5.t分布 (t分布实际上是正态分布小时候的样子矮一点胖一点,n就是年龄,随着n增大逐渐变高变瘦,最终变成正态分布),最后只用t分布,不用正态分布。

6.F分布

正态分布是一个神奇的分布(任何分布任何统计量随着其自由度或样本量的增大,其最终都符合正态分布),正态分布是所有分布的最终分布。

总结

image.png


image.png

25.5278
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子