一、统计学概述
1、 概念:
统计学是一门收集、处理、分析、解释数据并从中得出 结论的科学
2、核心:数据
统计学的对象是数据
3、统计学分析数据的方法
描述性分析方法
总体规模、对比关系、集中趋势、离散程度、偏态、 峰态、......推断性分析方法
估计、假设检验、列联分析、方差分析、相关分析、 回归分析、......
4、基本概念
1. 数据的形式
数据的形式有两种:数字和文字
数字: 严格的数学上的符号,可以进行比较、加减乘除等运算,常常用阿拉伯数字表示;
文字: 不可运算,如男、女等。
两者本质区别:是否可运算
Q1:阿拉伯数字一定是数字吗?
阿拉伯数字不一定是数字。 如:在处理数据时,我们有时候把男记作1、女记作0, 此时的1和0是数字吗?实际上,阿拉伯数字符号只是一个代替的符号而已,数字常可以用阿拉伯数字符号来表示。 有时候,阿拉伯数字符号也可以用来表示文字。
2、数据的分类
分类标准:计量尺度
分类型数据(categorical data)
(1)定义:对事物进行分类的结果 例如:人口按性别分为男、女两类; 学校的专业分为经济学、会计学、统计学
(2)特点:数据表现为类别,用文字来表述
顺序型数据(rank data)
(1)定义:对事物类别顺序的测度 例如:产品分为一等品、二等品、三等品、次品等。 (2)特点:数据表现为类别,用文字来表述
分类数据和顺序数据都需对事物进行分类,不同的是顺序数据的类别可以进行排序,因此, 顺序数据比分类数据级别高一些。有时候我们把这两类数据统称为定性数据。
数值型数据(metric data)
(1)定义:对事物的精确测度 例如:身高为175cm、168cm、183cm,人的年龄18 岁等。 (2)特点:结果表现为具体的数字。
与定性数据对应的,有时候我们把数值型数据称为定量数据。
定距可以做加减,不能做乘除;如果该数值类型数据中0并不是表示没有,而是具有独有的含义,比如0摄氏度、公元0年,诸如此类的数值型数据划归为定距型数据
区间(分组的数值型数据)仍属于数值型
不同类型数据之间往往可以进行转换(高级→低级,反之不行)
低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用
数据的其他分类 - 按来源不同分:直接来源(一手数据、原始资料)、间接来源(二手数据、次级资料)- 收集方式不同分:观测的数据 实验的数据- 按与时间的关系不同:截面数据 时间序列数据 混合数据(面板数据)- 一种特殊的数据:虚拟变量数据
3、总体和样本
总体(population)
指研究的所有元素的集合。其中每个元素称为个体。
如:现研究全校学生的平均年龄 总体是:全校所有学生
【问题】实际中,总体的个体往往难于一一研究,如何解决? ——抽取样本
样本(sample)
从总体中抽取的一部分元素的集合
如:为研究全校学生的平均年龄,由于总体太大,而从中抽取100人进行研究,该研究中的样本是抽取的这100个学生。
构成样本的元素的数目称为样本容量。
4.参数和统计量
参数(parameter)——针对总体
指研究者想要了解的总体的某种特征值,
主要有总体均值()、标准差()、总体比例()等
统计量(statistic) ——针对样本
指根据样本数据计算出来的一个量,即样本的某个特 征值;
常见的统计量有样本均值(x)、样本标准差(s)、样本 比例(p)等。
利用样本的统计量推断总体的参数
5、变量
概念
指描述事物某种特征的概念,如商品销售额、受教育 程度、产品的质量等级等。
变量与数据的关系
变量的具体表现称为变量值,即数据。
变量的分类:
根据变量的数据计量尺度不同来分:
A.分类变量(categorical variable) :说明事物类别的一个名称
B.顺序变量(rank variable) :说明事物有序类别的一个名称
C.数值型变量(metric variable) :说明事物数字特征的一个名称
二、描述统计
1、总体规模的描述——总量指标
1、总量指标:
反映在一定时间.空间条件下某种现象的总体规模、总水平或总成果的统计指标。
2、分类
按内容分:单位总量指标(人、物、…)、标志总量指标 (营业额、利润、…)
按时间不同分:时期指标、时点指标
按计量不同分:实物指标、价值指标、劳动量指标
2、对比关系的描述——相对指标
相对指标:又称“相对数”,是两个有相互联系的指标数值 之比。
常用相对指标的计算
计划完成程度相对指标:实际完成/计划完成
结构相对指标:部分/总体
比例相对指标:一部分/另一部分
比较相对指标:A的指标/B的相同指标
强度相对指标:某总量指标/另一性质不同但关联的总量指标
动态相对指标:报告期/基期
3、集中趋势的描述——平均指标
定义:一组数据向其中心值靠拢的趋势
测度集中趋势就是寻找数据水平的代表值或中心值
众数(mode)
定义:出现次数最多的变量值
表示的符号:
计算:寻找数据中出现次数最多的值。
众数的不唯一性:众数可以不存在,也可以是一个或多个
分位数
中位数(median)
.四分位数(quartile)
数值型数据:均值(mean)
算术平均数
调和平均数(harmonic mean)
几何平均数(geometric mean)
幂平均数
4、离散程度的描述——变异指标
离散程度
定义:反映各变量值远离其中心值的程度,是数据分布的另一个重要特征
从另一个侧面说明了集中趋势测度值的代表程度
极差(range)
平均差(mean deviation)
方差和标准差差(variance and standard deviation)
相对离散程度:离散系数 (coefficient of variation)
5、分布形态的描述——偏态与峰态
偏态(skewness)
峰态(kurtosis)








暂无数据