SPSS常用统计图
SPSS统计图形的绘制
? 一、概述 ? 二、统计图的分类 ? 三、常用统计图 ? 四、小结
一、概述
? 统计描述:
? 包括统计指标和统计图、表
? 统计图的特征:
? (1)形象化: ? 变抽象的文字为形象的视觉再现; ? (2)直观性:
? 重点突出,对照鲜明,易于理解,便于比较;
? 省去长篇熬述或语言限制,一目了然。
介绍
? 统计分析中,统计图是数据描述的重要方 法之一 ? 通过点的位置、线段的升降、直条的长短 或面积的大小等方法来表现或说明所研究 问题的变化及其规律 ? 特点:简明生动、形象具体和通俗易懂
步骤
? 1. 建立数据文件; ? 2. 选择适当的统计图; ? 3. 生成图形; ? 4. 对图形进行编辑;
各种常用统计软件绘图功能比较
?
EXCEL ? 图形美观,易于操作,与Word兼容性好。但只能 绘制较常用的统计图; ? SAS ?
默认图形较粗糙,但通过丰富的编程语句可以绘 制出相当精美的图形,甚至可以创新; ? Stata、S-plus、R ? 图形精美,需要编程; ?
SPSS ? 图形美观,易于操作,可满足绝大多数用户需求
二、统计图的分类
1.统计图一览表 2.条图 3.线图 10.误差条图 11.散点图 12.直方图
4.面积图
5.饼图 6.高低图 7.帕累托图 8.质量控制图 9.箱图
13.P-P图&Q-Q图
14.金字塔图 15.普通序列图 16.时间序列图 17.ROC曲线
工具条
7.1 SPSS统计图一览表(1)
图形名
条形图
Bar Charts 线图 Line Charts 面积图 Area Charts 饼图 Pie Charts 高低图 High-Low
Charts 帕累托图 (Pareto Charts 质量控制图 Control Charts 箱图 Boxplots
符号
适用范围
描述定类或定序变量的分布,用长条的高度来表示变
量不同取值下的频数。 描述连续性变量的变化趋势,非连续性变量通常不宜 采用。 描述连续性变量的分布。用面积来表示变量在不同取 值下的频数
描述定类变量的分布,用圆中扇形面积大小表示不同 类别变量所占的频数。 用于同时描述股(物)价等数据长期和短期变化趋势
描述生产控制过程中各类指标对生产的影响大小。 质量控制的常用工具,主要用于提示生产过程中发生 的变化和趋势
显示变量的中位数、四分位数、极值,显示数据的实 际分布。
7.1 SPSS统计图一览表(2)
图形名
误差条图 Error Bar Charts 散点图 Scatter plots
符号
适用范围
显示数据的均值、标准差、置信区间等信息。
直观反映两或两个以上变量的聚会大小及相互关系 描述定距变量的分布。与条形图不同的是直方图不 是用长条的高度来表示变量出现的频数,而是通过
长条的面积来表示的。 用来直观表示数据是否服从特定分布 用来直观表示数据是否服
从特定分布 描述一组或几组数据随另一序列性变量变化的趋势。
直方图 Histogram
P-P图 P-P plots Q-Q图 Q-Q plots 普通序列图 Sequence Charts 时间序列图 Time Series Charts
描述与时间相关的变量随着时间变化的趋势。
7.2 条形图
? 条图用于描述定类或定序变量的分布, ? 有3种:简单条图、分组条图、分段条图。
条图
简单条图
分组条图
分段条图
简单条图
简单条图? 分组条图? 分段条图? 数据描述方式: 观测量分类,对应简单条图? 变量分类,对应分组条图? 单个观测量描述?
统计量选项框
候选变量框 长条代表的含义: ○记录数 ○记录数百分比 ○累积记录数 ○累积记录百分比 ○其他统计量,默认为均值
单击改变统计量 分类轴变量 按所选变量在同一横轴或纵 轴绘制多张条图 选择绘图模板 单击设置图题 单击设置选项
条图统计量选择框
单击Continue,返回主对话框
图题
主标题
副标题
脚注
单击Continue,返回主对话框
选项对话框
单击Continue,返回主对话框
简单条图
分组条图
? ? ? ? 类型:选择Clustered 数据描述方式: 选择Summaries of separate variables 单击Define进行定义
分组条图定义对话框
候选变量框 要绘制图形的变量
例
行或列分组变量
横轴标志
分组条图例
对左表(条图.sav)数 据,要求: 绘制分年级各班语文、 数学、英语平均成绩 的条图。
分组条图
分段条图
? ? ? ? 类型:选择Stacked 数据描述方式:选择Summaries of separate variables 其定义方法与分组条图相同。 定义完毕后单击OK。
分段条图
7.3 线图
SPSS的线图描述连续性变量的变化趋势,非连续 性变量通常不宜采用。
其定义方法与条图完全对应。 三种:
简单线图、 复式线图 垂线图。
简单线图
复式线图
垂线图
7.4 面积图
? 面积图与条图、线图操作方法完全对应, 有两种:简单面积图和堆积面积图。
面积图
7.5 饼图
线图、条图和面积图都是描述变量在不同取 值下的分布,饼图则是用来表示部分与整体 之间的关系。
商品类别 例:(超市.sav) 食品 营业额 5660
生活用品
家电 办公用品
2148
12400 645
服饰 其他
6521 542
操作
饼图
7.6 高低图
? 一种说明某些现象在单位时间内变化情况 的统计图。 ? 适合描述每小时、每天、每周等时间内不 断波动的市场信息资料, ? 如股票、商品价格、货币牌价等 ? 高低图既能说明某些现象在短时间内的变 化,也可说明他们长期的变化趋势。
7.6 高低图
高低图用于同时描述数据长期和短期的变化 趋势。 仅介绍简单高低图。
观测量分类描述模式: 只能显示最高与最低,最 高与最低在一个变量
中输 入,分类采用二元变量。 变量描述模式: 以变量的值显示最高、最 低与收盘价,用的最多。
观测值模式: 以观测值显示最高、最低与收 盘价,与变量描述模式相似。
高低图主要类型
名称
图 形 说明 主要用于单位证券,通常以日期作为 横坐标,每条线上3点分别代表证券 价格的最高价、最低价和收盘价
与简单高低图类似,但是它可以同时 描述两种或两种以上证券的价格情况 主要用于单位证券,用长条的长度代 表每个时间段最高值与最低值之差
与简单极差图类似,但是可以描述两 个或两个以上证券的情况 描述两个现象在同一时间内相互变化 的对比关系
简单高低图 Simple high-low-close
分组高低图 Clustered high-low-close 简单极差图 Simple range bar 分组极差图 Clustered range bar 对比面积图 Difference area
7.7 质量控制图
?
主要用于监测生产过程中的变化趋势,从 而提示生产者发现问题,并采用措施来及 时纠正某些不良趋势。 ? SPSS中质量控制图包括4类: ?
均值-极差控制图(均值-标准差控制图) ? 个值-移动极差控制图 ? 不合格品率和不合格品控制图 ? 缺陷数和单位缺陷数控制图 ?
我们仅以均值-极差控制图为例。
质量控制图
? 1928年沃特·休哈特(Walter Shewhart) 博士率先提出。 ?
指出:每一个方法都存在着变异,都受到时间 和空间的影响,即使在理想的条件下获得的 一组分析结果,也会存在一定的随机误差。 ?
但当某一个结果超出了随机误差的允许范围 时,运用数理统计的方法,可以判断这个结果 是异常的、不足信的。
例:绘制质量控制图
质量控制图类型选择
包括均值-极差控制图、均值-标准 差控制图。当控制图每小类样本小 于10,默认前者,否则默认后者。
个值-移动极差控制图。当控制图 每个小类的数据样本只有一个,则 采用这种图形反映数据波动情况
不合格品率和不合格品控制图 缺陷数和单位缺陷数控制图
各观测样本只有一个值 各观测样本是一组值
本例有5小类,每类2个样本,采用第一种类型控制图。
质量控制图定义
定义零件质量为监测变量;定义零件号为分类变量。
质量控制图
极差控制图
均值控制图
均数控制图的使用方法
?
(1)如此点在上、下警告限之间区域内,则 测定过程处于控制状态,环境样品分析结果 有效; ? (2)如果此点超出上、下警告限,但仍在上
、下控制限之间的区域内,提示分析质量开 始变劣, 可能存在“失控',倾向,应进行初 步检查,并采取相应的校正措施: ?
(3)若此点落在上、下控制限之外,表示测 定过程“失控",应立即检查原因,予以纠正 。环境样品应重新测定;
帕累托图
? 帕累托图又叫排列图、主次图 ? 按照发生频率大小顺序绘制的 直方图,表示有多少结果是由 已确认类型或范畴的原因所造 成。 ? 可以用来分析质量问题,确定 产生质量问题的主要因素。 ? 帕累托图是ABC管理法的直观表 示。
例(超市.sav)
类别 甲地区 营业额 乙地区 营业额
食品
生活用品 家电 办公用品 服饰
5660
2148 12400 645 6521
4000
1500 14000 700 5000
其它
542
500
1.绘制甲地区Pareto图 2.绘制甲乙分段图
简单帕累托图
分段帕累托图
注意:
分段Pareto图数据 类型要选第2项 Sums of separate variables
分段帕雷托图
7.8 箱图
?
箱图和误差条图都用于描述数据的分布信息。 ? 箱图主要描述数据的中位数、四分位数及极 值。 ? 误差条图主要描述均值、标准差、置信区间 等。 ?
箱图从视觉观察变量值的分布情况 ? 误差图从视觉角度观察样本的离散度情况。 ? 二都具体的绘制过程都与条图类似 。
例:学生成绩.sav
求10个班级语文成绩 箱图 (1)建立数据文件 (2)调用SPSS过程
箱图类型选择对话框
按观测组呈现资 料,只呈现1个变 量 按变量类别呈现 资料,可呈现多 个变量
简单箱图分组定义对话框
简单箱图
按观测量百分比呈现的四分位数及中位数简单箱图。
误差条形图
误差条图主要描述均 值、标准差、置信区 间等。 其绘制过程箱图类 似 。
7.9 散点图
散点图是用来表示两个或两个以上变量之间相互 关系的图形。在做统计分析时,要选择恰当的统计 方法,通常都离不开散点图。
分类介绍
?
简单散点图:描述两个变量之间的相互关 系 ? 矩阵散点图:在一张图上同时描述多个变 量之间的两两关系 ? 简单点图:描述一个变量各个值的分布情
况 ? 重叠散点图:将两幅简单散点图叠加到一 张图上,描述多个变量之间的两两关系 ? 3D散点图:描述三个变量的相互关系
简单散点图例
[例]:在19世纪,苏格兰物理学家James D.Forbes试图通过 水的沸点来估计海拔高度,在阿尔卑斯山及苏格兰收集了沸 点及海拔的数据如表所示。试绘制沸点与气压关系的散点图。 (华氏F=9/5℃+32)
序号
1 2 3 4 5 6 7 8 9 沸点F 194.5 194.3 197.9 198.4 199.4 199.9 200.9 201.1
201.4 气压(InchHg) 20.79 20.79 22.40 22.67 23.15 23.35 23.89 23.99 24.02
序号 10 11 12 13 14 15 16 17 沸点F 201.3 203.6 204.6 209.5 208.6 210.6 211.9
212.2 气压(InchHg) 24.01 25.14 26.57 28.49 27.76 29.04 29.88 30.06
散点图
数据文件(散点图.sav)
散点图定义对话框
以气压为Y轴
以沸点为X轴
可以设置图题, 此处未设
选择项采取默 认
单击OK输出结果
散点图绘制结果
7.10 直方图(Histogram)
直方图主要用于描述变量 的分布情况。
它是SPSS中 一种很常用的图形,但定 义十分简单。 例:(直方图.sav)电缆耐 压值直方图
7.11 P-P图&Q-Q图
? 都是用来检验数据是否服从某种分布 ? 区别: ? P-P图比较的是真实数据和待检验分布的累 计概率,而Q-Q图比较的是真实数据与待检 验分布的分位点值
相同数值秩估算公式
方法 Blom Rankit Tukey Van der Waerden 推算公式
r ?3/8 n ? 1/ 4 r ? 1/ 2 n r ? 1/ 3 n ? 1/ 3 r n ?1
上列各式中,n为观察单位数, r为1~ n的秩次。
例:某金属含碳量如下:
绘制P-P图,判断是否服从正态分布。
P-P图模型描述
Model
Description Model Name Series or Sequence 1 Transformation Non-Seasonal
Differencing Seasonal Differencing Length of Seasonal Period
Standardization Distribution MOD_1 含碳量 None 0 0 No periodicity Not
applied Normal estimated estimated Blom's Mean rank of tied values
Case Processing Summary 含碳量 Series or Sequence Length Number of Missing Values in the Plot User-Missing System-Missing 9 0 0
The cases are unweighted.
Type Location Scale Fractional Rank Estimation Method Rank Assigned to Ties Applying the model specifications from MOD_1
Estimated Distribution Parameters Normal Distribution Location Scale 含碳量 4.4900 .06764
The cases are unweighted.
P-P图
7.12 人口金字塔图
? population pyramid ? 定义:一种表示人口性别与年龄构成的条 形统计图。可反映某一地区过去和现在的 人口统计趋势。 ? 在经济学中,常常出现这样一种现象,即 低收入者占人口较大比例,高收入者占人 口较小比例。这就是通常所说的金字塔。
? ? ? ?
人口金字塔三类: 年轻型、成年型和年老型 增长型:塔顶尖、塔底宽 稳定型:塔顶、塔底宽度 基本一致,在塔尖处才逐 渐收缩。 ? 缩减型:塔顶宽,塔底窄 ? 从人口年龄结构对今后人 口增长速度影响的角度, 又可将人口金字塔分为增 长型、稳定型和缩减型
人口金字塔图
例:收入.sav
7.13 普通序列图
普通序列图主要用于描述一个或几个变量随着 另一个变量变化的趋势。
例:重庆2007年降雨 量.sav 绘制降雨量与月份的 序列图
普通序列图设置对话框
是否多个变量绘在一张图上
普通序列图
时间序列图
时间序列图是研究与序列相关的数据特征的图形。 包括3类:
Autocorrelations
自相关时间序列图:用于研究 同一变量的前一时间周期与后一时间周期对应观 测点之间的相关关系。 Cross-correlations
交叉相关时间序列图:主要 用于研究多个变量在对应观测点之间的相互关系。 Spectral Plot 光谱图:主要用于研究整个时间 过程的周期性。
例:重庆2007年降雨量.sav
自相关时间序列图对话框
□自然对数转换 □差分转换 □季节差分转换 待绘图变量
□自相关系数 □部分自相关系数
最大滞后时间 □依据模型 □巴特莱特近似
自相关时间序列输出结果
Autocorrelations
Series: 降 雨 量 mm Autocorrel ation .189 .040 -.071 -.324 -.382 -.202
.032 .031 .079 .070 Box-Ljung Statistic b Value df Sig . .545 1 .461
.571 2 .752 .665 3 .881 2.869 4 .580 6.366 5 .272 7.504 6 .277 7.537 7
.375 7.577 8 .476 7.923 9 .542 8.333 10 .596
杨-博客斯残差平方卡方检验
Lag 1 2 3 4 5 6 7 8 9 10
Std.Error .256 .244 .231 .218 .204 .189 .173 .154 .134 .109
a
收尾概率,<0.05自相关显著
a. The underlying process assumed is independence (white noise). b. Based on the asymptotic chi-sq uare approximation.
自相关系数
标准误
ROC曲线
?
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为
感受性曲线(sensitivity curve)。 ? 得此名的原因在于曲线上各点反映着相同的感受性,
它们都是对同一信号刺激的反应,只不过是在几种 不同的判定标准下所得的结果而已。 ? ROC曲线是二元判决中用来比较判决方法优劣的一
种曲线。它以pf做横轴,pd做纵轴所生成。其中 pf表示假误判为真的概率,即虚警概率;pd表示 真误判为假的概率,即漏检概率的补。
例:仪器观测准确度的比较。 下表中sensor1、sensor2表示两 个传感器关于真实数据在某一指 标下的观测值, 通过绘制ROC曲线比较两个传感 器的优劣。 (ROC.sav)
ROC曲线
ROC曲线Options对话框
定义边界值分类: ○包括分类临界值 ○不包括分类临界值
定义检测方向: ○结果越大越趋于真 ○结果越小越趋于真 定义曲线下面积的标准误: 方法:非参数、负指数双边 置信水平 缺失值处理: ○有缺失值两变量均剔除 ○有缺失值剔除另变量有效
7.14 ROC曲线图
准则
?
1.ROC曲线能很容易地查出任意界限值时的对疾病 的识别能力。 ? 2.选择最佳的诊断界限值。ROC曲线越靠近左上角
,试验的准确性就越高。最靠近左上角的ROC曲线 的点是错误最少的最好阈值,其假阳性和假阴性 的总数最少。 ?
3.两种或两种以上不同诊断试验对疾病识别能力 的比较。靠近左上角的ROC曲线所代表的受试者工 作最准确。亦可通过分别计算各个试验的ROC曲线
下的面积(AUC)进行比较,哪一种试验的 AUC最大 ,则哪一种试验的诊断价值最佳。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16