SPSS常用统计图
SPSS统计图形的绘制
? 一、概述 ? 二、统计图的分类 ? 三、常用统计图 ? 四、小结
一、概述
? 统计描述:
? 包括统计指标和统计图、表
? 统计图的特征:
? (1)形象化: ? 变抽象的文字为形象的视觉再现; ? (2)直观性:
? 重点突出,对照鲜明,易于理解,便于比较;
? 省去长篇熬述或语言限制,一目了然。
介绍
? 统计分析中,统计图是数据描述的重要方 法之一 ? 通过点的位置、线段的升降、直条的长短 或面积的大小等方法来表现或说明所研究 问题的变化及其规律 ? 特点:简明生动、形象具体和通俗易懂
步骤
? 1. 建立数据文件; ? 2. 选择适当的统计图; ? 3. 生成图形; ? 4. 对图形进行编辑;
各种常用统计软件绘图功能比较
?
EXCEL ? 图形美观,易于操作,与Word兼容性好。但只能 绘制较常用的统计图; ? SAS ?
默认图形较粗糙,但通过丰富的编程语句可以绘 制出相当精美的图形,甚至可以创新; ? Stata、S-plus、R ? 图形精美,需要编程; ?
SPSS ? 图形美观,易于操作,可满足绝大多数用户需求
二、统计图的分类
1.统计图一览表 2.条图 3.线图 10.误差条图 11.散点图 12.直方图
4.面积图
5.饼图 6.高低图 7.帕累托图 8.质量控制图 9.箱图
13.P-P图&Q-Q图
14.金字塔图 15.普通序列图 16.时间序列图 17.ROC曲线
工具条
7.1 SPSS统计图一览表(1)
图形名
条形图
Bar Charts 线图 Line Charts 面积图 Area Charts 饼图 Pie Charts 高低图 High-Low
Charts 帕累托图 (Pareto Charts 质量控制图 Control Charts 箱图 Boxplots
符号
适用范围
描述定类或定序变量的分布,用长条的高度来表示变
量不同取值下的频数。 描述连续性变量的变化趋势,非连续性变量通常不宜 采用。 描述连续性变量的分布。用面积来表示变量在不同取 值下的频数
描述定类变量的分布,用圆中扇形面积大小表示不同 类别变量所占的频数。 用于同时描述股(物)价等数据长期和短期变化趋势
描述生产控制过程中各类指标对生产的影响大小。 质量控制的常用工具,主要用于提示生产过程中发生 的变化和趋势
显示变量的中位数、四分位数、极值,显示数据的实 际分布。
7.1 SPSS统计图一览表(2)
图形名
误差条图 Error Bar Charts 散点图 Scatter plots
符号
适用范围
显示数据的均值、标准差、置信区间等信息。
直观反映两或两个以上变量的聚会大小及相互关系 描述定距变量的分布。与条形图不同的是直方图不 是用长条的高度来表示变量出现的频数,而是通过
长条的面积来表示的。 用来直观表示数据是否服从特定分布 用来直观表示数据是否服
从特定分布 描述一组或几组数据随另一序列性变量变化的趋势。
直方图 Histogram
P-P图 P-P plots Q-Q图 Q-Q plots 普通序列图 Sequence Charts 时间序列图 Time Series Charts
描述与时间相关的变量随着时间变化的趋势。
7.2 条形图
? 条图用于描述定类或定序变量的分布, ? 有3种:简单条图、分组条图、分段条图。
条图
简单条图
分组条图
分段条图
简单条图
简单条图? 分组条图? 分段条图? 数据描述方式: 观测量分类,对应简单条图? 变量分类,对应分组条图? 单个观测量描述?
统计量选项框
候选变量框 长条代表的含义: ○记录数 ○记录数百分比 ○累积记录数 ○累积记录百分比 ○其他统计量,默认为均值
单击改变统计量 分类轴变量 按所选变量在同一横轴或纵 轴绘制多张条图 选择绘图模板 单击设置图题 单击设置选项
条图统计量选择框
单击Continue,返回主对话框
图题
主标题
副标题
脚注
单击Continue,返回主对话框
选项对话框
单击Continue,返回主对话框
简单条图
分组条图
? ? ? ? 类型:选择Clustered 数据描述方式: 选择Summaries of separate variables 单击Define进行定义
分组条图定义对话框
候选变量框 要绘制图形的变量
例
行或列分组变量
横轴标志
分组条图例
对左表(条图.sav)数 据,要求: 绘制分年级各班语文、 数学、英语平均成绩 的条图。
分组条图
分段条图
? ? ? ? 类型:选择Stacked 数据描述方式:选择Summaries of separate variables 其定义方法与分组条图相同。 定义完毕后单击OK。
分段条图
7.3 线图
SPSS的线图描述连续性变量的变化趋势,非连续 性变量通常不宜采用。
其定义方法与条图完全对应。 三种:
简单线图、 复式线图 垂线图。
简单线图
复式线图
垂线图
7.4 面积图
? 面积图与条图、线图操作方法完全对应, 有两种:简单面积图和堆积面积图。
面积图
7.5 饼图
线图、条图和面积图都是描述变量在不同取 值下的分布,饼图则是用来表示部分与整体 之间的关系。
商品类别 例:(超市.sav) 食品 营业额 5660
生活用品
家电 办公用品
2148
12400 645
服饰 其他
6521 542
操作
饼图
7.6 高低图
? 一种说明某些现象在单位时间内变化情况 的统计图。 ? 适合描述每小时、每天、每周等时间内不 断波动的市场信息资料, ? 如股票、商品价格、货币牌价等 ? 高低图既能说明某些现象在短时间内的变 化,也可说明他们长期的变化趋势。
7.6 高低图
高低图用于同时描述数据长期和短期的变化 趋势。 仅介绍简单高低图。
观测量分类描述模式: 只能显示最高与最低,最 高与最低在一个变量
中输 入,分类采用二元变量。 变量描述模式: 以变量的值显示最高、最 低与收盘价,用的最多。
观测值模式: 以观测值显示最高、最低与收 盘价,与变量描述模式相似。
高低图主要类型
名称
图 形 说明 主要用于单位证券,通常以日期作为 横坐标,每条线上3点分别代表证券 价格的最高价、最低价和收盘价
与简单高低图类似,但是它可以同时 描述两种或两种以上证券的价格情况 主要用于单位证券,用长条的长度代 表每个时间段最高值与最低值之差
与简单极差图类似,但是可以描述两 个或两个以上证券的情况 描述两个现象在同一时间内相互变化 的对比关系
简单高低图 Simple high-low-close
分组高低图 Clustered high-low-close 简单极差图 Simple range bar 分组极差图 Clustered range bar 对比面积图 Difference area
7.7 质量控制图
?
主要用于监测生产过程中的变化趋势,从 而提示生产者发现问题,并采用措施来及 时纠正某些不良趋势。 ? SPSS中质量控制图包括4类: ?
均值-极差控制图(均值-标准差控制图) ? 个值-移动极差控制图 ? 不合格品率和不合格品控制图 ? 缺陷数和单位缺陷数控制图 ?
我们仅以均值-极差控制图为例。
质量控制图
? 1928年沃特·休哈特(Walter Shewhart) 博士率先提出。 ?
指出:每一个方法都存在着变异,都受到时间 和空间的影响,即使在理想的条件下获得的 一组分析结果,也会存在一定的随机误差。 ?
但当某一个结果超出了随机误差的允许范围 时,运用数理统计的方法,可以判断这个结果 是异常的、不足信的。
例:绘制质量控制图
质量控制图类型选择
包括均值-极差控制图、均值-标准 差控制图。当控制图每小类样本小 于10,默认前者,否则默认后者。
个值-移动极差控制图。当控制图 每个小类的数据样本只有一个,则 采用这种图形反映数据波动情况
不合格品率和不合格品控制图 缺陷数和单位缺陷数控制图
各观测样本只有一个值 各观测样本是一组值
本例有5小类,每类2个样本,采用第一种类型控制图。
质量控制图定义
定义零件质量为监测变量;定义零件号为分类变量。
质量控制图
极差控制图
均值控制图
均数控制图的使用方法
?
(1)如此点在上、下警告限之间区域内,则 测定过程处于控制状态,环境样品分析结果 有效; ? (2)如果此点超出上、下警告限,但仍在上
、下控制限之间的区域内,提示分析质量开 始变劣, 可能存在“失控',倾向,应进行初 步检查,并采取相应的校正措施: ?
(3)若此点落在上、下控制限之外,表示测 定过程“失控",应立即检查原因,予以纠正 。环境样品应重新测定;
帕累托图
? 帕累托图又叫排列图、主次图 ? 按照发生频率大小顺序绘制的 直方图,表示有多少结果是由 已确认类型或范畴的原因所造 成。 ? 可以用来分析质量问题,确定 产生质量问题的主要因素。 ? 帕累托图是ABC管理法的直观表 示。
例(超市.sav)
类别 甲地区 营业额 乙地区 营业额
食品
生活用品 家电 办公用品 服饰
5660
2148 12400 645 6521
4000
1500 14000 700 5000
其它
542
500
1.绘制甲地区Pareto图 2.绘制甲乙分段图
简单帕累托图
分段帕累托图
注意:
分段Pareto图数据 类型要选第2项 Sums of separate variables
分段帕雷托图
7.8 箱图
?
箱图和误差条图都用于描述数据的分布信息。 ? 箱图主要描述数据的中位数、四分位数及极 值。 ? 误差条图主要描述均值、标准差、置信区间 等。 ?
箱图从视觉观察变量值的分布情况 ? 误差图从视觉角度观察样本的离散度情况。 ? 二都具体的绘制过程都与条图类似 。
例:学生成绩.sav
求10个班级语文成绩 箱图 (1)建立数据文件 (2)调用SPSS过程
箱图类型选择对话框
按观测组呈现资 料,只呈现1个变 量 按变量类别呈现 资料,可呈现多 个变量
简单箱图分组定义对话框
简单箱图
按观测量百分比呈现的四分位数及中位数简单箱图。
误差条形图
误差条图主要描述均 值、标准差、置信区 间等。 其绘制过程箱图类 似 。
7.9 散点图
散点图是用来表示两个或两个以上变量之间相互 关系的图形。在做统计分析时,要选择恰当的统计 方法,通常都离不开散点图。
分类介绍
?
简单散点图:描述两个变量之间的相互关 系 ? 矩阵散点图:在一张图上同时描述多个变 量之间的两两关系 ? 简单点图:描述一个变量各个值的分布情
况 ? 重叠散点图:将两幅简单散点图叠加到一 张图上,描述多个变量之间的两两关系 ? 3D散点图:描述三个变量的相互关系
简单散点图例
[例]:在19世纪,苏格兰物理学家James D.Forbes试图通过 水的沸点来估计海拔高度,在阿尔卑斯山及苏格兰收集了沸 点及海拔的数据如表所示。试绘制沸点与气压关系的散点图。 (华氏F=9/5℃+32)
序号
1 2 3 4 5 6 7 8 9 沸点F 194.5 194.3 197.9 198.4 199.4 199.9 200.9 201.1
201.4 气压(InchHg) 20.79 20.79 22.40 22.67 23.15 23.35 23.89 23.99 24.02
序号 10 11 12 13 14 15 16 17 沸点F 201.3 203.6 204.6 209.5 208.6 210.6 211.9
212.2 气压(InchHg) 24.01 25.14 26.57 28.49 27.76 29.04 29.88 30.06
散点图
数据文件(散点图.sav)
散点图定义对话框
以气压为Y轴
以沸点为X轴
可以设置图题, 此处未设
选择项采取默 认
单击OK输出结果
散点图绘制结果
7.10 直方图(Histogram)
直方图主要用于描述变量 的分布情况。
它是SPSS中 一种很常用的图形,但定 义十分简单。 例:(直方图.sav)电缆耐 压值直方图
7.11 P-P图&Q-Q图
? 都是用来检验数据是否服从某种分布 ? 区别: ? P-P图比较的是真实数据和待检验分布的累 计概率,而Q-Q图比较的是真实数据与待检 验分布的分位点值
相同数值秩估算公式
方法 Blom Rankit Tukey Van der Waerden 推算公式
r ?3/8 n ? 1/ 4 r ? 1/ 2 n r ? 1/ 3 n ? 1/ 3 r n ?1
上列各式中,n为观察单位数, r为1~ n的秩次。
例:某金属含碳量如下:
绘制P-P图,判断是否服从正态分布。
P-P图模型描述
Model
Description Model Name Series or Sequence 1 Transformation Non-Seasonal
Differencing Seasonal Differencing Length of Seasonal Period
Standardization Distribution MOD_1 含碳量 None 0 0 No periodicity Not
applied Normal estimated estimated Blom's Mean rank of tied values
Case Processing Summary 含碳量 Series or Sequence Length Number of Missing Values in the Plot User-Missing System-Missing 9 0 0
The cases are unweighted.
Type Location Scale Fractional Rank Estimation Method Rank Assigned to Ties Applying the model specifications from MOD_1
Estimated Distribution Parameters Normal Distribution Location Scale 含碳量 4.4900 .06764
The cases are unweighted.
P-P图
7.12 人口金字塔图
? population pyramid ? 定义:一种表示人口性别与年龄构成的条 形统计图。可反映某一地区过去和现在的 人口统计趋势。 ? 在经济学中,常常出现这样一种现象,即 低收入者占人口较大比例,高收入者占人 口较小比例。这就是通常所说的金字塔。
? ? ? ?
人口金字塔三类: 年轻型、成年型和年老型 增长型:塔顶尖、塔底宽 稳定型:塔顶、塔底宽度 基本一致,在塔尖处才逐 渐收缩。 ? 缩减型:塔顶宽,塔底窄 ? 从人口年龄结构对今后人 口增长速度影响的角度, 又可将人口金字塔分为增 长型、稳定型和缩减型
人口金字塔图
例:收入.sav
7.13 普通序列图
普通序列图主要用于描述一个或几个变量随着 另一个变量变化的趋势。
例:重庆2007年降雨 量.sav 绘制降雨量与月份的 序列图
普通序列图设置对话框
是否多个变量绘在一张图上
普通序列图
时间序列图
时间序列图是研究与序列相关的数据特征的图形。 包括3类:
Autocorrelations
自相关时间序列图:用于研究 同一变量的前一时间周期与后一时间周期对应观 测点之间的相关关系。 Cross-correlations
交叉相关时间序列图:主要 用于研究多个变量在对应观测点之间的相互关系。 Spectral Plot 光谱图:主要用于研究整个时间 过程的周期性。
例:重庆2007年降雨量.sav
自相关时间序列图对话框
□自然对数转换 □差分转换 □季节差分转换 待绘图变量
□自相关系数 □部分自相关系数
最大滞后时间 □依据模型 □巴特莱特近似
自相关时间序列输出结果
Autocorrelations
Series: 降 雨 量 mm Autocorrel ation .189 .040 -.071 -.324 -.382 -.202
.032 .031 .079 .070 Box-Ljung Statistic b Value df Sig . .545 1 .461
.571 2 .752 .665 3 .881 2.869 4 .580 6.366 5 .272 7.504 6 .277 7.537 7
.375 7.577 8 .476 7.923 9 .542 8.333 10 .596
杨-博客斯残差平方卡方检验
Lag 1 2 3 4 5 6 7 8 9 10
Std.Error .256 .244 .231 .218 .204 .189 .173 .154 .134 .109
a
收尾概率,<0.05自相关显著
a. The underlying process assumed is independence (white noise). b. Based on the asymptotic chi-sq uare approximation.
自相关系数
标准误
ROC曲线
?
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为
感受性曲线(sensitivity curve)。 ? 得此名的原因在于曲线上各点反映着相同的感受性,
它们都是对同一信号刺激的反应,只不过是在几种 不同的判定标准下所得的结果而已。 ? ROC曲线是二元判决中用来比较判决方法优劣的一
种曲线。它以pf做横轴,pd做纵轴所生成。其中 pf表示假误判为真的概率,即虚警概率;pd表示 真误判为假的概率,即漏检概率的补。
例:仪器观测准确度的比较。 下表中sensor1、sensor2表示两 个传感器关于真实数据在某一指 标下的观测值, 通过绘制ROC曲线比较两个传感 器的优劣。 (ROC.sav)
ROC曲线
ROC曲线Options对话框
定义边界值分类: ○包括分类临界值 ○不包括分类临界值
定义检测方向: ○结果越大越趋于真 ○结果越小越趋于真 定义曲线下面积的标准误: 方法:非参数、负指数双边 置信水平 缺失值处理: ○有缺失值两变量均剔除 ○有缺失值剔除另变量有效
7.14 ROC曲线图
准则
?
1.ROC曲线能很容易地查出任意界限值时的对疾病 的识别能力。 ? 2.选择最佳的诊断界限值。ROC曲线越靠近左上角
,试验的准确性就越高。最靠近左上角的ROC曲线 的点是错误最少的最好阈值,其假阳性和假阴性 的总数最少。 ?
3.两种或两种以上不同诊断试验对疾病识别能力 的比较。靠近左上角的ROC曲线所代表的受试者工 作最准确。亦可通过分别计算各个试验的ROC曲线
下的面积(AUC)进行比较,哪一种试验的 AUC最大 ,则哪一种试验的诊断价值最佳。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20