
用spss判断正态性检验的几种方法
题目: 某地 120 名男性红细胞数(blood)的数据(见程序中“BEGIN DATA”与“END DATA”之间的数据),此数据呈正态分布吗?(引自马斌荣主编书著,2001. P.150)
syntax 窗口编码如下:
* Ma Bin-Rong: SPSS for Medical Application,2Edit. 2001, P.150:.
DATA LIST FREE /blood.
BEGIN DATA.
568 460 500 580 560 434 561 570 519 645 563 552
540 541 461 501 581 620 573 518 562 597 551 574
480 481 542 462 502 584 517 637 580 547 521 442
564 575 482 543 463 503 585 572 541 525 495 523
634 532 565 483 544 464 504 559 587 494 522 448
526 618 595 577 484 545 558 505 493 586 622 524
456 576 527 490 579 557 546 466 506 572 533 450
566 528 491 567 556 465 485 547 588 507 589 535
596 492 569 555 578 513 530 486 548 534 508 588
628 526 554 531 512 570 514 521 487 459 590 509
END DATA.
NPAR TESTS /K-S(NORMAL)= blood /STATISTICS=DESCRIPTIVES.
DESCRIPTIVES VARIABLES=blood /STATISTICS=ALL.
FREQUENCIES VARIABLES=blood
/STATISTICS=ALL
/HISTOGRAM=NORMAL.
PPLOT /VARIABLES=blood /TYPE=Q-Q.
注: " *````` . " 在syntax中,表示注释的意思.
FREQUENCIES 语句用来描述频次;NPAR TESTS /K-S 语句是k-s检验,检验数据是否符合特定的分布。其中ORAML 表示检验的正态分布。 另:均匀分布是 UNIFORM ;泊松分布是 POISSON ; 指数分布是 EXPONENTIAL ; PPLOT语句生成pp图,检验正态分布与否。
代码执行后,结果如下:
结果分析:
Kolmogorov-Smirnov Test 的结果中, z 值等于0.532,p值等于0.940>0.5,因此数据呈近似正态分布。
Descriptive statics结果中,偏度系数Skewness=-0..33;峰度系数Kurtosis=-0.517;两个系数都小于1,可认为近似于正态分布。
QQ Plot 中,各点近似围绕着直线,说明数据呈近似正态分布。
结果思考:
检验数据的正态性,方法有很多,k-s test,descriptive,qq plot 等方法都可以检验数据的正态性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14