如何用SPSS探测及检验异常值
一、采用数据探索过程探测异常值
SPSS菜单实现程序为: 主菜单–>“Analyze”–>“Descriptive Statistics”–>“Explore……”选项–>“Statistics”按钮–>选中“Outliers”复选框。输出结果中将列出5个最大值和5个最小值作为异常的嫌疑值。
二、采用箱线图(boxplot)探测异常值
箱线图比较直观、形象,易于理解,因此它在统计分析中占有非常重要的地位。
1. 利用上述的数据探测过程,在“Explore”对话框中单击“Plots”,出现如图2所示的对话框,通过“Boxplots”方框可以确定箱线图的生成方式。“Factor levels together”复选框表示将要为每个因变量创建一个箱线图,“Dependent together”复选框表示将为每个分组变量水平创建箱线图,“None”复选框表示不创建箱线图。
2. 直接利用SPSS中的画图功能实现箱线图,SPSS给出了两种箱线图,一种是基本箱线图,另一种是交互式箱线图。基本箱线图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中选择“Boxplot……”选项。交互式箱形图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中点击“Interactive”选项,在弹出的二级菜单中选择“Boxplot……”选项。下面仍以A公司雇员分工种的开始工资为例构造基本箱线图(如图3)。箱线图中的“○”表示可疑的异常值,此处异常值的确定采用的是“五数概括法”,即:变量值超过第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。
三、SPSS 14 后的新功能 Data –> Validation:???如何设置。。。
四、Z分标准化法(3δ法):±3δ 以外的数据为高度异常值,应予剔除。
五、数据异常值的检验
SPSS中没有提供直接检验异常数据的工具,但是使用SPSS能使异常值的检验工作变得非常方便。通过SPSS中的Frequencies等过程,可以对指定变量的数据同时得到均值、方差等统计量,代入上述的公式,结合查表,很快就能得出检验结果。在多个异常数据下,使用SPSS更显方便,因为剔除前一个异常数据后,需要对剩余的数据重新计算均值和方差,如果数据很多,用手工计算将是很烦琐的事情,而且准确度不高。而通过SPSS,只需要重新选择数据以后,重复一次Frequencies过程的操作就可以了。
分别对含异常值和删去异常值两种情况下的数据进行分析,并比较后才能增加可信度,避免误删。
六、SPSS中异常值的剔除
发现异常值后,把大于等于最小异常值或小于等于最大异常值的值用Data主菜单里的Cases Select子菜单里的条件设置按钮,就可以自动剔除异常值。
来CDA学业务数据分析师,SPSS理论结合实战进行项目数据分析,助你成为从事数据采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才,点击了解课程详情!
数据分析咨询请扫描二维码
大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28在当今快速发展的数据驱动世界中,数据专员的角色变得愈发重要。无论是在企业决策、市场分析还是产品开发中,数据专员都扮演着不 ...
2024-10-27在当今迅速发展的科技时代,数字化对企业的意义无比深远。它不仅提升了企业的竞争力和运营效率,还显著改善了客户体验,推动了企 ...
2024-10-27企业数字化转型是一个全方位的变革过程,旨在通过应用新兴数字技术,重新设计企业的业务流程、组织结构、产品和服务,以在竞争激 ...
2024-10-27数据挖掘是一种集成了统计学、人工智能和机器学习等多种技术的过程,其主要目标是从大量数据中提取有价值的信息和知识。通过分析 ...
2024-10-27数字经济是一种新型的经济形态,以数字技术为基础,通过数据的获取、存储、加工、传输和应用进行经济发展。其核心在于利用数字化 ...
2024-10-27数据科学无疑是现代数字化社会的中流砥柱。随着大数据和人工智能技术的持续飞跃,各行各业对具备数据分析和管理能力的人才需求呈 ...
2024-10-25在当今快速发展的商业环境中,数字化转型已经成为企业保持竞争力和促进业务增长的必然选择。数字化转型不仅意味着技术的变革,更 ...
2024-10-25在当今数据驱动的商业环境中,数据分析已经成为企业决策过程中的核心要素。企业需要处理海量数据,从中提炼出有价值的见解,以支 ...
2024-10-25