数据分析之_离群值（Outliers） BoxPlot_数据分析师-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据分析之_离群值（Outliers） BoxPlot_数据分析师

数据分析之_离群值（Outliers） BoxPlot_数据分析师

2014-11-26

数据分析之_离群值（Outliers） BoxPlot_数据分析师

一：什么是Outliers

Outliers是统计学专业术语，是指相比一组数据中的其它数据的极限值

二：极限值意味什么

1. 决定哪些值是Outliers是一个主观行为，有一些基准数据来决定是否一个值是一个Outliers，这些基准是任意选择的，比如P<=0.5就是一个任意选择的基准

2. 一个基准是用BoxPlot来决定适度离群值（mild Outliers）和极限离群值（extreme Outliers），适度离群值是任何值1.5倍大于基于剩下所有的值的IQR，极限离群值是任何值3倍大于剩下所有的值的IQR，IQR（Interquartile Range）代表四分位数间距，是这些值中的50%中间值，分别是Q1-25%, Median-50%,Q3-75%, IQR=Q3-Q1

三：使用Box Plot来发现Outliers

一个典型的Box Plot是基于以下五个值计算而来的

a. 一组样本的最小值

b. 一组样本的最大值

c. 一组样本的中值

d. 下四分位数（Lower Quartile / Q1）

e. 上四分位数（Upper Quartile / Q3）

根据这五个值构建出来基本的Box Plot，某些图形软件还会显示平均值，IQR= Q3 – Q1

显然超出上下四分位数的值可以看做为Outliers。我们通过眼睛就可以很好的观察到这些Outliers值的点。

box plot 001

一个显示适度和极限Outliers值的Box plot显示如下：

box plot 002

四：示例说明及JfreeChart的实现

假设一组数据为：2,4,6,8,12,14,16,18,20,25,45

中值 Median = 14

Q1-下四分位数（11 * 0.25 = 3） = 7

Q3-上四分位数（11 * 0.75 = 9） =19

IQR（Q3 – Q1） = 12

1.5 * IQR = 18

最小值（6 – 1.5 * IQR）= 2

最大值（20 + 1.5 * IQR）= 25

很显然值45是一个适度Outliers

对比的一组数据为：2,4,6,8,12,14,16,18,20,25,26

boxplot 003

从图上可以看出Series0的数据存在Outliers，一个红色三角形已经表明

同样Series1的数据是一组非常好的数据，没有Outliers.

下面是Java源代码：

package com.dataanalysis.plots; import java.awt.Font; import java.util.ArrayList; import java.util.List; import org.jfree.chart.ChartPanel; import org.jfree.chart.JFreeChart; import org.jfree.chart.axis.CategoryAxis; import org.jfree.chart.axis.NumberAxis; import org.jfree.chart.labels.BoxAndWhiskerToolTipGenerator; import org.jfree.chart.plot.CategoryPlot; import org.jfree.chart.renderer.category.BoxAndWhiskerRenderer; import org.jfree.data.statistics.BoxAndWhiskerCategoryDataset; import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset; import org.jfree.ui.ApplicationFrame; import org.jfree.ui.RefineryUtilities; public class BoxAndWhiskerDemo extends ApplicationFrame { /** * */ private static final long serialVersionUID = -3205574763811416266L; /** * Creates a new demo. * * @param title the frame title. */ public BoxAndWhiskerDemo(final String title) { super(title); final BoxAndWhiskerCategoryDataset dataset = createSampleDataset(); final CategoryAxis xAxis = new CategoryAxis("Type"); final NumberAxis yAxis = new NumberAxis("Value"); yAxis.setAutoRangeIncludesZero(false); final BoxAndWhiskerRenderer renderer = new BoxAndWhiskerRenderer(); renderer.setFillBox(false); renderer.setToolTipGenerator(new BoxAndWhiskerToolTipGenerator()); final CategoryPlot plot = new CategoryPlot(dataset, xAxis, yAxis, renderer); final JFreeChart chart = new JFreeChart( "Box-and-Whisker Demo", new Font("SansSerif", Font.BOLD, 14), plot, true ); final ChartPanel chartPanel = new ChartPanel(chart); chartPanel.setPreferredSize(new java.awt.Dimension(450, 270)); setContentPane(chartPanel); } /** * Creates a sample dataset. * * @return A sample dataset. */ private BoxAndWhiskerCategoryDataset createSampleDataset() { final int seriesCount = 2; final int categoryCount = 4; double[] data = null; final DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset(); for (int i = 0; i < seriesCount; i++) { if(i == 0) { data = new double[]{2,4,6,8,12,14,16,18,20,25,45}; } else { data = new double[]{2,4,6,8,12,14,16,18,20,25,26}; } for (int j = 0; j < categoryCount; j++) { final List list = new ArrayList(); for (int k = 0; k < data.length; k++) { list.add(new Double(data[k])); } dataset.add(list, "Series " + i, " Type " + j); } } return dataset; } /** * For testing from the command line. * * @param args ignored. */ public static void main(final String[] args) { final BoxAndWhiskerDemo demo = new BoxAndWhiskerDemo("Box-and-Whisker Chart Demo"); demo.pack(); RefineryUtilities.centerFrameOnScreen(demo); demo.setVisible(true); } }

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Series 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析之_离群值（Outliers） BoxPlot_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】神经网络隐藏层个数怎么确定？从原理到 ...

【CDA干货】特征单变量筛选：从原理到实战，高效精 ...

CDA 数据分析师：数据读取实战指南 —— 筑牢数据分 ...

【CDA干货】偏态分布的置信区间：从原理到实战，破 ...

【CDA干货】用户行为序列驱动的大模型推理：机制、 ...

CDA 数据分析师：数据采集方法实战指南 —— 筑牢数 ...

京东图书热卖榜TOP1，CDA数字化人才认证，是哪些地 ...

【CDA干货】数据清洗如何守住真实性？从方法到落地 ...

【CDA干货】透视表备注添加完全指南：从基础批注到 ...

CDA 数据分析师：以量化策略分析框架为刃，破解企业 ...

【CDA干货】深度解析 INSERT INTO SELECT 底层原理 ...

【CDA干货】机器学习参数重要性分析：从参数类型到 ...

CDA 数据分析师：数字化时代数据思维的践行者与价值 ...

【CDA干货】大模型稳定性测试指南：从指标定义到落 ...

【CDA干货】鸢尾花识别案例：一文读懂特征值与目标 ...

CDA 数据分析师：指标体系搭建指南 —— 从需求到落 ...

【CDA干货】神经网络隐藏层层数怎么确定？从原理到 ...

数据分析师必备技能体系：从工具到思维，构建数据驱 ...

CDA 数据分析师：以指标为锚，以体系为纲，筑牢数据 ...

【CDA干货】手游次日留存：从行业基准到破局策略， ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据分析之_离群值（Outliers） BoxPlot​_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】神经网络隐藏层个数怎么确定？从原理到 ...

【CDA干货】特征单变量筛选：从原理到实战，高效精 ...

CDA 数据分析师：数据读取实战指南 —— 筑牢数据分 ...

【CDA干货】偏态分布的置信区间：从原理到实战，破 ...

【CDA干货】用户行为序列驱动的大模型推理：机制、 ...

CDA 数据分析师：数据采集方法实战指南 —— 筑牢数 ...

京东图书热卖榜TOP1，CDA数字化人才认证，是哪些地 ...

【CDA干货】数据清洗如何守住真实性？从方法到落地 ...

【CDA干货】透视表备注添加完全指南：从基础批注到 ...

CDA 数据分析师：以量化策略分析框架为刃，破解企业 ...

【CDA干货】深度解析 INSERT INTO SELECT 底层原理 ...

【CDA干货】机器学习参数重要性分析：从参数类型到 ...

CDA 数据分析师：数字化时代数据思维的践行者与价值 ...

【CDA干货】大模型稳定性测试指南：从指标定义到落 ...

【CDA干货】鸢尾花识别案例：一文读懂特征值与目标 ...

CDA 数据分析师：指标体系搭建指南 —— 从需求到落 ...

【CDA干货】神经网络隐藏层层数怎么确定？从原理到 ...

数据分析师必备技能体系：从工具到思维，构建数据驱 ...

CDA 数据分析师：以指标为锚，以体系为纲，筑牢数据 ...

【CDA干货】手游次日留存：从行业基准到破局策略， ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据分析之_离群值（Outliers） BoxPlot_数据分析师