数值型数据的探索分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数值型数据的探索分析

数值型数据的探索分析

2017-01-31

数值型数据的探索分析

数据分析过程中，往往需要对数据作基本的探索性分析，查看数据是否存在问题，如缺失值数量、是否存在明显的异常值、数据是如何分布的、数据的集中趋势和离散趋势等。

探索性分析一般包括三大部分，即数据的分布情况、数据的集中与离散趋势和数据的分布形态：

首先来看看关于数据分布情况的探索性分析。一般统计中通过5数就可以大致了解数据的分布，他们是最小值、下四分位数、中位数、上四分位数和最大值。

其次看看数据的集中趋势和离散趋势，通过集中趋势可以了解数据的中心值或代表值，通过离散趋势可以了解数据远离中心的程度。关于集中趋势，一般可使用均值、众数、中位数来衡量，离散趋势一般通过标准差、极差和四分位差来体现。

最后看看数据的分布形态，数据的分布形态无非是相比于正态分布而言，即偏度和峰度。偏度是数据分布形态呈现左偏或右偏；峰度是数据分布形态呈现尖瘦或矮胖。对于偏度和峰度需要说明的是：若偏度=0，则无偏；若偏度>0，则有偏；若偏度<0，则左偏；若峰度=0，则陡峭程度与正态分布一致；如峰度>0，则分布陡峭；若峰度<0，则分布平缓。

下面从定量和定性的角度看观察数据的探索性分析过程：

自定义函数describe_statistics，函数返回变量的观测数目、缺失值数目、最小值、下四分位数、中位数、上四分位数、最大值、均值、众数、标准差、极差、四分位差、偏度和峰度。这里的自定义函数返回结果类似于SAS的输出结果形态：

```{r}

describe_statistics <- function(x){

options(digits = 3)

require(timeDate);

N = length(x);

Nmiss = sum(is.na(x));

Min = min(x, na.rm = TRUE);

Q1 = quantile(x, probs = 0.25, na.rm = TRUE);

Median = median(x, na.rm = TRUE);

Q3 = quantile(x, probs = 0.75, na.rm = TRUE);

Max = max(x, na.rm = TRUE);

Mean = mean(x, na.rm = TRUE);

Mode = as.numeric(names(table(x)))[which.max(table(x))];

Sd = sd(x, na.rm = TRUE);

Range = abs(diff(range(x)));

QRange = IQR(x, na.rm = TRUE);

Skewness = skewness(x, na.rm = TRUE);

Kurtosis = kurtosis(x, na.rm = TRUE);

#返回函数结果

return(data.frame(N = N, Nmiss = Nmiss, Min = Min, Q1 = Q1, Median = Median, Q3 = Q3, Max = Max, Mean = Mean, Mode = Mode, Sd = Sd, Range = Range, QRange = QRange, Skewness = Skewness, Kurtosis = Kurtosis))

}

```

下面我们就用这个自定义函数来测试一下，通过上面的这些统计量值来探索数据分布、集中趋势、离散趋势和分布形态。由于本文讲解的是数值型数据的探索分析，故需要将数据框中的数值型数据挑选出来，仍然自定义函数，返回数据框中所有数值型数据的字段：

```{r}

Value_Variables <- function(df){

Vars <- names(df)[sapply(df,class) == 'integer' | sapply(df,class) == 'numeric']

return(Vars)

}

```

以R中自带的iris数据集测试：

```{r}

vars <- Value_Variables(iris)

res <- sapply(iris[,vars], describe_statistics)

res

```

上面的结果呈现了鸢尾花四个数值型变量的探索性分析。

以C50包中的churnTrain数据集测试：

```{r}

library(C50)

data(churn)

vars <- Value_Variables(churnTrain)

res <- sapply(churnTrain[,vars], describe_statistics)

res

```

很显然，当变量很多时，这样的返回结果让人看的很难受，如要使输出结果便读的话，可以将返回结果转置：

```{r}

t(res)

```

这会结果要比较整齐，好看。

以上是从定量的角度来探索数据的分布、集中趋势、离散趋势和分布形态，下面我们简单介绍一下定性的方法。

从定性角度，即通过可视化来进行数据的探索性分析，强烈推荐使用GGally包中的ggpairs()函数，该函数将绘制两两变量的相关系数、散点图，同时也绘制出单变量的密度分布图：

```{r}

library(GGally)

vars <- Value_Variables(iris)

ggpairs(iris[,vars])

```

上图不仅仅反映了数据的分布情况、还得出两两变量间的散点图和相关系数，可为下一步分析做铺垫。

数据的探索性分析过程中，通过定量和定性方法的搭配，可使分析者快速的了解数据的结构、分布及内在关系。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

散点图正态分布字段数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数值型数据的探索分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA 一级：开启数据分析师职业大门的钥匙 ...

【CDA干货】透视表内计算两个字段乘积的实用指南 ...

CDA 一级考试备考时长全解析，助你高效备考 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数值型数据的探索分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

【CDA干货】随机森林模型与 OPLS-DA 的优缺点深度剖 ...

CDA 一级：开启数据分析师职业大门的钥匙 ...

【CDA干货】透视表内计算两个字段乘积的实用指南​ ...

CDA 一级考试备考时长全解析，助你高效备考 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...

【CDA干货】透视表内计算两个字段乘积的实用指南 ...