使用R语言实现数据分段-CDA数据分析师官网

热线电话：13121318867

使用R语言实现数据分段

2016-04-11

使用R语言实现数据分段

今天跟大家讲讲我工作中用到的数据分段，数据分段一般在什么地方会使用到呢？评分。之前写过一篇《实战: RFM》模型使用，那篇文章就详细介绍了CRM（客户关系管理）分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段，形成三种得分指标，最后根据得分指标计算出每个用户的总得分，从而可以计算用户的价值高低。

本文与之前提到的文章不同之处在于脚本的更改，使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环，而且需要对每一个指标做循环，如果某个数据框的字段非常多，这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作：

#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))

#使用《实战: RFM模型使用》的分段方法，这里分成10段，尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分，即1:10分

M_score <- 0

for(i in 1:10) {

M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

#由于范围Money < M_X[i+1]不包含最后一个值，故另外计算

M_score[Money == M_X[11]] = 10

}

table(M_score)

QQ截图20160322104116.png

通过上面的方法，可以将连续型数据分成n段，从案例返回的结果可知，10段中的样本量基本相当，可以视作分段成功。下面再看看自定义函数实现的分段：

#自定义得分函数，x为目标向量，g为所需分段数量

Score_function <- function(x,g = 10){

require(Hmisc)

#计算分段的切割点

cuts <- cut2(x,g = g, onlycuts = TRUE)

#将所需结果存放在res数据框中

res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

#这里返回res数据框中的评分字段

return(res[,'score'])

}

M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)

QQ截图20160322104125.png

同样，分段的结果与《实战: RFM模型使用》脚本的结果一致，这里说一下自定义函数的优势：

1）可以灵活的更改分组数量，即g参数

2）不需要循环，速度得到提升

3）可以结合sapply()函数，应用于大型数据框（高维数据），从而避免对每个字段都计算一次for循环

下面创建一个数据框，来验收一下自定义函数的效果：

set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)

#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)

table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)

QQ截图20160322104200.png

如果使用《实战: RFM模型使用》的方法，4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环，这样就可以不用单独4次for循环了，问题是这样做会大大降低计算效率，影响速度。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

RFM模型字段 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R语言实现数据分段

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】实操指南：数据透视表中两个计数项的公 ...

【CDA干货】实时赋能，精准预判：用户实时行为序列 ...

CDA数据分析师：企业数据安全管理方法论的落地者与 ...

【CDA干货】数据挖掘与数据分析：厘清边界，协同赋 ...

【CDA干货】特征重要性分析：从数据特征到业务价值 ...

CDA数据分析师：企业数据管理方法论的落地者与价值 ...

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA数据分析师：线性回归建模实战，从关联分析到业 ...

【CDA干货】因子分析如何分组：核心原理、实操流程 ...

【CDA干货】数据赋能营销：从经验决策到科学增长的 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载