R语言逻辑回归(logistic regression)如何处理分类变量？-CDA数据分析师官网

R语言逻辑回归(logistic regression)如何处理分类变量？

2023-04-07

在逻辑回归中，分类变量是常见的特征。分类变量指的是只能取有限数量的离散值的变量，比如性别、国家等。在R语言中，处理分类变量有多种方法，下面将介绍其中几种常见的方法。

一、虚拟变量(dummy variable)

虚拟变量是将一个分类变量转换为多个二元变量的方法。对于一个具有m个不同取值的分类变量，可以创建m-1个虚拟变量。例如，对于一个二元分类变量“性别”，我们可以使用一个虚拟变量来表示它：当性别为男性时，虚拟变量为1，否则为0。如果我们采用两个虚拟变量，则一个表示男性，另一个表示女性。这里选用哪一个虚拟变量作为基准水平下的参考，我们可以根据需求自行设置。

在R中，我们可以使用“factor”函数将分类变量转换为因子(factors)，然后利用“model.matrix”函数创建虚拟变量。以下是一个例子：

# 创建一个包含三个不同取值（"A"、"B"和"C"）的分类变量
x <- factor(c("A", "B", "C", "A", "B", "C"))
# 创建虚拟变量
model.matrix(~ x)

运行结果如下：

  (Intercept) xB xC
1           1  0  0
2           1  1  0
3           1  0  1
4           1  0  0
5           1  1  0
6           1  0  1
attr(,"assign")
[1] 0 1 2
attr(,"contrasts")
attr(,"contrasts")$x
[1] "contr.treatment"

这里，“contr.treatment”表示使用第一个水平作为基准水平。因此，我们可以看出第一个观测值属于"A"类别，对应的虚拟变量为(1, 0, 0)。

二、特征缩放(feature scaling)

另一种处理分类变量的方法是特征缩放。特征缩放指的是将数据重新缩放到相同的尺度上，以便更好地比较和分析。在逻辑回归中，一种常见的特征缩放方法是最大-最小规范化，也称为离差标准化。

最大-最小规范化方法是将数值缩放到[0,1]区间内，具体步骤如下：

对每个特征，找到最小值(min)和最大值(max)。
对每个观测值，用以下公式计算缩放后的值：

$$ x_{scaled} = frac{x - x_{min}}{x_{max} - x_{min}} $$

在R中，可以使用以下代码对数据进行最大-最小规范化：

# 创建一个包含三个不同取值（"A"、"B"和"C"）的分类变量
x <- factor(c("A", "B", "C", "A", "B", "C"))
# 将分类变量转换为数值变量并进行缩放
x_scaled <- (as.numeric(x) - min(as.numeric(x))) / (max(as.numeric(x)) - min(as.numeric(x)))

运行结果如下：

[1] 0.0 0.5 1.0 0.0 0.5 1.0

这里得到了一组缩放后的数值，它们都在[0,1]区间内。

三、哑变量编码(one-hot encoding)

哑变量编码是一种将分类变量转换为

数字变量的方法。与虚拟变量不同，哑变量编码会为每个分类变量取值分配一个唯一的整数编码，并将其转换为二进制数。每个编码都将对应一个新的变量。

例如，对于一个大小为3的分类变量"颜色"（红色、蓝色和绿色），我们可以使用哑变量编码来表示它：

颜色	编码
红色	001
蓝色	010
绿色	100

这里，每个编码都是三位数字，其中每个数字都是0或1，表示不同的颜色。在逻辑回归中，我们可以使用哑变量编码来处理分类变量。

在R中，可以使用以下代码进行哑变量编码：

# 创建一个包含三个不同取值（"A"、"B"和"C"）的分类变量
x <- factor(c("A", "B", "C", "A", "B", "C"))
# 进行哑变量编码
model.matrix(~ x + 0)

这里，“+ 0”表示不包括截距项。运行结果如下：

  xA xB xC
1  1  0  0
2  0  1  0
3  0  0  1
4  1  0  0
5  0  1  0
6  0  0  1
attr(,"assign")
[1] 1 2 3
attr(,"contrasts")
attr(,"contrasts")$x
[1] "contr.treatment"

这里，每个编码都对应一个新的变量，并且没有截距项。第一个观测值属于"A"类别，并且对应的编码为(1, 0, 0)。

总结

在逻辑回归中，处理分类变量有多种方法。其中，虚拟变量是最常见的方法之一，它将分类变量转换为多个二元变量。特征缩放和哑变量编码也是处理分类变量的常见方法。选择哪种方法取决于数据的特点和分析的需求。在R语言中，我们可以使用“model.matrix”函数来进行虚拟变量和哑变量编码，也可以手动实现这些方法。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征逻辑回归 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇贝叶斯网络分类器和神经网络分类器的区别？

下一篇TensorFlow和spark的ml以及python的scikit-learn 三者的区别是什么？

R语言逻辑回归(logistic regression)如何处理分类变量？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...