京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在逻辑回归中,分类变量是常见的特征。分类变量指的是只能取有限数量的离散值的变量,比如性别、国家等。在R语言中,处理分类变量有多种方法,下面将介绍其中几种常见的方法。
一、虚拟变量(dummy variable)
虚拟变量是将一个分类变量转换为多个二元变量的方法。对于一个具有m个不同取值的分类变量,可以创建m-1个虚拟变量。例如,对于一个二元分类变量“性别”,我们可以使用一个虚拟变量来表示它:当性别为男性时,虚拟变量为1,否则为0。如果我们采用两个虚拟变量,则一个表示男性,另一个表示女性。这里选用哪一个虚拟变量作为基准水平下的参考,我们可以根据需求自行设置。
在R中,我们可以使用“factor”函数将分类变量转换为因子(factors),然后利用“model.matrix”函数创建虚拟变量。以下是一个例子:
# 创建一个包含三个不同取值("A"、"B"和"C")的分类变量 x <- factor(c("A", "B", "C", "A", "B", "C")) # 创建虚拟变量 model.matrix(~ x)
运行结果如下:
(Intercept) xB xC
1 1 0 0
2 1 1 0
3 1 0 1
4 1 0 0
5 1 1 0
6 1 0 1
attr(,"assign")
[1] 0 1 2
attr(,"contrasts")
attr(,"contrasts")$x [1] "contr.treatment"
这里,“contr.treatment”表示使用第一个水平作为基准水平。因此,我们可以看出第一个观测值属于"A"类别,对应的虚拟变量为(1, 0, 0)。
二、特征缩放(feature scaling)
另一种处理分类变量的方法是特征缩放。特征缩放指的是将数据重新缩放到相同的尺度上,以便更好地比较和分析。在逻辑回归中,一种常见的特征缩放方法是最大-最小规范化,也称为离差标准化。
最大-最小规范化方法是将数值缩放到[0,1]区间内,具体步骤如下:
对每个特征,找到最小值(min)和最大值(max)。
对每个观测值,用以下公式计算缩放后的值:
$$ x_{scaled} = frac{x - x_{min}}{x_{max} - x_{min}} $$
在R中,可以使用以下代码对数据进行最大-最小规范化:
# 创建一个包含三个不同取值("A"、"B"和"C")的分类变量 x <- factor(c("A", "B", "C", "A", "B", "C")) # 将分类变量转换为数值变量并进行缩放 x_scaled <- (as.numeric(x) - min(as.numeric(x))) / (max(as.numeric(x)) - min(as.numeric(x)))
运行结果如下:
[1] 0.0 0.5 1.0 0.0 0.5 1.0
这里得到了一组缩放后的数值,它们都在[0,1]区间内。
三、哑变量编码(one-hot encoding)
哑变量编码是一种将分类变量转换为
数字变量的方法。与虚拟变量不同,哑变量编码会为每个分类变量取值分配一个唯一的整数编码,并将其转换为二进制数。每个编码都将对应一个新的变量。
例如,对于一个大小为3的分类变量"颜色"(红色、蓝色和绿色),我们可以使用哑变量编码来表示它:
| 颜色 | 编码 |
|---|---|
| 红色 | 001 |
| 蓝色 | 010 |
| 绿色 | 100 |
这里,每个编码都是三位数字,其中每个数字都是0或1,表示不同的颜色。在逻辑回归中,我们可以使用哑变量编码来处理分类变量。
在R中,可以使用以下代码进行哑变量编码:
# 创建一个包含三个不同取值("A"、"B"和"C")的分类变量 x <- factor(c("A", "B", "C", "A", "B", "C")) # 进行哑变量编码 model.matrix(~ x + 0)
这里,“+ 0”表示不包括截距项。运行结果如下:
xA xB xC
1 1 0 0
2 0 1 0
3 0 0 1
4 1 0 0
5 0 1 0
6 0 0 1
attr(,"assign")
[1] 1 2 3
attr(,"contrasts")
attr(,"contrasts")$x [1] "contr.treatment"
这里,每个编码都对应一个新的变量,并且没有截距项。第一个观测值属于"A"类别,并且对应的编码为(1, 0, 0)。
总结
在逻辑回归中,处理分类变量有多种方法。其中,虚拟变量是最常见的方法之一,它将分类变量转换为多个二元变量。特征缩放和哑变量编码也是处理分类变量的常见方法。选择哪种方法取决于数据的特点和分析的需求。在R语言中,我们可以使用“model.matrix”函数来进行虚拟变量和哑变量编码,也可以手动实现这些方法。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20