如何使用R进行聚类分析？-CDA数据分析师官网

如何使用R进行聚类分析？

2023-06-15

聚类分析是一种常用的无监督学习方法，旨在将样本数据划分为相似的群组或簇。在R中，有多种聚类分析方法可供选择，包括层次聚类和K均值聚类等。本文将介绍如何使用R进行聚类分析。

数据准备

在进行聚类分析之前，需要先准备好要分析的数据集。数据通常以矩阵或数据框的形式呈现，其中每行代表一个样本，每列代表一个特征。在这里，我们将使用UCI Machine Learning Repository上的Iris数据集作为示例。该数据集包含150个样本，每个样本有4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。首先，我们需要从网络上下载数据集并导入到R中：

iris <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header = FALSE)
colnames(iris) <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species")

层次聚类

层次聚类是一种将样本逐步分组的方法，可以形成一个树形结构，称为树状图。在R中，可以使用hclust函数来执行层次聚类分析。hclust函数需要一个距离矩阵或相似性矩阵作为输入，因此我们需要首先计算样本之间的距离或相似性矩阵。在这里，我们将使用欧几里得距离来度量样本之间的距离：

dist_mat <- dist(iris[, 1:4], method = "euclidean")

接下来，我们可以使用hclust函数对距离矩阵进行聚类分析：

hc_res <- hclust(dist_mat, method = "ward.D2")

其中，method = "ward.D2"表示使用Ward方法进行聚类分析。Ward方法尝试最小化群组内方差的增加量，因此通常能够产生更紧密的群组。执行完聚类分析后，我们可以使用plot函数来绘制树状图：

plot(hc_res)

Hierarchical Clustering

从树状图中可以看出，Iris数据集可以被分成3个主要簇。我们还可以使用cutree函数将每个样本分配到不同的簇中：

cluster_labels <- cutree(hc_res, k = 3)

其中，k = 3表示我们期望将数据分为3个簇。可以通过以下方式查看每个样本所属的簇：

head(cluster_labels)
#> [1] 1 1 1 1 1 1

K均值聚类

K均值聚类是一种迭代方法，旨在将样本分为k个不同的簇，使得每个簇内部的样本之间的距离最小化。在R中，可以使用kmeans函数来执行K均值聚类分析。kmeans函数需要指定要分成的簇数，并且通常需要多次运行以避免收敛于局部最小值。

kmeans_res <- kmeans(iris[, 1:4], centers = 3, nstart = 20)

其中，centers = 3表示我们期望将数据分为3个簇，nstart = 20表示我们希

望执行20次随机初始化来避免局部最小值。

K均值聚类分析的输出包括每个样本所属的簇标签和每个簇的中心点。我们可以通过以下方式查看分配到每个簇的样本数量：

table(kmeans_res$cluster)
#> 
#>  1  2  3 
#> 38 50 62

从结果可以看出，Iris数据集被成功地分成了3个主要簇，每个簇都有相似的特征值。

可视化聚类结果

除了树状图之外，我们还可以使用其他方法来可视化聚类结果。例如，我们可以使用ggplot2包中的函数绘制散点图，并使用不同的颜色表示不同的簇：

library(ggplot2)

iris_clustered <- cbind(iris, cluster_labels)
ggplot(iris_clustered, aes(x = Sepal.Length, y = Petal.Width, color = factor(cluster_labels))) +
    geom_point()

Scatter plot with clusters

从散点图可以看出，不同簇的样本在花萼长度和花瓣宽度之间存在明显的差异。

总结

聚类分析是一种有用的无监督学习方法，可以帮助我们发现数据中隐藏的结构。在R中，我们可以使用层次聚类和K均值聚类等多种方法进行聚类分析。在进行聚类分析之前，我们需要准备好要分析的数据集，并选择合适的聚类算法和参数。最后，我们可以通过树状图、散点图等方式来可视化聚类结果。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

聚类聚类分析 K均值聚类层次聚类树状图特征散点图监督学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何识别信用卡欺诈行为？

下一篇如何使用算法来预测结果？

如何使用R进行聚类分析？

数据准备

层次聚类

K均值聚类

可视化聚类结果

总结

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析