如何使用R进行聚类分析？-CDA数据分析师官网

如何使用R进行聚类分析？

2023-06-15

聚类分析是一种常用的无监督学习方法，旨在将样本数据划分为相似的群组或簇。在R中，有多种聚类分析方法可供选择，包括层次聚类和K均值聚类等。本文将介绍如何使用R进行聚类分析。

数据准备

在进行聚类分析之前，需要先准备好要分析的数据集。数据通常以矩阵或数据框的形式呈现，其中每行代表一个样本，每列代表一个特征。在这里，我们将使用UCI Machine Learning Repository上的Iris数据集作为示例。该数据集包含150个样本，每个样本有4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。首先，我们需要从网络上下载数据集并导入到R中：

iris <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header = FALSE)
colnames(iris) <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species")

层次聚类

层次聚类是一种将样本逐步分组的方法，可以形成一个树形结构，称为树状图。在R中，可以使用hclust函数来执行层次聚类分析。hclust函数需要一个距离矩阵或相似性矩阵作为输入，因此我们需要首先计算样本之间的距离或相似性矩阵。在这里，我们将使用欧几里得距离来度量样本之间的距离：

dist_mat <- dist(iris[, 1:4], method = "euclidean")

接下来，我们可以使用hclust函数对距离矩阵进行聚类分析：

hc_res <- hclust(dist_mat, method = "ward.D2")

其中，method = "ward.D2"表示使用Ward方法进行聚类分析。Ward方法尝试最小化群组内方差的增加量，因此通常能够产生更紧密的群组。执行完聚类分析后，我们可以使用plot函数来绘制树状图：

plot(hc_res)

Hierarchical Clustering

从树状图中可以看出，Iris数据集可以被分成3个主要簇。我们还可以使用cutree函数将每个样本分配到不同的簇中：

cluster_labels <- cutree(hc_res, k = 3)

其中，k = 3表示我们期望将数据分为3个簇。可以通过以下方式查看每个样本所属的簇：

head(cluster_labels)
#> [1] 1 1 1 1 1 1

K均值聚类

K均值聚类是一种迭代方法，旨在将样本分为k个不同的簇，使得每个簇内部的样本之间的距离最小化。在R中，可以使用kmeans函数来执行K均值聚类分析。kmeans函数需要指定要分成的簇数，并且通常需要多次运行以避免收敛于局部最小值。

kmeans_res <- kmeans(iris[, 1:4], centers = 3, nstart = 20)

其中，centers = 3表示我们期望将数据分为3个簇，nstart = 20表示我们希

望执行20次随机初始化来避免局部最小值。

K均值聚类分析的输出包括每个样本所属的簇标签和每个簇的中心点。我们可以通过以下方式查看分配到每个簇的样本数量：

table(kmeans_res$cluster)
#> 
#>  1  2  3 
#> 38 50 62

从结果可以看出，Iris数据集被成功地分成了3个主要簇，每个簇都有相似的特征值。

可视化聚类结果

除了树状图之外，我们还可以使用其他方法来可视化聚类结果。例如，我们可以使用ggplot2包中的函数绘制散点图，并使用不同的颜色表示不同的簇：

library(ggplot2)

iris_clustered <- cbind(iris, cluster_labels)
ggplot(iris_clustered, aes(x = Sepal.Length, y = Petal.Width, color = factor(cluster_labels))) +
    geom_point()

Scatter plot with clusters

从散点图可以看出，不同簇的样本在花萼长度和花瓣宽度之间存在明显的差异。

总结

聚类分析是一种有用的无监督学习方法，可以帮助我们发现数据中隐藏的结构。在R中，我们可以使用层次聚类和K均值聚类等多种方法进行聚类分析。在进行聚类分析之前，我们需要准备好要分析的数据集，并选择合适的聚类算法和参数。最后，我们可以通过树状图、散点图等方式来可视化聚类结果。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

聚类聚类分析 K均值聚类树状图层次聚类散点图特征监督学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何识别信用卡欺诈行为？

下一篇如何使用算法来预测结果？

如何使用R进行聚类分析？

数据准备

层次聚类

K均值聚类

可视化聚类结果

总结

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...