R语言实现分层抽样(Stratified Sampling)以iris数据集为例-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言实现分层抽样(Stratified Sampling)以iris数据集为例

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

2017-07-02

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

1.观察数据集

head(iris)

选取数据集中前6个数据，我们可以看出iris数据集一共有5个字段。

dim(iris)

iris数据集一共有150条数据，5个字段

summary(iris)

观察各个变量的内容，可以看出前四个变量（Sepal.Length Sepal.Width Petal.Length Petal.Width）都是定量变量，而最后一个（Species）是定性变量，我们将依据最后一个变量作为分层抽样的依据。

library(sampling)

载入分层抽样的包sampling

n=round(3/5*nrow(iris)/3)

计算每一个种类的抽样数目。这里我们按照每种“Species”抽取3/5个样本进行抽样。

sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")
head(sub_train)

stratanames参数是抽样依据的变量，size参数是每个种类抽样的数目，这里我们用上一步计算出来的n作为抽样数目，method是抽样方法，我们选择srswor。

data_train=iris[sub_train$ID_unit,]
data_test=iris[-sub_train$ID_unit,]

将抽样结果分别定义为训练集（data_train）和测试集（data_test)。

dim(data_train);dim(data_test)

观察训练集和测试集的字段和数据数目。符合我们的抽样预期。

head(data_train);head(data_test)

观察训练集和测试集的前几条数据。

data_train；data_test

查看总的抽样结果，这里数据量太大不再给出。

write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")
write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")

保存数据集

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

字段 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA数据分析师：线性回归建模实战，从关联分析到业 ...

【CDA干货】因子分析如何分组：核心原理、实操流程 ...

【CDA干货】数据赋能营销：从经验决策到科学增长的 ...

CDA数据分析师：用好相关系数，精准挖掘变量关联、 ...

【CDA干货】数据分析与A/B测试：相辅相成的数据决策 ...

【CDA干货】卡方检验是显著性检验吗？一文厘清定义 ...

CDA数据分析师：方差分析与F检验，多组数据差异验证 ...

【CDA干货】Excel如何创建稳定备注列：适配动态更新 ...

【CDA干货】Tableau实用案例全解：从业务场景到可视 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载