MEAP01.RAW 中的数据是 2001 年密歇根州的数据。利用这些数据回答如下问题。
(1)求出 math4 的最大值和最小值。这个范围合理吗?请解释。
(2)有多少学校在数学测试中有 100%的通过率?占整个样本的百分比是多少?
(3)有多少学校的数学通过率刚好是 50%?
(4)比较数学和阅读的平均通过率。哪个测试更难通过?
(5)求出 math4 和 read4 之间的相关系数。你得到的结论是什么?
(6)变量 exppp 是平均每个学生的支出。求出 exppp 的平均值和标准差。你认为学生均支出
存在大幅差异吗?
(7)假设学校 A 平均每个学生支出 6000 美元,学校 B 平均每个学生支出 5500 美元。学校 A
的支出超过学校 B 的支出百分之多少? 与根据自然对数之差近似的百分比差异 100*[log(6000)-
log(5500)]进行比较。
准备:
在 RStudio 中导入 meap01
attach(meap01) #绑定数据集 meap01
library(mice) #载入检查缺失值的包 mice。
md.pattern(meap01) #检查一下是否有缺失值。结果是没有。
(1)求出 math4 的最大值和最小值。这个范围合理吗?请解释。
min(math4) #最小值为 0
max(math4) #最大值为 100
summary(math4) #查看一下 math4 的分布情况,虽然有考 0 分,也有考 100 分的,但在 25%分
位处就已经超过 60 分了。所以分布还算合理。
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 61.60 76.40 71.91 87.00 100.00
(2)有多少学校在数学测试中有 100%的通过率?占整个样本的百分比是多少?
a<-meap01[math4==100,] #选入 math4 等于 100 的观测并保存在 a 中。
length(a$math4) #统计有多少学校在数学测试中有 100%的通过率,结果为 38。
(3)有多少学校的数学通过率刚好是 50%?
b<-meap01[math4==50,] #选入 math4 等于 50 的观测并保存在 b 中。
length(b$math4) #统计有多少学校在数学测试中有 50%的通过率,结果为 17。
(4)比较数学和阅读的平均通过率。哪个测试更难通过?
mean(math4) #统计数学的平均通过率,结果为 71.909。
mean(read4) #统计阅读的平均通过率,结果为 60.06188。
因为 mean(math4)> mean(read4),所以阅读更难通过。
(5)求出 math4 和 read4 之间的相关系数。你得到的结论是什么?
cor(math4,read4,method = "pearson") #计算 math4 和 read4 之间的皮尔森相关系数,结果为
0.8427281。这是比较高的相关度,说明在数学考试中表现较好的学校,在阅读考试中表现也
较好。
(6)变量 exppp 是平均每个学生的支出。求出 exppp 的平均值和标准差。你认为学生均支出
存在大幅差异吗?
mean(exppp) #求学生的平均支出,得到 5194.865。
sd(exppp) #求学生支出的标准差,得到 1091.89。这表示学生的支出存在大幅差异。
(7)假设学校 A 平均每个学生支出 6000 美元,学校 B 平均每个学生支出 5500 美元。学校 A
的支出超过学校 B 的支出百分之多少?与根据自然对数之差近似的百分比差异 100*[log(6000)-
log(5500)]进行比较。(参加附录 A 中的 A.4 节。)
(6000-5500)/5500 #学校 A 的支出超过学校 B 的支出百分之多少,得到 0.09090909,与等于
9.1%。
100*(log(6000)-log(5500)) #求自然对数之差近似的百分比差异,得到 8.701138。这和上面的
9.1%比较接近。
detach(meap01) #解除绑定数据集 meap01
length(a$math4)/length(math4) #计算在数学测试中有 100%的通过率的学校占整个样本的百分
暂无数据