按条件选入观测；皮尔森相关系数

MEAP01.RAW 中的数据是 2001 年密歇根州的数据。利用这些数据回答如下问题。

（1）求出 math4 的最大值和最小值。这个范围合理吗？请解释。

（2）有多少学校在数学测试中有 100%的通过率？占整个样本的百分比是多少？

（3）有多少学校的数学通过率刚好是 50%？

（4）比较数学和阅读的平均通过率。哪个测试更难通过？

（5）求出 math4 和 read4 之间的相关系数。你得到的结论是什么？

（6）变量 exppp 是平均每个学生的支出。求出 exppp 的平均值和标准差。你认为学生均支出

存在大幅差异吗？

（7）假设学校 A 平均每个学生支出 6000 美元，学校 B 平均每个学生支出 5500 美元。学校 A

的支出超过学校 B 的支出百分之多少？与根据自然对数之差近似的百分比差异 100*[log(6000)-

log(5500)]进行比较。

准备：

在 RStudio 中导入 meap01

attach(meap01) #绑定数据集 meap01

library(mice) #载入检查缺失值的包 mice。

md.pattern(meap01) #检查一下是否有缺失值。结果是没有。

（1）求出 math4 的最大值和最小值。这个范围合理吗？请解释。

min(math4) #最小值为 0

max(math4) #最大值为 100

summary(math4) #查看一下 math4 的分布情况，虽然有考 0 分，也有考 100 分的，但在 25%分

位处就已经超过 60 分了。所以分布还算合理。

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.00 61.60 76.40 71.91 87.00 100.00

（2）有多少学校在数学测试中有 100%的通过率？占整个样本的百分比是多少？

a<-meap01[math4==100,] #选入 math4 等于 100 的观测并保存在 a 中。

length(a$math4) #统计有多少学校在数学测试中有 100%的通过率，结果为 38。

（3）有多少学校的数学通过率刚好是 50%？

b<-meap01[math4==50,] #选入 math4 等于 50 的观测并保存在 b 中。

length(b$math4) #统计有多少学校在数学测试中有 50%的通过率，结果为 17。

（4）比较数学和阅读的平均通过率。哪个测试更难通过？

mean(math4) #统计数学的平均通过率，结果为 71.909。

mean(read4) #统计阅读的平均通过率，结果为 60.06188。

因为 mean(math4)> mean(read4)，所以阅读更难通过。

（5）求出 math4 和 read4 之间的相关系数。你得到的结论是什么？

cor(math4,read4,method = "pearson") #计算 math4 和 read4 之间的皮尔森相关系数，结果为

0.8427281。这是比较高的相关度，说明在数学考试中表现较好的学校，在阅读考试中表现也

较好。

（6）变量 exppp 是平均每个学生的支出。求出 exppp 的平均值和标准差。你认为学生均支出

存在大幅差异吗？

mean(exppp) #求学生的平均支出，得到 5194.865。

sd(exppp) #求学生支出的标准差，得到 1091.89。这表示学生的支出存在大幅差异。

（7）假设学校 A 平均每个学生支出 6000 美元，学校 B 平均每个学生支出 5500 美元。学校 A

的支出超过学校 B 的支出百分之多少？与根据自然对数之差近似的百分比差异 100*[log(6000)-

log(5500)]进行比较。（参加附录 A 中的 A.4 节。）

(6000-5500)/5500 #学校 A 的支出超过学校 B 的支出百分之多少，得到 0.09090909，与等于

9.1%。

100*(log(6000)-log(5500)) #求自然对数之差近似的百分比差异，得到 8.701138。这和上面的

9.1%比较接近。

detach(meap01) #解除绑定数据集 meap01

length(a$math4)/length(math4) #计算在数学测试中有 100%的通过率的学校占整个样本的百分