JTRAIN2.RAW 中的数据,来自 1976-1977 年对低收入男性进行的一项工作培训实验;参见
Lalonde(1986)。
(1) 利用指标变量 train 来确定得到工作培训的男性比例。
(2)变量 re78 是 1978 年得到的工资,以 1982 年的美元度量。针对得到工作培训的男性样本
和未得到工作培训的男性样本,分别计算 re78 的平均值。二者在经济上的差别大吗?
(3)变量 unem78 是表示一个男人在 1978 年是否失业的指标变量。得到工作培训者的失业比
例是多少?没有得到工作培训者呢?评论两者之间的差异。
(4)根据第(1)部分和第(2)部分,工作培训项目看来有效吗?如何使我们的结论更有说
服力?
准备:
在 RStudio 中导入 JTRAIN2
attach(JTRAIN2) #绑定数据集 JRTAIN2
library(mice) #载入检查缺失值的包 mice。
md.pattern(JTRAIN2) #检查一下是否有缺失值。结果是没有。
(1)利用指标变量 train 来确定得到工作培训的男性比例。
sum(train)/length(train) #确定得到工作的男性的比例,结果为 0.4157303。
(2)变量 re78 是 1978 年得到的工资,以 1982 年的美元度量。针对得到工作培训的男性样本
和未得到工作培训的男性样本,分别计算 re78 的平均值。二者在经济上的差别大吗?
a<-aggregate(JTRAIN2["re78"],by=list(train),FUN=mean,na.rm=TRUE) #用 aggregate 命令(《R 语
言实战》第 101 页)针对得到工作培训的男性样本和未得到工作培训的男性样本,分别计算
re78 的平均值,结果保存在 a 中。
a #展示结果。可以发现有培训的男性的工资是 6.35,没有培训的男性的工资是 4.55。在经济
上差别较大。
Group.1 re78
1 0 4.554802
2 1 6.349145
(3)变量 unem78 是表示一个男人在 1978 年是否失业的指标变量。得到工作培训者的失业比
例是多少?没有得到工作培训者呢?评论两者之间的差异。
b<-aggregate(JTRAIN2["unem78"],by=list(train),FUN=mean,na.rm=TRUE) #用 aggregate 命令(《R
语言实战》第 101 页)针对得到工作培训的男性样本和未得到工作培训的男性样本,分别计
算 unem78 的平均值(由于 unem78 在某个体失业时为 1,没有失业为 0,其平均值就是失业
者的占比),结果保存在 b 中。
b #展示结果。可以发现有培训的男性的失业者比例是 0.24,没有培训的男性的失业者的比例
是 0.35。在经济上差别较大。
Group.1 unem78
1 0 0.3538462
2 1 0.2432432
(4)根据第(1)部分和第(2)部分,工作培训项目看来有效吗?如何使我们的结论更有说
服力?
第(1)部分和第(2)部分的比较都是基于经济学的比较,没有基于统计学的比较。如果要有
信服力的话需要做统计学上的显著性检验。
t.test(re78~train) #对 re78 做 T 检验,结果 p-value = 0.007893,我们可以拒绝认为得到工作培
训者的工资均值和没有得到工作培训者的工资均值相同。 (《R 语言实战》第 151 页)
t.test(unem78~train) #对 unem78 做 T 检验,结果 p-value = 0.01117,我们可以拒绝认为得到工
作培训者的失业比例均值和没有得到工作培训者的失业比例均值相同。(《R 语言实战》第
151 页)
detach(JTRAIN2) #解除绑定数据集 JTRAIN2
暂无数据