抽样于二项分布的数据的期望方差是σ2=nπ(1–π), n为观测数, π为属于Y=1组的概率。所谓
过度离势,即观测到的响应变量的方差大于期望的二项分布的方差。过度离势会导致奇异的标准
误检验和不精确的显著性检验。
当出现过度离势时,仍可使用glm()函数拟合Logistic回归,但此时需要将二项分布改为类二
项分布(quasibinomial distribution)。
检测过度离势的一种方法是比较二项分布模型的残差偏差与残差自由度,如果比值:
比1大很多,你便可认为存在过度离势。回到婚外情的例子,可得:
> deviance(fit.reduced)/df.residual(fit.reduced)
[1] 1.032
它非常接近于1,表明没有过度离势。
你还可以对过度离势进行检验。为此,你需要拟合模型两次,第一次使用family=
binomial",第二次使用family="quasibinomial"。假设第一次glm()返回对象记为fit,
第二次返回对象记为fit.od,那么:
pchisq(summary(fit.od)$dispersion * fit$df.residual,
fit$df.residual, lower = F)
提供的p值即可对零假设H0: =1与备择假设H1: ≠1进行检验。若p很小(小于0.05),你便可拒
绝零假设。
将其应用到婚外情数据集,可得:
> fit <- glm(ynaffair ~ age + yearsmarried + religiousness +
rating, family = binomial(), data = Affairs)
> fit.od <- glm(ynaffair ~ age + yearsmarried + religiousness +
rating, family = quasibinomial(), data = Affairs)
> pchisq(summary(fit.od)$dispersion * fit$df.residual,
fit$df.residual, lower = F)
[1] 0.34
此处p值(0.34)显然不显著(p>0.05),这更增强了我们认为不存在过度离势的信心。下节
介绍泊松回归时,我们仍将对过度离势问题进行讨论。








暂无数据