热线电话:13121318867

登录
2018-11-14 阅读量: 940
点估计和区间估计

用样本平均数 来估计总体的平均数称为点估计。点估计命中目标的机会是极低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最除了点估计,还要用区间估计。根据中央极限定理和正态分布的特性我们知道 这个区间包含着全体平均数μ的机会有68%(为了简洁表达,我们后文省去“约”), 的机会有95%,而 的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7%就称做是置信水平。说得更确切一点,以95%置信水平为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,置信水平越高,估计的区间也就越宽,这是高置信水平所必须付出的代价。

刚刚提到过一个好的估计必须既准又稳,我们用 来估计μ,如果做很多次的话,会有很多个 。中央极限定理已经给我们保证,这些 的平均数会等于,所以是「准」的估计已无问题,但是这些 是否都靠近在一起,称得上是「稳」呢?这就要看这些 的标准差了。我们已经知道 的标准差是 ,其中 是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。其次, 是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它,因此为了要知道估计的准确程度,连全体资料的 也要一起估计才行。

至少有两种方法来估计 ,一是用样本观察值的标准差,它的定义是:

在数学上可以证明用 来估计 是合乎「准」的要求的,但是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设计。二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个标准差的距离大概可以网罗绝大部分的数据。所以我们可以用常识判断,找出这组资料可能的最大数和最小数的差,再除以六,即是我们对 的速简估计,因为从最小数到最大数之间大概有六个标准差的距离。

确定抽样估计的理论、抽样的多种组织形式。确定必要样本容量的原因,必要样本容量的影响因素。明确概率统计的各个知识点与业务环境、数据分析三者间的对应关系。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子