参数估计

统计推断是依据从总体中抽取的一个简单随机样本对总体进行分析和判断。统计推断的基本问题可以分为两大类:一类是参数估计问题,一类是假设检验问题。本节主要讨论总体参数的点估计和区间估计。点估计的核心思想可以概括为离散思想,区间估计的核心思想可以概括为连续思想。对点估计,利用样本的离散值进行参数估计:对区间估计,其利用了区间这一有效工具,通过特定的方法进行分析,是在某些方面相对点估计更好的估计方式,

参数的点估计

参数是指总体分布中的未知参数,若总体分布形式已知,但它的一个或多个参数为未知时需借助总体\(X\) 的样本来估计未知参数。例如,在正态总体\(N(m,s^2\) )中, \(m,s^2\) 未知, \(m\) 与\(s^2\) 就是参数;若在指数分布\(E(l\) )的总体中,\(l\)未知,则\(l\)是参数。所谓参数估计就是由样本值对总体的未知参数作出估计。

点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:

(1)矩估计法,用样本矩估计总体矩。
(2)最大似然估计法,利用样本分布密度构造似然函数来求出参数的最大似然估计。
(3)最小二乘法,主要用于线性统计模型中的参数估计问题。
(4)贝叶斯估计法。

作为入门介绍,这里不细究这些方法怎么计算,而且现在有很多科学计算库可以让读者直接在计算机中导包计算,先记住参数估计的思想就好。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类: 一类是小样本准则,即在样本大小固定时的优良性准则:另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。这里不针对两个情况进行展开分析,仅介绍三个常见的优良性准则:

1.无偏性

无偏性不是要求估计量与总体参数不得有偏差,因为这是不可能的,既然是抽样,必然存在抽样误差,不可能与总体完全相同。无偏性指的是如果对这同一个总体反复多次抽样, 则要求各个样本所得出的估计量(统计量)的平均值等于总体参数。符合这种要求的估计量被称为无偏估计量。

在随机抽样中,有时会抽到偏小的单位,有时会抽到偏大的单位,在无偏估计的情况下, 这种误差没有系统性方向,随着样本的增加,这有大有小的误差会相互抵消,因此无偏估计量是指没有系统性误差。有偏估计量则不同,它的误差不会随着样本的增大而消失,而是具有一定的方向,会产生系统性误差。无偏性估计如下图(a)所示,有偏估计如下图(b)所示,通过对比图可以更好的理解无偏性。

图片[1]-参数估计-点头深度学习网站
(a)无偏估计
图片[2]-参数估计-点头深度学习网站
(b)有偏估计

无偏估计vs有偏估计

2.有效性

有效性也称为最小方差性,指的是估计量在所有无偏估计量中具有最小方差。估计量与总体之间必然存在着一定的误差,衡量这个误差大小的一个指标就是方差,方差越小,估计元对总体的估计地就越准确,这个估计量地就越有效

3.一致性

一致性指的是随者样本量的增大,估计量的值越来越接近被估计的总体参数。如果一个估计量是一个一致估计量,那么样本容量越大,代表性就越好,估计的可靠性就越高:如果不是一致估计量,增大样本容量不会提高其代表性。

简而言之,参数的点估计就是利用丛总体中抽取样本进行参数估计,并把结果当作总体参数的过程。

参数的区间估计

点估计值经常有差异。为了解决这个问题,有了区间估计的做法。通俗地进:区间估计是在点估计的基础上,给一个合理取值范围。

比如:抽样鸡腿的平均重量为150克,是一个点估计值。抽样鸡腿的平均重量为14克到155克之间,是一个区间估计。

其中,145到155称为置信区间。这很符合人们的常规理解:东西很难\(100\%\) 准确,有个范围也是可以理解的

但这个范围有多大可信度呢?通常用置信水平来衡量,即:“有多大把握,真实值在置信区间内”。一般用(1-a)表示。如果a取0.05,则置信水平为0.95,即\(95\%\) 的把握。a指的是显著性水平,

置信区间与置信水平连起来,完整的表达为:“有\(95\%\) (置信水平)的把握,鸡腿平均重量在145至155克之间(置信区间)。

有小伙伴会好奇,为什么置信水平不是\(100\%\) !通俗地说,当置信水平太高时,置信区间会变得非常大,从而产生一些正确但无用的结论

比如:有\(100\%\) 的把握,一个人的体重在0KG到100KG之间…这是句正确的废话。

如何做区间估计

做区间估计需要四步

(1)确认抽样对象和要计算的指标(比如样本均值)。

(2)进行抽样,获得样本数据(根据中心极限定理:多次抽样计算得到的样本均值呈现正态分布)。

(3)给定置信水平(1-a值),正态分布下一般根据经验法则选取(例如, \(68\%\) 、 \(95\%\) \(99.7\%\) )。

(4)利用Z分布(两个标准差内包含\(95\%\) 数据),求出对应置信区间范围:

$$\begin{aligned}\nabla_{\bar{x}}&=\frac{\sigma}{\sqrt{n}}\\ \bar{x}-2\sigma_{\bar{x}}<&\mu<\bar{x}+2\sigma_{\bar{x}}\\ \pi-2\frac{\sigma}{\sqrt{n}}<&\mu<\pi+2\frac{\sigma}{\sqrt{n}}\end{aligned}$$

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容