先来具体看一下经验分布函数的定义:首先,根据大数定理(详见1.4.1节),在抽样的次数足够大时,可以把抽样结果的频率当做概率。所以经验分布函数的核心思想就是把频率分布函数当作概率分布函数。来看一个例子。
若已知样本值\(x_1,x_2,\cdots x_n\) 的频数、频率分布见下表。
指标\(X\) | \(x_{1}^{*}\) | \(x_{2}^{*}\) | \(\cdots\) | \(x_{l}^{*}\) |
---|---|---|---|---|
频率\(f_i\) | \(n_{1}\) | \(n_2\) | \(\cdots\) | \(n_l\) |
频数\(n_i\) | \(\frac{n_1}{n}\) | \(\frac{n_1}{n}\) | \(\cdots\) | \(\frac{n_l}{n}\) |
则经验分布函数被定义为:
$$F_{n}(x)=\begin{cases}0,&x<x_{1}^{*}\\ \frac{n_{1}+\ldots+n_{i}}{n},&x_{i}^{*}\leq x<x_{i+1}^{*}\\1,&x\geq x_{l}^{*}\end{cases}\quad\left(i=0,1,2,\ldots,l-1\right)$$
像经验概率分布这种把频率分布函数作为概率分布函数是有理论依据的,被称为格里汶科定理(了解):对于任意实数\(x\) ,当\(n\to\infty\) 时,经验分布函数\(F_n(x)\) 以概率1一致收敛于概率分布函数\(F(x)\) 。即当\(n\) 充分大时,经验分布函数的任一个观察值\(F_n(x)\) 与总体分布函数\(F(x)\) 只有微小的差别,从而实际上可当作\(F(x)\) 来使用。
1.总体与样本
把所研究的全部元素组成的集合称为总体:而把组成总体的每个元素称为个体。
生活中很多问题的总体是不可统计的,因此需要根据样本来估计总体的参数。一方面, 可以使用样本估计的经验分布函数为这个问题选择一个相似的理论概率分布函数,就可以使用这些理论概率分布的性质来进一步解决问题了。另一方面,也可以先假设问题的理论概率分布函数,再通过使用样本估计的经验分布函数来验证之前的假设是否成立。值得注意的是, 这种通过样本估计总体的做法肯定是有偏差的,怎么衡量这些偏差呢?可以使用接下来介绍的标准误差和置信区间进行描述。
经验概率分布是基于样本数据得出的概率分布。可以用于检验理论假设:还可以帮助为一批未知数据选择最合适的理论分布。尝试确定适当的理论分布时,应该考虑数据生成机制。
2.标准误差
回忆一下,假设数据是正态分布的。一旦知道了均值和标准差(SD),便知道了分值分布的全部情况。根据概率表,对于任一个正态分布,大概2/3(精确的是\(68.2\%\) )的分值
会落在均值-1SD和均值.+1 SD之间。\(95.4\%\) 的在均值-2SD和均值+2 SD之间。SD表示分值环绕均值的分布情况,
生活中大部分研究的目的是预计某个整体的参数,如总体均值和总体标准方差。前面提到过很多问题的总体是不可统计的,因此需要根据样本来估计总体的参数。一旦有了估计值, 另外一个问题随之而来:这个预计的精确程度怎样?这问题看上去无解。如果不知道确切的整体参数值,怎么能评价预计值的接近程度呢?可是曾经的统计学家们没有被吓倒。科学家们给出了答案:将解法求助于概率,把问题转化成:真实整体均值处于某个范围内的概率有多大?
具体一些,回答这个疑问的一种方法反复研究(实验)几百次,获得非常多组的样本, 计算其均值。然后取这些样本均值的平均值,同一时候也计算得出它们的标准方差。然后用概率表可预计出一个范围,比如,包含\(90\%\) 或者\(95\%\) 的这些均值预计。这时就可以说整体均值\(90\%\) 或者\(95\%\) 会落在这个范围内。
我们给这些样本均值的标准差成为:均值的标准误差(thestandarderrorofthemean), 或标准误差(standarderror,SE)。其中有个关键点,为了得到“这些”样本均值,要反复研究(实验)很多次。但是,有些问题做一次研究已经非常困难了,不要说几百次了。好在一向给力的统计学家们已经想出了基于单项研究(实验)确定SE的方法,即标准误差的计算公式:
总体标准差:
$$S=\sqrt{\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n-1}}$$
样本标准差:
$$\sigma=\sqrt{\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n}}$$
标准误差:
$$\sigma_n=\frac{\sigma}{\sqrt{n}}$$
先从直观的角度来讲:是哪些因素影响了对预计精确性的推断?一个明显的因素是研究的规模。样本规模\(N\) 越大,反常数据对结果的影响就越小,结果就越接近整体的均值。所以, \(N\) 应该出现在计算\(\sigma_{n}\) 公式的分母中:由于\(n\) 越大, \(\sigma_{n}\) 越小。相似的,第二因素是:数据的波动越小,越相信均值预计能精确反映它们。所以\(\sigma\) 应该出现在计算公式的分子上: \(\sigma\) 越大, \(\sigma{n}\) 越大。
所以,标准差实际上反映的是数据点的波动情况,面标准误差则是样本均值的波动情况, 标准误差可以反映用样本均值来估计总体均值的可靠性。标准误差越小,表明当前用样本均值来估计总体均值的做法越可靠。
最后总结一下标准差和标准误差:本质上二者是同一个东西(都是标准差),但前者反映的是一种数据与均值的偏离程度,后者反映的是一种“差错”,即用样本统计量去预计整体参数数的时候,对其“差错”大小(也即预计精度)的衡量。
3.置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。1.3.7.2节中针对标准误差SE,我们提到了某个值范围。有\(95\%\) 或者\(99\%\) 的信心觉得真实值就处在其中。这里称这个值范围为”置信区间”(Confidenceintervals,CI)。接下来介绍它的计算方法。
观察正态分布表,会发现\(95\%\) 的区域处在-1.96SD和+1.96SD之间。
回想到前面的考试的样例。分数均值是500,SD是100。在这个参数下, \(95\%\) 的分数处在304和696之间。怎样得到这两个值呢?首先把SD乘上1.96,然后从均值中减去这部分, 便得到下限304,即\((500-1.96\times100)\) 。假设加到均值上便得到上限696,即\((500+1.96\times100)\) CI也是这样计算的,不同的地方是采用SE替代SD。
所以计算\(95\%\) 置信区间的CI的公式是:
\(95\%\)CI= 均值\(\pm(1.96\times)SE\)
SD反映的是数据点环绕均值的分布状况,是数据报告中必须有的指标。SE则反映了均值波动的情况,是研究反复多次后,期望得到的差异程度。SE自身不传递非常多实用的信息,主要功能是计算\(95\%\) 和\(99\%\) 的CI。CI反映的是真实的总体均值存在的范围。
暂无评论内容