统计量和抽样分布

统计量

在数理统计学中,把研究对象的全体所构成的集合称为总体或母体,而把组成总体的每一个元素称为个体。在实际中,总体的分布往往不可得,因此统计学基本可以看作是用样本来推测总体分布情况的学科。
样本是进行统计推断的依据,但在应用中往往不是直接利用样本本身,而是针对样本进行“加工”和“提炼”,把样本中值得关心的信息集中起来构成关于样本的适当函数,利用这些样本的函数进行统计推断。这些样本函数被称为统计量。简单的统计量有样本均值、众数、中位数、四分位数、样本方差和标准差等;除此之外,还有基于抽样分布的统计量:\(z\)值、\(t\)值、\(f\)值和卡方值。

抽样分布

首先想一个问题,为什么要抽样,如果可以得到全部总体数据,那就不用进行抽样了。但在实际情况中往往无法得到全部数据,所以通过样本反映总体数据的情况。总结一下,通过抽样的方式,从总体(个体容量为\(N\))多次取出样本(个体容量为\(n\)),通过样本的某个统计量的情况,来预估总体的情况,目的就是为了省时省力且要准确。

现代统计学奠基人之一、英国统计学家费希尔(Fisher)曾把抽样分布、参数估计和假设检验看作统计推断的三大中心内容。

统计学中,需要研究统计量的性质,并评价一个统计推断的优良性,而这些取决于其抽样分布的性质,所以抽样分布是统计学中的重要内容。
统计学中常见的抽样分布有4种:正态分布(normal distribution)、卡方分布(\(c^2\)Chi-square distribution)、t分布(Student’s t distribution)、F分布(F distribution),后面三大分布都是在正态分布的基础上推导出来的。这些分布都是一些样本统计量的常见分布,是统计学家对常见统计量分布现象的总结,读者们不要太过纠结这些分布是怎么得来的,为什么长这个样子?初学阶段只需要先认识它们,知道它们大概是干什么用的,以及它们的统计量:\(z\)值、\(t\)值、值、\(f\)值和卡方值。

抽样分布相关概念:
(1)总体:是准备对其进行测量、研究或分析的整个群体。 一般对总体的调查方法为普查,如人口普查。
(2)样本:是从总体中选取的一部分,用于代表总体。
(3)样本均值:一个样本中所有数据的平均值,用\(\bar{x}\)表示。
(4)总体均值:要研究的总体中所有数据的平均值,用\(m\) 表示。
(5)抽样分布:将多组样本平均值可视化,叫做抽样分布。

1)正态分布与Z分布

正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若连续型随机变量\(X\) 的密度函数为

$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\mathrm{e}^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}},-\infty<x<+\infty $$

其中, \(m\) 为数学期望、 \(s^2\) 为方差、 \(s\) 为标准差。\(m,s(s>0\) )都为常数,则称\(X\) 服从参数为\(m,s\)的正态分布,简记为\(X\sim N(m,s^{2})\)。因其曲线呈钟形,因此人们又经常称之为钟形曲线。此外,我们通常所说的标准正态分布是\(m= 0, s =1\)的正态分布。

Z值又称标准分数,是一个实测值与平均数的差再除以标准差的过程。Zscore通过(x-m)/s将两组或多组数据转化为无单位的Z score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。乙值的量代表着实测值和总体平均值之间的距离,是以标准差为单位计算。大于平均数的实测值会得到一个正数的乙值,小于平均数的实测值会得至一个负数的Z值。

根据中心极限定理,当样本量足够大时(一般大于30),从总体中多次抽样得到的均值们服从正态分布。将这个分布求z 值得到的2 分布服从标准正态分布。

$$z=\frac{\overline{x}-m}{\frac{s}{\sqrt{n}}}$$

但是,这个总体标准差\(S\) 往往很难得到,因此不得已需要用样本标准差s 来代替,这时候就服从分布,即:

$$\mathbf{t}=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\sim\mathbf{t}\big(n-1\big)$$

2)卡方分布

设随机变量服从正态分布\(X_{1},X,\cdots,X_{n}\sim N(0,1)\) 且相互独立,记\(c{}^{2}=X_{1}^{2}+X_{2}^{2}+\cdots+X_{n}^{2}\) 则称随机变量\(c^2\) 服从的分布为自由度为\(n\) 的\(c^2\) 分布,记为\(c^{2}\sim c^{2}(n)\) 。其概率密度为:

$$f(x)=\begin{cases}\frac{1}{2^{\frac{n}{2}}\:\Gamma!\left(\frac{n}{2}\right)}x^{\frac{n}{2^{-1}}\mathrm{e}^{x/2}},&\quad x>0\\\\0,&\quad x\le0\end{cases}$$

\(c^2\) 分布的概率密度函数\(f(x)\) 的图像如下图所示, \(f(x)\) 随\(n\) 取值不同而不同。

图片[1]-统计量和抽样分布-点头深度学习网站
卡方分布的概率密度函数

\(c^2\) 分布具有下列性质:

(1)若\(c^2\sim c^2(n_2)\) ,则\(E(c^2)=n,D(c^2)=2n\)。
(2)\({c}^{2}\) 分布的可加性:若\(c_1^2\sim C^{2}(n_{1}),c_2^{2}\sim C^{2}(n_{2})\) 且相互独立,则\(c_{1}^{2}+ c_{2}^{2}\sim c^{2}(n_{1}+ n_{2})\)。
(3)当自由度是2的时候,比较特殊,刚好是指数分布。
(4)当自由度大于2的时候,卡方分布的曲线都是单峰曲线,在\(n-2\) 处取得峰值。

(5)曲线关于\(x=n-2\) 是不对称的,当\(n\) 越大,峰向右移动;当\(n\) 无限大时,可以用正态分布近似。

(6)此外,卡方分布还有一个推论:

$$\frac{(n-1)s^2}{\nabla^2}\sim\chi^2(n-1)$$

解释一下:样本方差\(s^2\) 乘上自由度\((n-1)\) ,再除以总体方差\(\nabla^{2}\) 服从\(\chi^{2}(n-1)\) 。这个推论体现的是样本方差的抽样分布服从卡方分布。

假设\(O\) 代表某个样本中某个类别的观察频数, \(E\) 是期望频数, \(O\) 与\(E\) 之差称为残差。残差可以表示某一个类别变量观察值和期望值的偏离程度。但因为残差有正有负,相加后会彼此抵消,因此不能将残差简单相加以表示观察频数与期望频数的差别,为此可以将残差进行平方然后求和。另一方面,残差的大小是一个相对的概念。例如,当期望频数为10时, 残差为20显得较大,但当期望频数为1000时,20的残差就很小了。考虑到这一点,又将残差平方除以期望频数。对于多个观察值,只要将这些残差平方相加,得到的数值就是。2 (c² statistic), \(c^2\) 值服从卡方分布。\(c^2\) 值的计算公式为:

$$\chi^2=\sum\frac{\left(O-E\right)^2}{E}$$

该公式统计量卡方值的计算方法与样本方差的计算方法类似,实际上,样本方差的抽样分布都将趋于卡方分布,严格来讲就是之前提到的推论:样本方差\(s^2\) 乘上自由度\((n-1)\) , 再除以总体方差\(\nabla^{2}\) 服从\(\chi^{2}(n-1)\) 。

从上图卡方分布的概率密度函数图中可以看出:卡方值都是正值,呈右偏态,随着自由度的增大,其分布趋近于正态分布(卡方分布的极限就是正态分布)。

3)t分布

t统计量是英国化学家、数学家、统计学家WilliamSealyGosset提出的,当年他在爱尔兰的吉尼斯酒厂工作时,酒厂禁止其将研究成果公开发表,以免泄露秘密,追不得已Wllian SealyGosset以笔名“TheStudent”发表研究成果,t统计量及t分布的命名就是源于改笔名。

设随机变量X服从正态分布\(X\sim N(0,1)\) ,随机变量\(Y\) 服从卡方分布\(Y\sim c^{2}(n)\) ,且\(X\) 与\(Y\)相互独立。新随机变量\(T=\frac{X}{\sqrt{\frac{Y}{n}}}\) 所服人的分有为自由度为\(n\) 的\(t\)分有(学生分布),记为T~t(n),其概率密度为:

$$f(x)=\frac{\Gamma\biggl(\frac{n+1}{2}\biggr)}{\sqrt{n\pi}\Gamma\biggl(\frac{n}{2}\biggr)}\biggl(1+\frac{x^{2}}{n}\biggr)^{-\frac{n+1}{2}},-\infty<x<+\infty $$

有读者会疑问在公式\(\mathbf{t}=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\sim\mathbf{t}\big(n-1\big)\)中讲到的\(\mathbf{t}=\frac{\overline{x}-\mu}{s/\sqrt{n}}\sim\)t\(\left(n-1\right)\) 这里又设t= \(\frac X{\sqrt {\frac Yn}}\) 到底哪个正确的呢?

其实是等价的,可以推导一下:

$$此处需要手写$$

根据卡方分布的推论:

$$\frac{(n-1)s^2}{\nabla^2}\sim\chi^2(n-1)$$

又因为:

$$\frac{s}{\sigma}=\sqrt{\frac{n}{n}\frac{s^{2}}{\sigma^{2}}}=\frac{\sqrt{\frac{ns^{2}}{\sigma^{2}}}}{\sqrt{n}}=\frac{\sqrt{Y}}{\sqrt{n}}$$

可限\(\mathbf{t}=\frac{X}{\sqrt{\frac{Y}{n}}}\)

t分布的概率密度函数的图像如下图所示。

图片[2]-统计量和抽样分布-点头深度学习网站
t分布的概率密度函数\(f(x)\)

显然, \(f(x)\) 随\(n\) 不同而不同,且\(f(x)\) 为偶函数。当\(n\to\infty\) 时,t分布密度趋于标准正态分布密度。

小结一下,虽然可以基于正态分布使用样本统计量来估计总体参数。但是,在实际应用中,总体的均值和标准差往往是未知的,因此常用样本的均值和标准差作为总体的估计值。由于估计存在误差,这样计算出来的z值不完全服从正态分布。Gosset通过计算大量样本均值和样本均值标准差的比值,得到了这个比值的分布,叫做t分布。注意,这里假设总体服从正态分布。

按照计算z值的方式,用样本标准差\(s\) 代替总体的标准差\(s\) ,这个数值就叫做t统计量(tstatistic),t统计量的分布服从t分布。t统计量的计算公式为:

$$t=\frac{\overline{x}-\mu}{s\:/\:\sqrt{n}}$$

其中\(\overline{x}\) 是随机样本均值, \(\mu\) 是总体均值, \(s\) 是样本标准差, \(n\) 是样本量。

t分布以0为中心,左右对称,其形态变化与自由度\(v\) (degrees of freedom)有关。自由度\(v\) 越小,t分布曲线越低平;自由度\(v\) 越大,t分布曲线越接近标准正态分布曲线。(自由度指在数据集中能自由变化的观察值的数量,对于某个抽样样本来说,其自由度等于样本中的观察值数量减一,即\(v=n-1\) )

当样本量接近30时,t分布开始逐渐接近标准正态分布(中心极限定理)。因此,t分布被广泛使用,因为其不管对于小样本或者大样本都是正确的,而正态分布只对大样本正确(样本超过30)。在实际使用中,通常都使用t检验,相较于正态分布,t分布的特点是尖峰厚尾。t分布能够很好的消除异常值带来的标准差波动。

至于t分布的区间估计,通过自由度(v)和设置置信度(l-a),在t值表(t-table)上查找出对应的t值,然后可以计算出在这个置信度下,总体均值的置信区间(区间估计),与查z值表计算置信区间的流程相同。

4)f分布

设随机变量\(U,V\) 相互独立且服从卡方分布,即\(U\sim{C}^{2}(n_{1}),V\sim{c}^{2}(n_{2})\) ,则称随机变量F= \(\frac {U/ n_{1}}{V/ n_{2}}\) 服从的分布有为自由度为\((n_{1},n,)\) 的F分布,记为F\(\sim\)F\((n_1,n_2)\)

F\(( n_1, n_2)\) 分布的概率密度为:
$$f(x)=\begin{cases}\frac{\Gamma\biggl(\frac{n_1+n_2}{2}\biggr)}{\Gamma\biggl(\frac{n_1}{2}\biggr)\Gamma\biggl(\frac{n_2}{2}\biggr)}\biggl(\frac{n_1}{n_2}\biggr)\biggl(\frac{n_1}{n_2}x\biggr)^{\frac{n_1}{2}-1}\biggl(1+\frac{n_1}{n_2}x\biggr)^{-\frac{n_1+n_2}{2}}&,x>0\\\\0&,x\leq0\end{cases}$$

F分布的概率密度函数的图像随\(n_1,n\), 取值不同而不同,如下图所示。

图片[3]-统计量和抽样分布-点头深度学习网站
f分布的概率密度函数

从上图中很容易了解到,当\(n_{1}\) 和\(n_{2}\) 逐渐增大时,F分布的形状接近正态分布,但仍然是正偏态的。这是因为:

(1)中心极限定理:当样本量越大,很多统计量的分布(特别是均值的分布)会越来越接近正态分布。

(2)方差比较:F分布是两个卡方分布的比率,而卡方分布是正偏态的。当自由度增加时,卡方分布也逐渐接近正态分布。因此,两个大自由度的卡方分布的比率会更加接近正态分布。

值得注意的是,尽管其形状类似于正态分布,F分布始终是正偏态的,并且定义在\((0,\infty)\) 。

t检验可以用来检验单个样本的均值是否和总体一致,或者检验两个总体的均值是否一致。那么如果需要检验两个以上的总体均值是否一致该怎么办呢?为此,Fisher创造出了方差分析(analysisofvariance,ANOVA)。注意方差分析不是分析方差!是根据方差的思想, 来分析多总体均值的比较。

将多个样本之间的方差(组间方差)除以样本内部的方差(组内方差),得出的比率被称为F值(FRatio),F值服从F分布。F值的计算公式为:

$$\mathrm{F}=\frac{\sum n_k(\overline{x_k}-\overline{x_G})^2\:/\:(k-1)}{\sum(x_i-\overline{x_k})^2\:/\:(N-k)}$$

其中\(x_{G}\) 是总均值\(\overline{x_{G}}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{N}\) , \(k\) 是样本数量, \(N\) 是\(k\) 个样本的总观察值的数量。

如果组间方差和组内方差相差不大,那么F值应该在1附近,说明这些样本的均值是一致的:如果F值远远大于1,那么说明不是所有的样本均值都是一致的。

F分布是一种非对称分布,它有两个自由度,即\(n-1\) 和\(m-n\) ,相应的分布记为F\((n-1,m-n)\)。\(n-1\) 通常称为分子自由度,因为如果知道\(n-1\) 个组的均值和整体均值,可以推算出第\(n\) 个组的均值。\(m-n\) 通常称为分母自由度,这是因为如果总共有\(m\) 个观察值,并且有\(n\) 个组,从每个组中都需要减去一个自由度来估计该组的均值,所以总共需要减去\(n\) 不同的自由度决定了F分布的形状。

这里对F统计值的计算给出以下步骤

(1)把\(n\) 组数据放在一起,看成一个总体,算出这个总体的均值\(m\)。

(2)计算出每组数据的组内平均值\(\hat{m}_{1},\hat{m}_{2},\cdots \hat{m}{n}\)

(3)计算出组间差异: \(ssb=n_1\left(\hat{\mu}_1-\hat{\mu}\right)^2+n_2\left(\hat{\mu}_2-\hat{\mu}\right)^2+\cdots+n_n\left(\hat{\mu}_n-\hat{\mu}\right)^2\)

(4)计算出组内差异: \(ssw=\sum_{i=1}^{n_{1}}\left(x_{i}-\hat{u}_{1}\right)^{2}+\sum_{i=1}^{n_{2}}\left(y_{i}-\hat{u}_{2}\right)^{2}+\cdots\)
(5)计算F值:\(F=\frac{\mathrm{ssb}/n- 1}{\mathrm{ssw}/ m-n}\sim F\left(n-1,m-n\right)\)

小结

(1)样本均值和样本标准差的比值,将趋于t分布。
(2)样本均值在样本量大于30时,将趋于正态分布。
(3)样本方差的抽样分布,将趋于卡方分布。
(4)多个样本之间的方差(组间方差)除以样本内部的方差(组内方差)服从f分布。

可以看出,样本均值于t分布和正态分布相关;样本方差与卡方分布和f分布相关。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容