假设检验的目的与参数估计的目的相同,都是根据样本求总体的参数,但是思想正好相反。可以把参数估计看作正推,即根据样本推测总体:而假设检验是反证,即先在总体上作某项假设,用从总体中随机抽取的一个样本来检验此项假设是否成立。
假设检验可分为两类:一类是总体分布形式已知,为了推断总体的某些性质,对其参数作某种假设,一般对数字特征作假设,用样本来检验此项假设是否成立,称此类假设为参数假设检验。另一类是总体形式未知,对总体分布作某种假设。例如,假设总体服从泊松分布, 用样本来检验假设是否成立,称此类检验为分布假设检验。
假设检验依据的是小概率思想,即小概率事件在一次试验中基本上不会发生。如果样本数据拒绝该假设,那么说明该假设检验结果具有统计显著性。一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的,而是设立的假设错误,其实这个思想前人早就有过总结:事出反常必有妖。
假设检验的常见术语
(1)零假设(nullhypothesis):是试验者想收集证据予以反对的假设,也称为原假设, 通常记为\(H0\) 。例如:零假设是检验“样本的均值不等于总体均值”这一观点是否成立。
(2)备择假设(altermativehypothesis):是试验者想收集证据予以支持的假设,通常记为H。例如:备择假设是检验“样本的均值等于总体均值”这一观点是否成立。
(3)双尾检验(two-tailedtest):如果备择假设没有特定的方向性,并含有符号“ \(=/\) ”, 这样的检验称为双尾检验。例如上面给出的零假设和备择假设的例子。
(4)单尾检验(one-tailed test):如果备择假设具有特定的方向性,并含有符号“ \(‘>\) 或“<”,这样的检验称为单尾检验。单尾检验分为左尾(lowertail)和右尾(uppertail)。例如:零假设是检验“样本的均值小于等于总体均值”,备择假设是检验“样本的均值大于总体均值”。
(5)第Ⅰ类错误(弃真错误):意思是零假设为真时错误地拒绝了零假设。犯第Ⅰ类错误的最大概率记为a(alpha)。
(6)第Ⅱ类错误(取伪错误):意思是零假设为假时错误地接受了零假设。犯第Ⅱ类错误的最大概率记为b(beta)。
(7)检验统计量(teststatistic):用于假设检验计算的统计量。例如:z值、t值、f值和卡方值。
(8)显著性水平(levelofsignificance):当零假设为真时,错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用a表示。显著性水平一般根据正态分布的经验法则( \(68\%\)、\(95\%\) 、\(99\%\) )进行选取,例如:在\(5\%\) ( \(1-95\%\) )的显著性水平下,样本数据拒绝原假设。
(9)置信度(confidencelevel):置信区间包含总体参数的确信程度,即\(1-a\) 。例如: \(95\%\) 的置信度表明,有\(95\%\) 的确信度相信置信区间包含总体参数。
(10)置信区间(confidenceinterval):包含总体参数的随机区间。
(11)功效(power):正确拒绝零假设的概率(1-b),即不犯二类错误的概率。
(12)临界值(criticalvalue):与检验统计量的具体值进行比较的值。是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,它需要对数据分布的密度函数积分来获得。
(13)临界区域(criticalregion):拒绝原假设的检验统计量的取值范围,也称为拒绝域(rejectionregion),是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么报绝原假设。
假设检验的一般步骤
将假设检验的一般步骤归纳如下:
(1)定义总体。
(2)确定原假设和备择假设。
(3)选择检验统计量(研究的是统计量:z值、t值、f值和卡方值)。
(4)选择显著性水平(一般约定俗成的定义为005)
(5)从总体进行抽样,得到一定的数据。
(6)根据样本数据计算检验统计量的具体值。
(7)依据所构造的检验统计量的抽样分布和显著性水平,确定临界值和拒绝域。
(8)比较检验统计量的值与临界值,如果检验统计量的值在拒绝域内,则拒绝原假设。
例1-10:某茶叶厂用自动包装机将茶叶装袋。每袋的标准质量规定为\(100g\) 。每天开工时,需要检验一下包装机工作是否止常。根据以往的经验知道,用自动包装机装袋质量服从正态分布,装袋质量的标准差\(s\) =1.15(g) 。某日开工后,抽测了9袋,其质量如下(单位: g):
99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5。试问此包装机工作是否正常? 解法如下:
设茶叶装袋质量为\(X\) g , \(X\sim N(m,1.15^{2})\) )。现在的问题是茶叶袋的平均质量是否为\(100g\) 即原假设\(m=100\) ,记作\(H0:m=100\) ,记备择假设\(H1:m\neq0\) 。
如果这个假设H0成立,则\(X\sim N(100,1.15^{2})\)
取统计量:
$$U=\frac{\bar{X}-100}{1.15/\sqrt{9}}$$
根据中心法则和\(z\) 值的定义,这个统计量服从标准正态分布,即:
$$U=\frac{\overline{X}-100}{1.15\:/\:\sqrt{9}}\sim N\bigl(0,1\bigr)$$
下面,定义一个选择显著性水平,比如a \(i\) =0.05 ,当事件的发生概率小于这个值时,则事件是一个小概率事件。根据标准正态分布的概率密度表查得\(u_{0.025}=1.96\) ,又\(\overline{x}=99.98\) , 得统计量U的观测值:
$$u=\frac{\overline{x}-100}{1.15/\sqrt{9}}=-0.052$$
由于\(\left|u\right|=0.052<1.96\) ,所以小概率事件\(\left\{\left|\frac{\bar{X}-100}{1.15/\sqrt{9}}\right|\geq u_{0.025}\right\}\) 没有发生,因此可认为原来的假设H0成立,即: \(m=100\) 。
假设检验的决策标准
由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,无法知道哪一个假设更容易犯错,即通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率,而无法知道具体在多大概率水平上犯错。计算P值有效的解决
了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。
通过直接比较P值与给定的显著性水平a的大小就可以知道是否拒绝原假设,显然这就可以代替比较检验统计量的具体值与临界值的大小的方法。而且通过这种方法,还可以知道在P值小于a的情况下犯第一类错误的实际概率是多少。假如\(\mathbf{P}=0.03<a\) (0.05),那么拒绝假设,这一决策可能犯错的概率就是0.03。
因此假设检验的第7.8步可以改成
(7)利用检验统计量的具体值计算p值。
(8)将给定的显著性水平a与p值比较,作出结论:如果p值\(\le a\),则拒绝原假设。
附:用于解读p值的指导意见:P值小于0.01一一强有力的证据判定备择假设为真: 值介于0.01~0.05—一有力的证据判定备择假设为真;p值介于0.05~0.1——较弱的证据判定备择假设为真:P值大于0.1一一没有足够的证据判定备择假设为真。
需要指出的是,如果\(p>a\) ,那么原假设不被拒绝,在这种情况下,实际上是无法做出决策的。如果需要做出决策,那么此时就需要关注犯第二类错误的概率。当同时控制第一类错误和第二类错误发生的概率时,假设检验的结论就是:拒绝原假设或接受原假设。
利用P值再做一遍刚才的例题,过程如下:
设茶叶装袋质量为\(Xg\) , \(X\sim N(m,1.15^{2}\) )。现在的问题是茶叶袋的平均质量是否为\(100g\) 即假设\(m=100\) ,记作\(H0:m=100\) ,记备择假设\(H!m\neq0\) 。
如果这个假设HO 成立,则\(X\sim N(100,1.15^{2})\)
取统计量:
$$U=\frac{\bar{X}-100}{1.15/\sqrt{9}}$$
根据中心法则和\(z\) 值的定义,这个统计量服从标准正态分布,即:
$$U=\frac{\overline{X}-100}{1.15\:/\:\sqrt{9}}\sim N\bigl(0,1\bigr)$$
下面,定义一个选择显著性水平,比如a =0.05 ,当事件的发生概率小于这个值时,则事件是一个小概率事件。根据标准正态分布的概率密度表查得\(u_{0.02s}=1.96\) ,又\(\overline{x}=99.98\) , 得统计量\(U\) 的观测值:
$$u=\frac{\overline{x}-100}{1.15/\sqrt{9}}=-0.052$$
根据标准正态分布的概率密度表查得\(\left|u\right|=0.052\) 的概率P为0.96>0.05 ,则事件不是一个小概率事件,零假设成立。
与上述例子类似,假设性检验的种类根据统计量的不同主要包括:z检验、t检验、F检验还是卡方检验。
\(z\) 检验是在已知总体方差或标准差,且样本量较大(通常超过30)的情境下,对样本均值与某个已知的总体均值进行比较的方法。这种检验适用于总体分布已知的大样本情境。想象在制作一款广受欢迎的面包时,已知过去该面包的平均重量是500克,但在新的生产线上想确认新生产的面包重量是否仍然相同。如果每天都生产数于个面包,就可以使用z检验来判断。
与z检验相似,t检验也用于均值的比较。但它主要应用于小样本,且当总体方差未知时。继续上述例子,假设只做了10个新款式的蛋糕,并想知道它们的平均重量是否与老款式的10个蛋糕相同。因为样本较小,就可以使用t检验。t检验有几种不同的形式。单样本t检验用于比较样本均值与某个特定值:独立样本t检验则用于比较两个独立样本的均值: 而配对样本t检验则是用于比较同一群体在不同条件下的两次测量结果。需要注意的是, 分布在形状上与正态分布相似,但其尾部更为“厚重”。
F检验主要用于方差分析,比如比较两个或多个样本的方差,或在回归分析中比较模型的拟合优度。考虑一下,当在尝试三种不同的烘赔方法来制作饼干时,想知道这三种方法是否会导致饼干有不同的脆度。就可以使用F检验来比较这三组饼干的方差,看看是否有显著差异。F值是两个方差之比,其分布是正偏态的,这与检验不同,后者只对两个均值进行比较。
最后,卡方检验专门用于分类数据。假设进行了一个调查,问顾客他们更喜欢哪种口味的冰淇淋:巧克力、草莓还是香草。想知道男性和女性之间是否有口味上的偏好差异。卡方检验可以辅助检查这两个分类变量(性别和口味倡好)之间是否存在关联。除了检查两个分类变量之间是否独立(独立性检验)之外,它还可以用来检查观察到的分类数据与预期频率的匹配程度(适配度检验)。
总的来说,选择哪种假设检验方法取决于研究的目的、数据的类型以及对总体参数的知识。这些检验方法为研究者提供了一套工具,帮助他们在统计上对数据进行合理的解释和半断。
暂无评论内容