相关性分析
在函数关系(FunctionalRelationship)中,一个变量完全由另一个变量决定。例如,给定一个方程\(y=2x+3\) ,对于每一个\(x\) 的值, \(y\) 只有一个确定的值。这种关系可以是线性的、 非线性的、确定的或随机的。
相关性关系(CorrelationalRelationship)描述的是两个变量之间的线性关系的强度和方向, 但不涉及因果关系。例如,假设有关于人类的身高和鞋码的数据,虽然可能发现这两者之间有止相关,但这并不意味看身高决定了鞋码,或鞋码决定了身高。
1)相关性分析基本概念
![图片[1]-相关性分析-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-33.png)
![图片[2]-相关性分析-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-34.png)
函数关系vs相关关系
(1)相关关系与函数关系的关系:
\(①\) 现实中,由于存在观察误差和测量误差,函数关系通过相关关系表现。
具体来说,这意味着即使两个变量之间存在一个真实的函数关系,但由于测量错误、观察误差或其他外部因素,在尝试画出这两个变量的图时,可能不会得到一条完美的直线或曲线。相反,可能会看到像上右图中那样的散点图,其中点大致沿着一条线或曲线分布, 但并不完全在上面。因此,尽管存在真实的函数关系,但在实际观察中,通常只能看到一个相关关系。
\(②\) 研究相关关系,利用函数关系作为工具。
解释一下,在现实生活中观察到两个变量之间存在某种相关关系(例如身高和鞋码)时, 如果想知道这两者之间的具体关系是怎样的,就可以使用数学工具(如线性回归)来找到描述这两个变量之间关系的函数。这个函数可以帮助预测,例如,给定某人的身高,他们的鞋码可能是多少。在这种情况下,尽管最初只是对两者之间的相关关系感兴趣,但最终使用了函数关系作为一个工具来更好地理解这种关系。
(2)相关关系的类型:
\(①\) 根据涉及变量的个数不同分为:单相关和复相关。
\(②\) 根据变化方向不同分为:正相关和负相关。
\(③\) 根据相关程度不同分为:完全相关,不完全相关和无相关。
\(④\) 根据变化形式不同分为:线性相关和非线性相关。
(3)相关系数:
描述两个变量之间线性相关程度和相关方向的统计分析指标。(用以了解现象之间的相关密切程度)。常见的有 Pearson’sr,称为皮尔逊相关系数(Pearson correlation coefficient), 用来反映两个随机变量之间的线性相关程度。
2)皮尔森相关系数及其假设检验
Pearson correlation coefficient 用于总体(population)时记作r(population correlation coefficient),给定两个随机变量X,Y, \(r\) 的公式为:
$$\rho_{X,Y}=\frac{\mathrm{cov}(X,Y)}{\sigma_x\sigma_y}$$
其中: \(cov(X,Y)\) 是\(X,Y\) 的协方差; \(\sigma_{x}\) 是\(X\) 的标准差; \(\sigma_{y}\) 是\(Y\) 的标准差。
用于样本(sample)时记作\(r\) (sample correlation coeficient,给定两个随机变量\(X,Y\),\(r\) 的公式为:
$$r=\frac{\sum\limits_{i=1}^n\bigl(X_i-\bar{X}\bigr)\bigl(Y_i-\bar{Y}\bigr)}{\sqrt{\sum\limits_{i=1}^n\bigl(X_i-\bar{X}\bigr)^2}\sqrt{\sum\limits_{i=1}^n\bigl(Y_i-\bar{Y}\bigr)^2}}$$
其中: \(n\) 是样本数量; \(X_{i},Y_{i}\) 是变量\(X,Y\) 对应的\(i\)点观测值; \(\bar{X}\) 是\(X\) 样本平均数, \(\bar{Y}\) 是Y样本平均数。
这里解释一下什么叫做协方差:统计学上用方差和标准差来度量数据的离散程度,但是方差和标准差是用来描述一维数据的(或者说是多维数据的一个维度),现实生活中常常会碰到多维数据,因此人们发明了协方差(covariance),用来度量两个随机变量之间的关系。仿照方差的公式来定义协方差:(这里指样本方差和样本协方差)。
方差:
$$s^2=\frac{1}{n-1}\sum_{i=1}^{n}\bigl(x_i-\overline{x}\bigr)^2$$
协方差:
$$\mathrm{cov}(X,Y)=\frac{1}{n-1}\sum(x_i-\overline{x})(y_i-\overline{y})$$
因为这里是计算样本的方差和协方差,因此用\(n-1\) 。之所以除以\(n-1\) 而不是除以\(n\) ,是因为这样能使我们以较小的样本集更好地逼近总体,即统计上所谓的“无偏估计”。
协方差如果为正值,说明两个变量的变化趋势一致:如果为负值,说明两个变量的变化趋势相反:如果为0,则两个变量之间不相关(注:协方差为0不代表这两个变量相互独立, 不相关是指两个随机变量之间没有近似的线性关系,而独立是指两个变量之间没有任何关系)。
但是协方差也只能处理二维关系,如果有\(n\) 个变量\(X_1,X_2,\cdots X_n\) ,那怎么表示这些变量之间的关系呢?解决办法就是把它们两两之间的协方差组成协方差矩阵(covariancematrix)
最后强调一下p的意义:p的取值在-1与1之间。取值为1时,表示两个随机变量之间呈完全正相关关系:取值为-1时,表示两个随机变量之间呈完全负相关关系:取值为0时, 表示两个随机变量之间线性无关。不同p取值下的散点图案例如图所示。
![图片[3]-相关性分析-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-35.png)
那么p值需要多大才说明两变量之间有显著关联呢?样本相关系数p可以作为总体相关系数\(r\) 的估计值,要判断p值确实显著,而不是由于抽样误差或偶然因素导致其显著,需要进行假设检验。
第一步:提出原假设和备择假设
假设计算出一个皮尔逊相关系数r,想检验一下它是否显著地异于0。那可以设定原假设和备择假设:
$$\mathrm{H}0:r=0,\mathrm{H}1:r\neq0$$
第二步:构造统计量
在原假设成立的条件下,利用要检验的量构造出一个符合某一分布的统计量。统计量相当于要检验的一个函数,里面不能有其它的随机变量。这里的分布一般有四种:标准正态分布、t分布、 \(c^2\) 分布和f分布。对于皮尔逊相关系数\(r\) 而言,在满足一定条件下,可以构建统计量:
$$\mathbf{t}=r\sqrt{\frac{n-2}{1-r^2}}$$
可以证明t是服从自由度为\(n-2\) 的t分布。
第三步:将要检验的值代入,得到检验值
将要检验的这个值代入公式(1-143)中,可以得到一个特定的值(检验值)。例如:计算出关系系数为0.5, \(n=30\) ,那么可以得到
$$t^*=0.5\sqrt{\frac{30-2}{1-0.5^2}}=3.05505$$
第四步:画出概率密度函数
由于知道统计量的分布情况,因此可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平通过查表找到临界值,并画出检验统计量的接受域和拒绝域。
例如:上述统计量服从自由度为28的t分布,其概率密度函数图形如图所示。
![图片[4]-相关性分析-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-36.png)
第五步:给出置信水平,找到临界并画出接受域和拒绝域由于此时已知统计量的分布情况,因此可以画出该分布的概率密度函数 pdf,并给定一个置信水平,根据置信水平表查到临界值,并画出检验统计量的接受域和拒绝域。常见的置信水平有三个: \(90\%\) 、 \(95\%\) 、 \(99\%\) ,其中\(95\%\) 是最常用的。因为这里是双侧检测,所以需要找出能覆盖0.95的概率的部分。查表可知,对应的临界值为2.048,因此可以做出接受域和拒绝域。
第六步:判断接受还是拒绝原假设,并得出结论
判断计算出来的检验值是落在了接受语还是拒绝域,并下结论。因为得到的\(t^{*}=3.05505>2.048\) ,因此得到结论:在\(95\%\) 的置信水平上,拒绝原假设\(H0:r=0\) ,因此r 是显著不为0的。
皮尔逊相关系数假设实验的条件:
(1)实验数据通常是对成对的来自于正态分布的整体,因为在求皮尔逊相关系数以后, 通常还会用t检验之类的方法来进行皮尔逊相关系数检验,而t检验是基于数据呈正态分布的假设的。
(2)实验数据之间的差距不能太大,皮尔逊相关性系数受到异常值的影响比较大。
(3)每组样本之间是相互独立的,构造t统计量时需要用到。
斯皮尔曼相关系数(Spearman)也被叫做斯皮尔曼等级相关系数,同样用于衡量两个变量之间的相关性,在之前对皮尔逊相关系数的介绍中,提到了在进行皮尔逊相关系数运算的时候需要确定数据是否符合正态分布等等,较为麻烦,同时不满足正态性的数据难道就没有办法判断相关性了吗?离散的数据如何判断相关性呢?因此有人提出了另一种方法,即用数据的大小顺序来代替数值本身。
连续数据,满足正态分布,判断是否具有线性的相关性的时候使用皮尔逊相关系数较为合适,如果不满足条件的话,应该使用斯皮尔曼相关系数。
斯皮尔曼相关系数计算公式如下:
$$r_s=1-\frac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}$$
其中\(n\) 是样本的数量, \(d\) 代表数据\(x\) 和\(y\) 之间的等级差。
最后,重要的是要明确,两个变量之间的相关并不直接暗示它们之间存在因果关系。有时,可能存在第三个变量,它与这两个变量都有关联,并对它们产生影响。以一个生动的例子来说,澳大利亚的某个海滩上记录到,鲨鱼袭击的次数与冰激凌的销售量之间存在一定的相关性。但能说冰激凌的销售引起了鲨鱼袭击吗?显然,这两者之间的相关性并不表明它们之间有直接的因果关系。
暂无评论内容