概率密度函数
对于连续型随机变量,由于其取值不能一一列举出来,因而不能用离散型随机变量的分布列来描述其取值的概率分布情况。但人们在大量的社会实践中发现连续型随机变量落在任一区间([a,b]) 上的概率,可用某一函数\(f(x)\) 在\([a,b]\) 上的定积分来计算。于是有下列定义: 对于随机变量\(X\) ,如果存在非负可积函数\(f(x)(-\infty < x < +\infty)\) ,使对任意\(a,b(a < b)\) 都有\(P(a≤X≤b)=\int_{a}^{b} f(x)dx\)。则称\(X\) 为连续型随机变量,并称\(f(x)\) 为连续型随机变量\(X\) 的概率密度函数(Probability DensityFunction,PDF),简称概率密度或密度函数。
累积分布函数
不管\(X\) 是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数\(F_{x}(x)\) (cumulativedistributionfunction,CDF),有时简称为分布函数。对于连续性随机变量,CDF 就是PDF的积分,PDF就是CDF的导数:
$$F_{X}(x)=Pr(X\leq x)=\int_{-\infty}^{x}f_{X}(t)\mathrm{d}t$$
1)均匀(unifom)分布
设连续型随机变量\(X\) 在有限区间\([a,b]\) 上取值,且它的概率密度为:
$$f(x)=\begin{cases}\:\frac{1}{b-a}&\:a\leq x\leq b\\\:0&\:\text{其它}\end{cases}$$
则称\(X\) 服从区间\([a,b]\) 上的均匀分布,可记成\(X\sim U[a,b]\) ,如下图所示。其中第一种分布使用实线表示,范围为[0,0.5],概率密度为2;第二种分布使用虚线表示,范围为[0.5,1.5],, 概率密度为1。
![图片[1]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-16.png)
例题:设公共汽车每隔5分钟一班,乘客到站是随机的,则等车时间\(X\) 服从[0.5]上的均匀分布,求\(X\) 的密度函数并求某乘客随机地去乘车而候车时间不超过3分钟的概率?
解: \(X\) 服从[0,5]上的均匀分布,故其密度函数为:
$$f(x)=\begin{cases}\:\frac{1}{5}&\:0\leq x\leq5\\\:0&\:\text{其它}\end{cases}$$
候车时间不超过3分钟的概率为:
$$P{0\leq X\leq3}=\int_0^3\frac{1}{5}dx=\frac{3}{5}$$
2)指数(exponential)分布
指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔等。许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。
设连续型随机变量\(X\) 的概率密度为:
$$f(x)=\begin{cases}\begin{array}{cc}\lambda e^{-\lambda x}&\quad x\geq0\\0&\quad x<0\end{array}\end{cases}$$
其中常数\(\lambda>0\) ,则称\(X\) 服从参数为\(\lambda\) 的指数分布,可记成\(X\sim E(l)\) ,如下图所示。其中第一种分布使用实线表示( \(\lambda=2\) ):第二种分布使用虚线表示( \(\lambda=1\) )。
![图片[2]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-17.png)
例题:设某人造卫星的寿命\(X\) (单位:年)服从参数为2/3的指数分布。若3颗这样的卫星同时升空投入使用,求2年后3颗卫星都正常运行的概率?
解: \(X\) 的密度函数为:
$$f(x)=\begin{cases}\:\frac{2}{3}\mathrm{e}^{-\frac{2}{3}x}&\quad x\geq0\\\:0&\quad x<0\end{cases}$$
故1颗卫星2年后还正常运行的概率为:
$$P{X\geq2}=\int_{2}^{+\infty}\frac{2}{3}\mathrm{e}^{-2/3x}\mathrm{d}x=\mathrm{e}^{-4/3}$$
因此,2年后3颗卫星都正常的概率为:
$$P{Y=3}=\left(\text{e}^{-4/3}\right)^3=\text{e}^4\approx0.0183$$
3)正态(normal distribution)分布
正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若连续型随机变量\(X\) 的密度函数为:
$$f(x)=\frac{1}{\sqrt{2\pi\sigma}}\mathrm{e}^{-\frac{2\sigma^{2}}{\left(x-\mu\right)^{2}}},-\infty<x<+\infty $$
其中, \(m\) 为均值、 \(S\) 为标准差, \(m,s(s>0)\) 都为常数,则称\(X\) 服从参数为ms的正态分布, 简记为\(X\sim N(m,s^{2})\) 。因其曲线呈钟形,因此又经常称之为钟形曲线。通常所说的标准正态分布是\(m= 0, S =1\)的正态分布。
正态分布的参数中, \(m\) 决定了其位置,标准差\(S^2\) 决定了分布的幅度。具体来说,若固定\(S\) 而改变\(m\) 的值,则正态分布密度曲线沿着\(x\) 轴平行移动,而不改变其形状,可见曲线的位置完全由参数\(m\) 确定。若固定\(m\) 而改变\(S\) 的值,则当\(S\) 越小时图形变得越陡峭:反之, 当\(S\) 越大时图形变得越平缓,如下图所示。其中第一种分布使用实线表示( \(m=0,s=0.5\)第二种分布使用虚线表示( \(m= 1, s=1\) )。
![图片[3]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-18.png)
正态分布中一些值得注意的量:
(1)密度函数关于平均值对称。
(2)平均值与它的众数以及中位数同一数值。
(3) (68.268949\%) 的面积在平均数左右的一个标准差范围内。
(4)95.449974%的面积在平均数左右两个标准差的范围内。
(5) (99.730020\%) 的面积在平均数左右三个标准差的范围内。
(6)99.993666%的面积在平均数左右四个标准差的范围内。
(7)函数曲线的拐点为离平均数一个标准差距离的位置。
在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约\(68.3\%\) 数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约\(99.7\%\) 数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。其它的概率范围可见正态分布概率表,如下图所示。
![图片[4]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-19.png)
可以通过计算随机变量的\(z\) 值(z-score),得知其距离均值有多少个标准差。z值的计算公式为:
$$\mathrm{z}=\frac{x-\mu}{\sigma}$$
其中\(x\) 是随机变量的值,\(m\) 是总体均值, \(s\) 是总体标准差。当\(m=0,s=1\) 时,正态分布就成为标准正态分布,记作\(N(0,1)\) 。(z) 值将两组或多组数据转化为无单位的Z-score分值,使得数据标准统一化,提高了数据可比性,同时也削弱了数据解释性。Z值的量代表着实测值利总体平均值之间的距离,是以标准差为单位计算。大于均值的实测值会得到一个正数的乙值, 小于均值的实测值会得到一个负数的z值。
数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。
例题:假设要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩,
那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-score就可以解决这一问题。在对数据进行Z-score标准化之前,需要得到如下信息:
(1)总体数据的均值\((m)\),在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。
(2)总体数据的标准差\((s)\),这个总体要与均值中的总体在同一个量级。
(3)个体的观测值\((x)\),在上面的例子中,即A与B各自的成绩。
通过将以上三个值代入上面的计算公式中,就能够将不同的数据转换到相同的量级上,实现标准化。
重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分:B班的平均分是400,标准差是100,B考了600分。可以计算得出,A的Z-score是(90-80)/10=1 , B的Z-score是(600-400)/100=2 。因此B的成绩更为优异。
因此,可以看出来,通过Z-score可以有效的把数据转换为统一的标准,并进行比较。但是需要注意,Z-score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-score的缺点之一。
Z-score最大的优点就是简单,容易计算,很多工具中,比如R,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-score并进行比较。此外,Z-score能够应用于数值型的数据,并目不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。
但是Z-score应用也有风险。首先,估算Z-score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次, Z-score对于数据的分布有一定的要求,正态分布是最有利于Z-score计算的。最后,Z-score 消除了数据具有的实际意义,A的Z-score与B的Z-score与他们各自的分数不再有关系, 因此Z-score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。
最后,说一个易混淆的概念: u 分布和z分布。u 分布是标准正态分布,是以0为均值,以1为标准差的正态分布。Z分布是正态分布,是以\(m\) 为平均值,以\(S\) 为标准差的正态分布。对于z分布中的所有变量\(X\) ,转换为\((X-m)/s\) 时,其服从\(u\) 分布。
正态分布是最常见也是最重要的一种分布,自然界及社会生活、生产实际中很多随机变量都服从或近似服从正态分布,例如产品的各种质量指标、测量误差、某地区的年降雨量和成年人的身高等。正态分布为什么常见?笔者认为主要有两个原因,一个是中心极限定理
(CentralLimitTheorem)。中心极限定理的一种解读是,如果一个事物受到多种因素的影间,不管每个因素本身是什么分布,它们加总后,结果的平均值就是止态分布
下面这个游戏读者应该都是见过的,它叫做高尔顿钉板,如下图所示。
![图片[5]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-20.png)
弗朗西斯·高尔顿爵十(1822-1911),查尔斯·达尔文的表弟,英格兰维多利亚时代的生物统计学家。他发明了一个叫高尔顿钉板的装置,展示了正态分布的产生过程:高尔顿钉板是一种装置,它是一个本盒子,里面均匀的分布若于个钉子。从入口处把小球导倒入板,弹珠往下滚的时候,撞到钉子就会随机选择往左走还是往右走,一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布,
高尔顿钉板有两处细节:
(1)顶上只有一处开口。这是要求弹珠的起始状态一致,即要求同分布。
(2)开口位于顶部中央。这倒无所谓,开在别的位置,分布形态不变,只是平移。
自然界为何如此多的变量都服从正态分布?因为每一个变量都是由一系列随机变量组成的。例如人的身高是由饮食、气候、基因等很多独立变量组成,这些独立变量就像钉子一样一层一层独立的摆放,最初人的身高是固定的,就像从中间下滑的小球,经过多次随机因素之后,人的身高就变成了正态分布。
还有一个重要的原因是正态分布的最大熵性质。很多时候,并不知道数据的真实分布是任么,能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息。因此按照最大熵原理,应该选择在给定知识的限制下熵最大的概率分布,而这恰好是正态分布。因此按照最大熵的原理,由于对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,即便数据的真实分布不是正态分布,那这时候正态分布就是量佳的选择。
每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为它是一个经验公式。–加布里埃尔·李普曼
如何检验正态分布呢?常见的基于图像的检验方法有:偏度与峰度方法、P-P图&Q-Q 图方法和非参数检验方法。
(①) 偏度与峰度方法
偏度(Skewness)描述数据分布不对称的方向及其程度,如下图所示。
![图片[6]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-21.png)
当偏度\(\approx0\) 时,可认为分布是对称的,服从正态分布:当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态。
注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。
峰度(Kurtosis):描述数据分布形态的陡缓程度,如下图所示。
峰度有两种常见的定义方式:Pearson 峰度和Fisher峰度(或超额峰度)。
Pearson峰度:对于正态分布,其值为3。
Fisher峰度(超额峰度):是Pearson峰度减3,所以对于正态分布,其值为0。
![图片[7]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-22.png)
实线表示标准正态分布,其超额峰度为0,表示与标准正态分布的峰度相比没有差异。虚线表示高峰分布(双指数或Laplace分布),其超额峰度明显大于0,表示相较于标准正态分布,此分布的尾部更重,中心也更尖。点线表示低峰分布(宽的正态分布),其超额峰度明显小于0,表示相较于标准正态分布,此分布的尾部更轻,中心也更扁。
了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。
(②) P-P图&Q-Q图方法
P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线(即对角线)基本重合。
例题:以Q-Q图为例,Q-Q图的全称是quantile-quantile图(百分位数图),如下图所示。也就是说,此图的横轴和纵轴分别是两组数据的百分位数。每组数据的相同百分位数能在坐标系中确定一个点,这些点构成的图就是Q-Q图。正态Q-Q图就是正态百分位数图即其中一组数据服从正态分布。这组数据可以作为横轴,也可作为纵轴,不影响结果。
百分位数是什么意思?粗略地讲,就是将一组数据从小到大排列, \(10\%\) 的数字小于等于某一数值,该数值就是这组数据的第10百分位数:如有\(25\%\) 的数字小于等于某一数值,该数值就是这组数据的第25百分位数,一般称为第一个四分位数。如果两组数据的分布接近或相同,相同百分位数的数值在其各自数轴上的相对位置应该接近。
![图片[8]-连续型分布-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-23.png)
(③) 非参数检验(SW&KS)
原假设为“来自于总体的样本与正态分布无显著性差异,即符合正态分布”,也就是说\(P>0.05\) 才能说明资料符合正态分布。通常正态分布的检验方法有两种,一种是Shapiro-Wilk 检验,适用于小样本资料(SPSS 规定样本量\(\leq\)5000),另一种是Kolmogorov-Smirnov检验,适用于大样本资料(SPSS规定样本量>5000 )。这里不展开叙述原理了,好奇的同学详见统计学章节。
暂无评论内容