概率论介绍
概率论主要研究随机事件。人们对某些事件发生的可能性高低一般都有直观的认识,所以未经特殊训练就会使用“可能”、“不可能”之类的词汇。概率论会介绍如何量化这种可能性。
为了更深入地研究随机现象,需要把随机试验的结果数量化,也就是引进随机变量来描述随机试验的结果。
有一些随机试验的结果直接是用数值表示的。例如,观察一次射击中的“命中环数” 可能的基本结果为“中0环”,“中1环”,..“中10环”。于是可以引进变量\(X\) 来表示这些出
现的“命中环数”:“ \(X=0\) “表示事件“中0环”,“ \(X=1\) “表示事件“中1环”等等。从而这一随机试验的各个基本事件就用变量\(X\) 取某个数值表示了。而且这个随机试验的其他可能结果如“命中环数不超过1″这一事件\(A\) 也可以用变量\(X\) 来表示,即:
$$A=X\leq1$$
其中引入的变量\(X\) 就是随机变量。
一般地,把表示随机现象的各种结果或描述随机事件的变量叫做随机变量。随机变量通常用大写英文字母\(X,Y,Z\) 等表示。
随机变量具有两个特点:
(1)在一次试验之前,不能预言随机变量取什么值。即随机变量的取值具有偶然性, 它的取值决定于随机试验的结果。
(2)随机变量所有可能的取值是事先知道的,而且对应于随机变量取某一数值或某一范围的概率也是确定的。
引进随机变量以后,就可以把对随机事件的研究转化为对随机变量的研究,从而可以强用微积分等其他数学理论和方法来研究随机现象。用来刻画随机变量在某一方面的特征的常数就统称为数字特征。学习随机变量的数字特征有什么用呢?首先来看几个生活中的例子:
(1)高考后成绩的填报一般都是先查询自已心仪大学的往年录取分数线再进行填报·那么录取分数线就是一个数字特征
(2)父母每个月给多少大学生活费?通常是先了解一下其他大学生一个月大概多少钱然后再确定生活费的数额给多少。在这里其他大学生的生活费也是数字特征。
(3)高中考完数学后,一般第一个念头就是想知道自已考了多少分,然后可能想知道班里的最高分是多少这也是数字特征。
(4)放假回家时,可能会考虑一下从学校打车到机场要多少钱·这也是数字特征。
(5)中午去食堂吃饭,想到大概要花多少钱·还是数字特征。
由此可以得出结论:生活处处是数字特征。
那概率论为什么要引入数字特征呢?概率论的核心是计算概率,在此之前必须确定随机现象的规律(即确定模型),所以要引入随机变量,再确定随机变量的分布,在此基础上不解决了概率的计算问题。但在实际问题中,分布通常极难确定,只好退而求其次,了解一下随机变量的大概规律,即随机变量的平均值、波动范围等,这些就是数字特征。
频数
频数(frequency)又称”次数”,指一组数据中某个值出现的次数。频率(relativefrequency 指一组数据中某个值出现的比例。
$$Relative \quad frequency=\frac{Frequency}{n}$$
这里要澄清一个概念:frequency有被翻译成“频数”,也有被译成“频率”,具体翻译取决于上下文。
在统计学中,“频数”是指某一事件在数据集中出现的次数。而“频率”(或称“相对频率”)则表示某一事件发生的次数与总事件数的比例。
在物理学中,“frequency”通常被翻译为“频率”,表示单位时间内完成周期性变化的次数。例如,一个振动100次/秒的物体具有100Hz 的频率,
最后讲一下概率,又称或然率、机会率、机率(几率)或可能性,是概率论的基本概念, 概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。
数据位置(概率论基础,合并1234)
1.平均数/均值
平均数(Average)是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数,是反映数据集中趋势的一项指标。
特点:
(1)易受极端值影响。
(2)数学性质优良。
(3)数据对称分布或接近对称分布时应用
1)算数平均数
算数平均数(Arithmetic average)是一组数据中所有数据之和再除以数据的个数,是反映数据集中趋势的一项指标。
$$\overline{X}=\frac{X_1+X_2+…+X_n}{N}=\frac{\sum_{i=1}^NX_i}{N}$$
2)加权平均数
加权平均数(Weightedaverage)是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算。
$$\overline{X}=\frac{X_1f_1+X_2f_2+…+X_mf_m}{f_1+f_2+…+f_m}=\frac{\sum_{i=1}^NX_if_i}{\sum_{i=1}^Nf_i}$$
2.众数
众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。世是一组数据中出现次数最多的数值,有时众数在一组数中有好几个,用M表示。
特点:
(1)组数据中出现次数最多的变量值。
(2)适合于数据量较多时使用。
(3)不受极端值的影响。
(4)一组数据可能没有众数也可能有几个众数
3.中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
特点:
(1)不受极端值的影响。在有极端数值出现时,中位数作为分析现象中集中趋势的数值,比平均数更具有代表性,
(2)主要用于顺序数据,也可以用于数值型数据,但不能用于分类数据。
(3)各变量值与中位数的离差绝对值之和最小。
4.四分位数
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。四分位数多应用于统计学中的箱线图综制。它是一组数据排序后处于(25\%) 和(75\%) 位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含(25\%) 的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在(25\%) 位置上的数值(称为下四分位数)和处在(75\%) 位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
比如有以下8个数:1、2、4、5、6、8、32、64。
Q1在第(8+1)/4=2.25位,介于第二和第三位之间,但是更靠近第二位;所以第二位数权重占(75\%) ,第三位数权重占(25\%) : Q1(= ( 2\times 0. 75+ 4\times 0. 25) / ( 0. 75+ 0. 25) = 2. 5)
Q2在第(8+1)/2=4.5位,即第4和第5位的平均数: (Q2=5.5) 。
同理,Q3在第((8+1)/4\times3=6.75) 位,在第6位和第7位之间,更靠近第7位;所以, 第7位权重(75\%) ,第6位权重(25\%) : Q3= ( 32(\times)0. 75+ 8(\times)0. 25) / ( 0. 75+ 0. 25) = 26
数据散布(概率论基础,合并1234)
1.数学期望
数学期望(Mathematicalexpectations)是对长期价值的数字化衡量。
数学期望值是理想状态下得到的实验结果的平均值,是试验中每次可能的结果概率乘以其结果的总和,是最基本的数学特征之一,它反映随机变量平均取值的大小。换句话说,期望值像是随机试验在同样的机会下重复多次,所有那些可能状态的平均结果。
离散型随机变量数学期望严格的定义为:设离散型随机变量(X) 的分布列为(P{X=x_{i}}=p_{i},i=1,2,\cdots)。若级数(\sum_{i=1}^{+\infty}x_{i}p_{i}) 绝对收敛,则称级数(\sum_{i=1}^{+\infty}x_{i}p_{i}) 的和为随机变量(X) 的数学期望(也称期望或均值),记为(E(X)) 。即(E(X)=x_{1}p_{1}+x_{2}p_{2}+\cdots+x_{i}p_{i}+\cdots=\sum_{i=1}^{+\infty}x_{i}p_{i})。
连续型随机变量数学期望严格的定义为:设连续型随机变量(X) 的概率密度函数为(f(x)) 积分(\int_{-\infty}^{+\infty}xf(x)dx)绝对收敛,则定义(X) 的数学期望(E(X)) 为E(X)=(\int_{-\infty}^{+\infty}xf(x)dx)。
一个随机变量的数学期望是一个常数,它表示随机变量取值的一个平均;这里用的不是算术平均,而是以概率为权重的加权平均。数学期望反映了随机变量的一大特征,即随机变量的取值将集中在其期望值附近,这类似于物理中质点组成的质心,
最后,强调一下平均数和数学期望的联系:平均数是一个统计学概念,期望是一个概率论概念。平均数是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布“预测”的样本的平均值。
之所以说“预测”是因为在实验前能得到的期望与实际实验得到的样本的平均数总会不可避免地存在偏差,毕竞随机实验的结果永远充满着不确定性。如果能进行无穷次随机实验并计算出其样本的平均数的话,那么这个平均数其实就是期望。当然实际上根本不可能进行无穷次实验,但是实验样本的平均数会随着实验样本的增多越来越接近期望,就像频率随着实验样本的增多会越来越接近概率一样。
如果说概率是频率随样本趋于无穷的极限,那么期望就是平均数随样本趋于无穷的极限。
2.方差
方差(Variance)用来描述随机变量与数学期望的偏离程度。如果把单个数据点称为“ (X_i) ”,那么“ (X_1) ”是第一个值,“ (X_2) ”是第二个值,以此类推,一共有(n) 个值。均值称为“M”。初看上去(\sum(X_{i}-)M) 就可以作为描述数据点散布情况的指标,也就是把每个(X_{i}) 与M的偏差求和。换句话讲,是单个数据点减去数据点的平均的总和。此方法看上去很有逻辑性,但却有一个致命的缺点:高出均值的值和低于均值可以相互抵消,因此上述定义的结果趋近于0。这个问题可以通过取差值的绝对值来解决(也就是说,忽略负值的符号) 但是由于各种原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的,因此便得到了方差的分子(\sum ( X_{i}-)M() ^2) 。
再考虑一个问题:比如有25个值的样本,根据方差计算出标准差是10。如果把这2个值复制一下变成50个样本呢,直觉上50个样本的数据点分布情况应该不变的,但是公式中的累加会产生更大的方差值,所以需要通过除以数据点数量(n) 来弥补这个漏洞。因此,方差的定义如下:
$$D(X)=\frac{\sum_{i=1}^N\left(x_i-\overline{x_i}\right)^2}{n}$$
(D(X)) 越小,意味着(X) 的取值比较集中在数学期望(E(X)) 附近。反之, (D(X)) 越大,意味着(X) 的取值越分散。因此, (D(X)) 是刻画(X) 取值分散程度的一个量,是衡量(X) 取值分散程度的一个尺度。
3.标准差
标准差(standarddeviation)是通过方差除以样本量再开根号得到的,具体公式如下:
$$\sigma=\sqrt{\frac{\sum_{i=1}^N\left(x_i-\overline{x_i}\right)^2}{n}}$$
与方差的作用类似,标准差也能反映一个数据集的离散程度,它是各点与均值的平均距离。平均数相同的数据,标准差未必相同。
4.极差
极差又称范围误差或全距(Range),以R表示,计算方法是其最大值与最小值之间的差距,即最大值减最小值后所得数据。
5.四分数范围
四分位数,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三四分位数与第一四分位数的差值称为四分位数间距(InterquartileRange,IQR) 简称四分位距。
四分位距是描述统计学中的一种方法,但由于四分位距不受极大值或极小值的影响,常用于描述非正态分布资料的离散程度,其数值越大,数据离散程度越大,反之离散程度越小。
6.图形表示
以图形的方式来表示随机变量的分布,根据随机变量的数量可以选择合适的图像表示方法,如图1-30所示。常用的图像表示方法如下:
(1)箱型图(Boxplot):易于观察数据的分布密度。
(2)直方图(Histogram):统计不同数据范围的频数,无线细化后可拟合概率密度曲线。
(3)条形图(BarChart):适应于统计分类型离散数据。
(4)散点图(ScatterPlot):易于观察两个变量的相关性。
![图片[1]-概率论基础-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-11.png)
![图片[2]-概率论基础-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-12.png)
![图片[3]-概率论基础-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-13.png)
![图片[4]-概率论基础-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-14.png)
数据常见的图形表示
随机变量的类型和概率分布
要明白概率分布,首先需要知道数据有哪些类型及什么是分布。
1.数据类型
统计学里,随机变量的数据类型有两种,分别为离散型随机变量和连续型随机变量,
1)离散型随机变量
离散数据即数据的取值是不连续的。例如掷硬币就是一个典型的离散数据,因为抛硬币只有2种数值(也就是2种结果,要么是正面,要么是反面),
可以把离散数据想象成一块块的垫脚石,可以从一个数值调到另一个数值,同时每个数值之间都有明确的间隔。严格的定义如下:如果随机变量(X) 的所有可能取值为有限个,或虽是无限多个但可以一一列举出来,则称(X) 为离散型随机变量。例如一批产品的次品数,某一时间段内到某商场的顾客人数
2)连续型随机变量
离散型随机变量都建立在随机变量的取值可以一一列举出来的基础之上。但在许多实院问题中所遇见的随机变量是不可列举的,而是连续地充满了某个实数区间。连续型随机变量取任意的数值。例如时间就是一个典型的连续数据1.25分钟、1.251分钟、1.2512分钟,它能无限分割。连续数据就像一条平滑的、连绵不断的道路,可以沿着这条道路一直走下去。
2.概率分布
概率分布清楚而完整地表示了随机变量(X) 所取值的概率分布情况。离散型随机变量的概率分布可用表格形式来表示,称之为分布列,见下表
\(X\) | \(x_1\) | \(x_2\) | \(\cdots\) | \(x\) |
\(F\) | \(p_{1}\) | \(p_{2}\) | \(\cdots\) | \(P_n\) |
离散型随机变量的概率分布列具有下列性质:
$$\begin{aligned}&\sum_{k=1}^{+\infty}p_{k}=1\\&p_{k}\geq0,k=1,2,\cdots\end{aligned}$$
连续型随机变量的概率分布如图所示。
![图片[5]-概率论基础-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-15.png)
那么为什么要去统计概率分布呢?当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究它们的规律,根据这些规律来解决特定条件下的问题。大家想想当年高考的时候,为了备战语文作文,可以准备一个自己的“万能模板”,任何作文题目都可以套用该模板,快速解决作文这个难题。同样的,记住概率里这些特殊分布的好处就是: 下次遇到类似的问题,就可以直接套用“模板”(这些特殊分布的规律)来解决问题了。而这就是研究概率分布的意义所在。
概率分布可以被分为理论概率分布TheoreticalProbabilities和经验概率分布Empirica Probabilities:
(1)理论概率分布:科学家总结出来的常见分布,具体分为离散型概率分布,如二项分布、泊松分布等等;和连续性概率分布,如指数分布、正太分布等等。
(2)经验概率分布:经验分布函数是对产生样本点的累积分布函数的估计,简单说是根据样本估计出来的分布。
暂无评论内容