1. 数据分析网首页
  2. 大数据
  3. 统计学

小白学统计(19)连续型随机变量概率分布——正态分布

正态概率分布是连续型随机变量概率分布中最重要的形式,它在实践中有着广泛的应用。在自然界和人类社会,有许多现象的分布都服从正态分布,如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩,特别是,在统计推断时,当样本的数量足够大时,许多统计数据都服从正态分布。因此,正态分布在抽样理论中占有重要地位。另外,正态分布还是其他连续型概率分布的极限分布,可用正态分布近似计算或导出其他连续型概率分布。

如果随机变量X具有概率密度函数

小白学统计(19)连续型随机变量概率分布——正态分布

则称X是服从参数为,σ2的正态分布。式中=均值,σ=标准差,π=3.14159,e=2.71828。

如果随机变量X服从正态分布,记为X~N(,σ2)。,σ是决定正态分布的两个参数。决定水平位置,σ决定离散程度。

小白学统计(19)连续型随机变量概率分布——正态分布

正态分布的概率密度函数具有下列性质;

  1. 以x=为对称轴的对称分布;
  2. 以x轴为渐近线;
  3. 若随机变量X1,X2…,Xn皆服从正态分布,且相互独立,则对任意几个常数a1,a2,…,an(不全为0),Z=a1X1+a2x2+……+anXn也服从正态分布。

用正态分布曲线积分求得概率是非常困难的,这样的积分只能用数值方法求出。同时,提供包括所有不同的和σ的正态分布表也是不可能的。所以统计学家通过一种简单的方法来解决这一问题。对于一个随机变量X~N(,σ2),如果令Z=(x-)/σ,则随机变量Z服从=0,σ2=1的正态分布,记为Z~N(0,1),称为标准正态分布。

标准正态分布的概率密度函数为:

小白学统计(19)连续型随机变量概率分布——正态分布

通过上式可以看出标准正态分布不再依赖于参数和σ,它是固定的,是唯一的。因此,标准正态分布中随机变量与其概率的对应关系被计算出来,并列为标准正态概率分布表,以便查询。于是,对于不同的和σ,只要将变量值转化为Z值,然后查表即可得到其概率值。

例子:已知研究生完成一篇硕士论文的时间服从正态分布,平均花费2500h,标准差为400h,现随机找到一个已完成论文的学生,求:

(1)他完成论文的时间超过2700h的概率;

(2)他完成论文的时间低于2000h的概率;

(3)他完成论文的时间在2400h~2600h之间的概率。

解:用X表示完成论文的时间,则X~N(2500,4002)。这是非标准的正态分布,如果直接计算概率是非常麻烦的,我们首先将其转化为标准正态分布,然后通过标准正态分布表查出变量的概率值。

(1)求P(X>2700)

Z=(x-)/σ=(2700-2500)/400=0.5

可以查询标准正态分布概率表,表中第一列是z值,第一行是z值的补充值,其余数值为X值到0之间的积分面积,也即是概率值。现z=0.5求的是从0.5到+∞的区间上的概率。首先找到z=0.5行,该值没有补充值,查到0.00列与0.5行交叉的数值为0.1915,该值是0.5到0之间的概率值,需用0.5(概率对称性,一半的概率)减去0.1915(正态分布的对称性质,左右概率各占0.5),所得0.3085即为所求。

(2)求P(X<2000)

Z=(x-)/σ=(2000-2500)/400=-1.25

在附表中,z没有负值,但根据正态分布的对称性,1.25的概率值与-1.25的概率值完全对称,所以只查1.25的概率值即可。查表的z=1.2行,0.05列,两者交叉数值为0.3944,这个数值是0到1.25之间的概率,也相当是-1.25到0之间的概率。题中所求是小于2000h的概率,所以是-1.25的左侧概率。仍然要用0.5(概率对称性,一半的概率)减去0.3944,得0.1056。

(3)求P(2400<X<2600)

Z1=(x-)/σ=(2600-2500)/400=0.25

Z2=(x-)/σ=(2400-2500)/400=-0.25

查表可得,z=0.2行与0.05列,交叉值为0.0987,即所求概率为0.0987×2=0.1974。

根据标准正态分布表我们可以得到,有95.44%的z值在z=+/-2之间变动,有99.74%的z值在z=+/-3之间变动。由此可以得到一个非常重要的结论;对于任意的正态分布,其随机变量值几乎全部(99.74%)会落在-3σ和+3σ,这就是在质量控制中经常用到的3σ原则。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code