1数理统计基础_1数理统计基础
1数理统计基础由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“1数理统计基础”。
《实验室资质认定评审准则》内审员培训班
彭洪
2012.91、数理统计基础
1.1 随机变量 1.1.1随机事件和概率
观测或试验的一种结果,称为一个事件。在一定条件下进行大量重复试验时,每次都发生的事件,称为必然事件();反之,每次都不发生的事件,称为不可能事件();有时发生有时不发生的事件,称为随机事件或偶然事件(A)。
随机事件的特点是在一次观测或试验中,它可能出现,也可能不出现,但在大量重复观测或试验中呈现统计规律性。用来描述事件发生可能性大小的量就是概率。
概率的统计定义是:在相同条件下进行n次重复试验,事件A发生了m次,称m为事件的频数,称m/n为事件的频率。当n足够大时,频率m/n稳定地趋向于某一个常数p,此常数p称为事件A的概率,记为P(A)=p,即:
mP(A)=lim=p(1.1)nn 即概率是频率的极限值。
由概率的定义可归纳出概率的三个基本性质:(1)必然事件的概率等于1,即p()=1;(2)不可能事件的概率等于0,即p()=0;
(3)任何事件的概率都介于0和1之间,即0≤P(A)≤1。
小概率原理:当某一事件的概率非常接近于0时,说明这个事件在大量的试验中出现的概率非常小,这样的事件称为小概率事件。小概率事件虽然不是不可能事件,但在一次连续试验中出现的可能性很小,一般可以认为不会发生,此即为小概率原理。
概率的三个定理:
(1)互补定理:某事件发生的概率与不发生的概率之和为1。当发生的概 1 《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 率为p,则不发生的概率为1-p。全部基本事件之和为必然事件。
(2)加法定理:相互独立而又互不相容的各个事件,其概率等于它们分别出现之和。例如,A1,A2,„An为相互独立而又互不相容的事件,其中任一事件出现的概率为各个事件概率的总和,即
P(A)=P(A1)+P(A2)+„+P(An)=P(Ai)(1.2)
i1n(3)乘法定理:相互独立的事件同时发生的概率是这些事件各自发生的概率的乘积,即
P(A1A2„An)=P(A1)P(A2)„P(An)=P(Ai)(1.3)
i1n1.1.2 随机变量与分布函数
每次试验的结果可以用一个变量X的数值来表示,这个变量的取值随偶然因素而变化,但又遵从一定的概率分布规律,这种变量称为随机变量。
随机变量根据其取值的特征可以分为离散型随机变量和连续型随机变量。离散型随机变量试验结果的可能值可以一一列举出来,即随机变量X可取的值是间断的、可数的。
连续型随机变量试验结果的可能值不能一一列举出来,即随机变量X可取的值是连续充满在一个区间的。
随机变量的特点是以一定的概率在一定的区间范围内取值,但并不是所有的观测值都能以一定的概率取某一固定值。因此人们关心的是随机变量在某一个区间取值的概率是多少?即P(a≤X≤b)=?
根据概率的加法定理,某随机变量X在区间[a,b]的取值概率为: P(a≤X≤b)=P(X<b)-P(X<a)
显然只要求出P(X<b)和P(X<a)即可,这比求出P(a≤X≤b)简单得多。
对于任何实数x,事件(X<x)的概率当然是x的函数,令F(x)=P(X <x)表示(X<x)的概率,并定义F(x)为随机变量X的概率分布函数,《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 用来描述随机变量的统计规律。分布函数F(x)完全决定了事件(a≤X≤b)的概率。
连续型随机变量X的分布函数的表达式为:
F(x)=P(X<x)=f(x)dx(1.4)
x式中, f(x)称为随机变量X的概率密度函数(或简称概率密度)。
正态分布是连续型随机变量最常见的一种分布。正态分布的概率密度函数f(x)和概率分布函数F(x)分别为:
1e f(x)=
2(x)222(1.5)
(x)222 F(x)=
12xedx(1.6)
以X的取值x为横坐标,以概率密度函数f(x)为纵坐标,正态分布的图象如图1.1所示。图中的曲线即为概率密度函数f(x),积分区间内的曲线与横轴之间所包含的面积就是概率分布函数F(x),亦即随机变量X的概率。
图1.1 正态分布示意图《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 f(x)的图象具有如下性质:
a、为随机变量X一系列取值的中位值(或称均值),f(x)对称于直线x=,且f(x)>0,曲线位于横轴的上方。它向左右无限延伸,并以横轴为渐近线。
b、当x=时,f(x)取最大值: f()12
x离越远f(x)越小,这表明对于同样长度的区间,当区间离越远,X落在这个区间上的概率越小。
c、参数σ为曲线拐点的横坐标,其大小决定了正态曲线的形状特点,σ愈大曲线愈平缓,σ愈小曲线愈高陡。
可以看出,正态分布主要取决于和σ两个参数,称为随机变量X的数学期望,σ2为随机变量X的方差。
当随机变量X服从正态分布时,常记作X~N(μ,σ2)。
如令随机变量t=(x-μ)/σ,通过变量转换,可由一般正态分布推算得随机变量t的概率密度函数(t)及相应的概率分布函数(t):
(t)=
12ett22(1.7)(t)=
2et22dt(1.8)
这种分布称为标准正态分布,是正态分布中=0,σ2=1的特例。当随机变量服从标准正态分布时,常记作X~N(0,1)。
通常将t~(t)制成数值表,称t为标准正态分布的分位数。如已知t,即可从表中查得相应的(t);反之,亦然。标准正态分布与一般正态分布具有如下关系:
F(x)=Φ(x)(1.9)《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 因此,对于任意正态分布N(μ,σ),当已知x,需求相应的F(x)时,均可通过下式变换
tx
2(1.10)
算得对应于x的t值,再在标准正态分布函数数值表上查得相应的概率。
正态随机变量中有三个重要的概率值(见图1.2),它们分别是 P(μ-σ<X≤μ+σ)=0.6826,P(μ-2σ<X≤μ+2σ)=0.9544,P(μ-3σ<X≤μ+3σ)=0.9973。
图1.2 正态分布的三个重要概率值
注意到第三个概率值,对于正态随机变量X来说,它落在μ±3σ内的概率约为99.7%,落在μ±3σ外的概率约为0.3%。可见,在具有正态分布特征的试验中,其数据落在μ±3σ以外的概率是很小的,可视为“小概率事件”。因此,试验中一旦出现μ±3σ外的数据,根据“3σ规则”,即可将其认为是“可疑数据”而予以剔除,或是工艺过程出现异常,应予注意。
[例1.1] 已知一批强度等级为C25的混凝土,其试件的抗压强度平均值为30.0MPa,标准差为5.0MPa,设该混凝土的抗压强度R服从N(30.0,5.0)的正态分布,试计算抗压强度高于25.0MPa的概率(即求该混凝土的强度保证率)。
[解] P(R≥25.0)=1-P(R<25.0)=1-(t)《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 25.030.0)=1-(5.0=1-(1.0)
=1-0.1587=0.8413 即该批混凝土的强度保证率为84.1%。由此可见,对于标准差为5.0MPa的C25混凝土,即使其抗压强度平均值为30.0MPa时,仍不能达到相关规范所规定的95%的强度保证率。
[例1.2] 条件同[例1.1],其试件抗压强度平均值m为多少时,才能使该混凝土的强度保证率达到95%?
[解] 由 P(R≥25.0)=1-P(R<25.0)=0.95 得 t=25.0m=-1.645 5.0 m=25.0+1.645×5.0=33.2MPa 上式中,t被称为强度保证率系数,它对应于95%的强度保证率。1.2 随机变量的数字特征
由上所述,利用分布函数或分布密度函数可以完全确定一个随机变量。但在实际问题中,求分布函数或分布密度函数不仅十分困难,而且常常没有必要。用一些数字来描述随机变量的主要特征,显得十分方便、直观、实用。描述随机变量某种特征的量称为随机变量的数字特征。1.2.1 数学期望
数学期望又称均值,记作E(X),其计算公式为: 当X为离散型时 E(X)xipi(1.11)
i1当X为连续型时 E(X)xf(x)dx(1.12)
数学期望描述了随机变量的取值中心,但它不是简单的算术平均,而是以概率为权的加权平均。
数学期望有如下性质(下式中c、k、b均为常数):
(1)E(c)=c(1.13a)(2)E(kX)=kE(X)(1.13b)《实验室资质认定评审准则》内审员培训班
彭洪
2012.9(3)E(X+b)=E(X)+b(1.13c)(4)E(kX+b)=kE(X)+b(1.13d)(5)E(X+Y)=E(X)+E(Y)(1.13e)(6)E(XY)=E(X)E(Y)+Cov(X,Y)(1.13f)称Cov(X,Y)为协方差,当X,Y相互独立时,Cov(X,Y)=0,则有 E(XY)E(X)E(Y)(1.13g)1.2.2 方差
记作D(X):
D(X)=E{[X-E(X)]2}=E(X2)-[E(X)]2(1.14)方差描述了随机变量X取值对于数学期望E(X)的离散程度。
1、方差的计算公式
当X为离散型时 D(X)当X为连续型时 D(X)2[xE(X)]pi(1.15)i[xE(X)]2f(x)dx(1.16)
2、方差的性质(下式中a、b、c、k为常数)
(1)D(c)= 0(1.17a)(2)D(kX)= k2D(X)(1.17b)(3)D(X+b)= D(X)(1.17c)(4)D(kX+b)= k2D(X)(1.17d)(5)D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)(1.17d)当X,Y相互独立时,协方差Cov(X,Y)= 0,则有:
D(X+Y)= D(X)+D(Y)(1.17e)(4)、(5)可推广至随机变量X1,X2,„,Xn。1.3 随机变量的基本定理 1.3.1 大数定理
设X1,X2,„,Xn是独立同分布的随机变量列,且E(X1)、D(X1)存在,则对于任何ε>0,有
n limPxE(X)<1(1.18)7 《实验室资质认定评审准则》内审员培训班
彭洪
2012.9
1nxk式中: xnik(1.19)
上式又称切比谢夫(Tchebyshev)定理。大数定律的实际意义在于,只要n充分大,算术平均值x以很大的概率取值接近于数学期望,即当n充分大时,可以用算术平均值x代替真值E(X1),以满足测量不确定度ε的要求。1.3.2 中心极限定理
设X1,X2,„,Xn是独立同分布的随机变量列,且E(X1)、D(X1)存在,D(X1)≠0,则对一切实数a<b,有
tbxE(X1)12 limPa<<bedt(1.20)
nD(X1)/na22中心极限定理可解释为任何随机变量如果是许多同分布独立变量之和,每一变量在总和上只起不大的影响,则不论这些独立变量具有何种类型的分布,该随机变量可以近似地认为是正态分布。随着随机独立变量的增加,它们的和就越接近正态分布;这些独立变量的大小越接近,所需的独立变量就越少。
中心极限定理扩展了正态分布的适用范围。在扩展不确定度的评定中,将涉及如何用中心极限定理来判断被测量Y是否服从或接近正态分布。1.4 参数估计
以上所述是观测次数无限大时随机变量的一些性质,即为总体的情况。由于总体往往得不到,常常以有限次观测、即抽样的方式来估计总体的特性。1.4.1 总体、样本
把研究对象的全体称为总体(或称母体),构成总体的每个单位为个体,通常用N表示总体所包含的个体数。总体的一部分称为样本(或称子样),通常用n表示样本所含的个体数,称为样本容量。
从总体中抽取样本称为抽样。若总体中每个个体被抽取的可能性相同,这样的抽样称为随机抽样,所获得的样本为随机样本。
可以证明,当样本容量n足够大时,样本的经验分布函数近似地等于总体分布函数,因此,可以用经验分布近似地代替总体分布函数。这是用样本推断总体的依据。《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 1.4.2 参数的点估计 1.4.2.1 基本概念
对于一个已知其分布、但未知特征参数的随机变量X,如果得到了一组观测值,很自然的会想到用这一组观测值来估计总体的特征参数,这就是参数的点估计,这一组观测值所构成的统计量称为总体的估计量。
估计量的评价:
(1)一致性:一个好的估计量,当样本容量很大时,估计值以接近于1的概率趋近于被估参数值。
(2)无偏性:估计量总是围绕被估参数摆动,即大于被估参数和小于被估参数的概率基本相同,估计量的数学期望等于被估参数,此时该估计量就是被估参数的无偏估计量。
(3)有效性:估计量的方差越小,波动越小,估计值接近被估参数的可能性越大,即越有效。
1.4.2.2正态分布未知参数的点估计
用上述方法和标准研究正态分布未知参数的点估计,可以得出如下结论:(1)样本算术平均值
1n xxi(1.21)
ni1是总体数学期望的无偏估计量。随样本容量n增大,有效性提高。
(2)样本方差
1n(xix)2(1.22)
sn1i12是总体方差的无偏估计量。
1n 注意,S=(xix)2作为总体方差σ2的估计量是有偏的。为了使用上的ni12方便,常将方差开方并取正值,使其与均值具有相同的量纲,称为标准差。当需要估计总体标准差时,用样本标准差s作为总体标准差σ的估计量:
1n(xix)2(1.23)
sn1i1《实验室资质认定评审准则》内审员培训班
彭洪
2012.9 上式又称贝塞尔(Beel)公式。1.4.3 参数的区间估计
在得到了总体参数的估计值后,常常要求更确切地知道这些估计值的精确程度,即真值所在范围。这样的范围通常以区间的形式给出,同时还要给出区间包含真值的可靠程度,这种形式的估计称为参数的区间估计。
设总体分布含有一个未知参数θ(真值),若由样本确定的两个统计量,满足 1(x1,x2,...,xn)及2(x1,x2,...,xn),对于给定值α(0<α<1)P{1(x1,x2,...,xn)<θ<2(x1,x2,...,xn)}1(1.24)上式中:
(1-α)----置信度(置信概率、置信水准、置信水平),用
p表示,即p=(1-α)。若反复抽样多次,每组样本观察值确定一个区间,在这些区间中,包含真值θ的区间约占(1-α),不包含真值θ的仅为α,(1-α)通常取0.95或0.99(95%或99%);
α----显著性水平;通常取0.05或0.01;
(θ1,θ2)----真值θ的具有(1-α)置信概率的置信区间,分别称θ1,θ2为置信下限及置信上限。
未知参数的区间估计,即是求其置信区间。