统计第四章讲稿_统计第三章讲稿

2020-02-29 其他范文下载本文

统计第四章讲稿由刀豆文库小编整理，希望给你工作、学习、生活带来方便，猜你可能喜欢“统计第三章讲稿”。

第四章抽样和抽样分布

第一节抽样和抽样方法

一、抽样的一般概念

（一）总体和样本

统计上把所要研究对象的全体叫做“总体”。它是由某些具有共同性质或特征的个体所组成的。总体中的各个单位具有共同的基本性质，同时在标志上又往往存在差异。总体可分为有限总体和无限总体两类。如果总体所包含的单位数是有限的，则称该总体为有限总体。如果总体所包含的单位数是无限的就是无限总体。

从总体中抽出的一小部分单位叫做“样本”。研究样本要比研究总体容易得多。从总体中抽取样本的过程就称作抽样。抽样的最终目的是进行统计推断。统计推断就是通过样本的数字特征来推断总体的数量特征，这样既可以节省对总体调查所需要的人才、物力、财力和时间，又可以认识总体的数量特征。如果做得合理的话，从样本推测得到的对总体的认识结果是可以信赖的。

但是，必须注意的是样本在多大程度上代表了总体，即样本的代表性有多大，这是很重要的。这既取决于所抽取的样本本身是否有代表性，也取决于所抽取样本的多少，还与总体的情况有关。因此需要研究抽样的方法。

（二）参数和统计量

无论对于总体还是样本都可以使用平均数、中位数、众数与标准差等指标来描述它们的特征。在统计学中，当用它们来描述总体的特征时，称为总体参数。当这些量用来描述样本的特征时，叫做样本统计量。

参数是总体的数量特征。对于某个总体来说，其参数是确定的。但是在某一实际问题中，总体参数通常是未知的，这就需要通过样本数据所提供的总体有关信息对参数进行推断。一个总体常常有多个参数，这些参数从各个不同的角度反映总体分布的基本情况和特征。通常最关心的就是表示总体分布集中趋势和分散趋势的两个参数，即总体的均值和方差。

统计量是样本的数量特征。它随样本的不同而变化，是一个不包含任何未知参数的样本的函数，因此是个随机变量。统计量一方面表示样本本身的分布状况和特征，另一方面也是总体参数的估计量。

二、抽样方法

为了保证从抽样结果能较正确地推断出总体的数量特征，抽样时要尽量遵守随机性的原则，以保证样本具有一定的代表性。所谓随机性的原则就是要保证在抽样时，总体中的每一个单位都有同等的被抽中的机会。但是在实践中由于受到费用、时间、总体分布的特征等因素的限制要完全保证满足随机性的原则是很困难的。因此，在抽样时必须根据所研究总体的特征和研究的目的要求，对抽取样本的程序和方法进行周密的设计和安排，这就称为抽样方法或抽样的组织方式。

抽样方法有很多种，其中基本的抽样方法有以下几种：简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样等。

（一）简单随机抽样

简单随机抽样是按照随机性的原则，保证总体中每个单位被抽中的机会都相等的一种抽样方法。尽管简单随机抽样最符合随机性原则，但它并不能保证所取得的样本单位在总体中的分布均匀，所抽的样本也许缺乏代表性，这样抽样误差就会较大。为减少抽样误差，保证抽样结果的精确性，就需要抽取较多的样本数。所以简单随机抽样只是适合于总体中单位之间的差异较小的情形。此外，这种方法在实践中也有很大的局限性，因为这种抽样方法是直接从总体中随机抽取样本的，需要事先将总体中的各单位进行编号。如果总体单位的数量较多而分布又分散时，实施起来就很困难，因此又只适用于总体单位数较少而分布又集中的情形。

简单随机抽样又可以分为重复抽样和不重复抽样两种方法。重复抽样是从总体中抽取第一个单位后，再把这个单位放回总体，再抽取第二个单位。以此类推，直至抽足样本所要求的单位数为止。不重复抽样则是每次抽取样本以后不再将这个单位放回总体，而在余下的单位中抽取样本。重复抽样能够保证每次抽样时总体的构成不变，但是总体中的同一个单位可能会被多次抽到样本中去。不重复抽样能够保证总体中的单位在样本中最多只出现一次。对于单位数较少的总体而言，采用不重复抽样，更有利于获得总体信息。

要注意的是在重复抽样和不重复抽样两种情形，所得到的样本方差是不同的。

（二）分层抽样

分层抽样又称为分类抽样或类型抽样。它是先将总体各单位按照其属性特征分成若干个组，称为层次或类型，然后在各层或类中用简单随机抽样法或等距抽样法抽取出所需要的样本单位。

分层抽样法通过分层可以保证同一层中各单位之间的差异较小，所抽取出的单位对于该层的其他单位有较好的代表性，而且各层都有一定的单位选入样本，因此，用较少的单位就可以取得较好的抽样效果。

分层抽样法最适宜于总体情况比较复杂，各层次或类型之间的差异较大，而总体单位数又较多的情形。

分层抽样中根据每一层所抽取的样本数的决定方法不同，又可以分为几种不同的分层抽样方法：等比例分层抽样法、等数分层抽样法和最优分配的分层抽样法。

等比例分层抽样法就是要求在每一层次中所抽取的样本数在样本总数中所占的比例与这一层次的单位数在总体中所占的比例相一致。这样可以保证样本的结构与总体的结构保持一致，使样本具有更大的代表性。一般地，如果对样本的代表性要求一致时，等比例分层抽样所需要的样本单位数可以比简单随机抽样或等距抽样所需要的少一些。因此这是一种应用最广的抽样方法。

等数分层抽样法是在每一层中都抽取相同单位的样本数的抽样方法。对于总体中各层的单位数基本相等或差异不大的情形，用这种方法分配样本数比较简单，否则用这种方法所产生的抽样误差就较大。

最优分配的分层抽样法是一种按照各层单位的差异大小来决定样本数的抽样方法。这种方法主要是考虑总体单位在分层以后，不仅各层所包含的单位数不同，而且各层的标志变动程度（i）亦不同，在决定抽样单位时，对于标志变动程度大的层，抽样单位数要多，对于变动程度小的层，抽样单位数可以相应少些。这样就可以使各层所抽取的样本数在样本总数中的比例与该层的变动程度在所有变动程度总和中的比例相等。这种样本分配方式可以使样本的抽样误差最小。但是由于在决定样本数前，难以知道各层内单位的变动程度，所以这种方法实际上也很少采用。

（三）等距抽样

等距抽样又称为系统抽样或机械抽样。这种方法先将总体中各单位按某一标志顺序排列，然后每隔一定的间距抽取样本单位。

等距抽样按照排队时所依据的标志不同，可以分为无关标志排队和有关标志排队。无

关标志排队就是按照与调查研究无关的标志进行排队。例如，在研究居民的平均收入水平时，先按其姓氏笔划顺序进行排队就是一种无关标志排队。有关标志排队是按照与调查研究的目的或内容有关的标志进行排队。例如，若要研究某个单位职工的平均工资水平，先对职工按其工资高低进行排队，然后再抽样就是一种有关标志排队。

等间距抽样时的关键是确定在第一个间距内抽样单位的位置。如果总体是按无关标志排队的，可以在第一个间隔内随机抽取样本单位。如果总体是按有关标志排队的，则第一个抽样单位可以选择第一个间隔内居中的那个单位。在样本的第一个单位确定后，其余各抽样单位就可以按每隔一个等间距来确定。这样可以保证样本单位在总体中能均匀分布。等距抽样时的估计误差可以按照简单随机抽样的公式进行计算。

等距抽样的优点是抽样方式简单、容易实施，所以应用广。等距抽样能使样本在总体中均匀分布，因此，抽样调查的精确度一般要高于简单随机抽样。但由于等距抽样中第一个样本单位的位置确定以后，其余的样本单位的位置也就自动确定了，因此要避免由于抽样时所采用的间距和所研究对象本身的周期性相重合而引起系统性的偏差。

（四）整群抽样

整群抽样就是将总体中的单位按一定的标志或要求分成若干群，然后以群为单位，随机地抽取几个群，对已抽中的群进行全面调查或抽样调查的一种抽样方式。

采用整群抽样时，抽取的样本单位比较集中，因此，抽样调查实施起来就比较简单方便，可以节省人力、物力和财力。这种方法适宜于总体中所包括的单位数很多，而对其中单位的情况缺乏了解，直接对单位进行抽样的误差难以控制，风险较大时进行调查。这时采用整群抽样却可能获得较好的结果。

进行整群抽样时所得到结果的可靠性程度取决于，在对总体分群后，群与群之间差异的大小及抽选的单位数的多少。如果群与群之间差异小而抽选的样本群数多，则抽样的误差就小，反之，若群与群之间的差异大，而抽选的样本群数又少，抽样的误差就大。

（五）多阶段抽样

前面所介绍的几种抽样方式都是从总体中进行一次抽样就产生一个完整样本的抽样方法，通常称为单阶段抽样。但是在实践中，通常情况下，总体所包括的单位数很多，分布很广，要通过一次抽样就选出有代表性的样本是很困难的。此时我们可将整个抽样过程分为几个阶段，然后逐阶段进行抽样，最终得到所需要的有代表性的样本，这种抽样方法称为多阶段抽样。

多阶段抽样时的阶段数不宜过多，一般采用二、三个阶段，至多四个阶段为宜，否则，手续繁琐，效果也不一定好。多阶段抽样时前几个阶段的抽样都是以整群抽样的方式进行的。为保证抽样结果的代表性，抽取的群数和抽样的方式都要注意样本单位分布的均匀性。为此，在第一阶段抽样时通常多抽一些群数。对于群间差异大的阶段，则应当多抽一些，反之，可以少抽一些。在每一阶段抽取群体时，可以采用简单随机抽样法或等距抽样法。不同的阶段既可以用同一种抽样方式，也可以用不同的抽样方式。

第二节

抽样分布

一、关于正态分布理论的简要回顾

在《概率论和数理统计》课中已经介绍过随机变量的概念。为了以下内容学习的方便，我们对其中最重要的确正态分布理论做一个回顾。许多自然界和社会经济现象中随机变量的取值都是连续的，而且体现出中间大、两头小的特征。这往往就是正态分布的特点。正态分布就是一种最重要、最常见的连续型随机变量的概率分布。从统计的角度看，一个服从正态分布的随机变量X的分布函数具有如下的形式：

Pxx1F(x1)

上式中的f(x)x1fxdx21x1ex222dx

12ex222

２称为随机变量X的概率密度函数。其中的是分布的数学期望，是分布的方差。它们

2是正态分布的两个重要参数。随机变量X服从正态分布记作X~N,。



由正态分布随机变量的概率密度函数所描出的正态分布曲线如图4-1所示，具有下列几个重要的特征：

1．正态分布曲线只有一个顶点，是单峰曲线，左右对称，其形状象钟，通常称为钟形曲线。

2．正态分布总体的均值就是正态曲线的中心。在X=处，概率密度函数fx取到最大值。X离越远fx取值越小。曲线两个尾端趋向无穷小，但永远不会与横轴相交。

3．概率密度函数fx的曲线与X轴所围成的面积等于1。当随机变量的数学期望固定时，概率密度函数fx的极大值为

12，可知当越小时，曲线越陡；越大时，曲线越平坦。而当固定，变化时，曲线形状不变，只是位置左右移动。

一般地说，若某一变量受到多个随机因素的影响，而各个因素所起的作用都不大时，这个变量就服从正态分布。许多随机变量的分布都可以用正态分布来近似。

图4-1 正态分布曲线图

正态分布中，当参数＝0，＝1时，我们把这种正态分布称为标准正态分布。此时其概率密度函数和分布函数具有最简单的形式，分别为：

f(x)

F(x1)２121ex22

当随机变量X服从标准正态分布时，就记作X~N0,1，统计学上已编制成了现成的标准正态分布函数值表。要使用标准正态分布的累积分布函数值时只要查表就可以了。

对于一个服从于一般的正态分布的随机变量，我们都可以通过线性变换把它变换为标

2准正态分布。例如，设随机变量X~N,。只要令Z2x1ex22dx

x，由于变换是线性的，随机变量Z也服从正态分布。而且可以得到随机变量Z的数学期望和方差分别为E(Z)= 0，53 V(Z)= 1。这样新的随机变量Z就服从标准正态分布了，即Z~N0,1。因此，标准正态分布也称为Z分布。

图4-2 正态分布曲线下的面积分布

无论原先的随机变量X的计量单位如何，Z都是以为计量单位的。Z的物理意义就是任意一条正态曲线上从XX0的一点到正态曲线中心点之间的长度以标准差为单位来计量的数目。例如，Z= 2表示该点在横轴上处于曲线中心（即均值）的右端，而且与曲线中心的距离正好等于2个标准差的长度。如果Z=-3表示该点在横轴上处于曲线中心（即均值）的左端，而且与曲线中心的距离正好等于3个标准差的长度。由于任何一个正态分布都可以转化为标准正态分布，因此对于任何一个正态分布，凡是以均值（即曲线中心）为起点，包括相同的标准差倍数的区间内所包括的正态曲线下的面积占全部面积的比例都是与标准正态分布相应的面积比例相同的。因此，我们可以用标准正态分布表来代替其他各种非标准正态分布表。

图4-2表示了正态分布曲线下的面积分布情况，由此我们可以精确地计算出随机变量落在某个特定范围内的概率大小。

1．随机变量的取值落在均值（期望值）加减1个标准差的范围内的概率是68%。

2．随机变量的取值落在均值（期望值）加减2个标准差的范围内的概率是95%。

3．随机变量的取值落在均值（期望值）加减3个标准差的范围内的概率是99%。

例4-3。某工人完成某批工件的加工任务所需要的平均时间为50小时，标准差为10小时。今要求：

1．如果用户要求的交货期限是45小时，则按时交货的概率是多少？

2．如果用户要求的交货期限是75小时，则按时交货的概率又是多少？

解： 1.由于

ZX145500.5 10

从正态分布表中可以查到Z=-0.5左边的面积是0.3085，因此在交货期限是45小时时，按时交货的概率是30.85%。

2.由于

ZX275502.5 10查正态分布表可得Z = 2.5左边的面积是0.9938，因此在交货期限是75小时时，按时交货的概率是99.38%。

二、抽样分布和抽样误差

如果能把对总体中每一个单位测量的结果罗列出来就得到总体的分布。但在抽样的情形，无论对于有限总体还是无限总体，只要抽样的样本数小于总体中的单位数，那么可能

抽取的样本就不只一个。在一般情况下，从同一总体中抽取出的不同样本，其统计量的值是不同的。全部可能样本的统计量的概率分布叫做抽样分布。统计上通常用样本的分布，即抽样分布来近似总体分布，例如，我们可以使用样本的均值和标准差来描述总体的均值和标准差的分布，使用样本的比例分布来描述总体比例的分布。

对于抽样分布，我们也可以使用均值和标准差来描述。从同一总体中抽取的各个样本的均值通常并不完全相等，相互间总存在一定的差异。这种差异是随机抽样本身所固有的。事实上，各个样本的同一统计量之间，某个样本的统计量与总体参数之间总存在着一定的差异。这种差异叫做抽样误差。

为了把握用样本的统计量估计总体参数时的准确程度，统计上要研究抽样误差。个别样本的统计量的误差大小是很难估计的，但是全部可能样本的统计量的平均误差，即某个统计量抽样分布的标准差是可以度量的。

三、样本均值的抽样分布

理论上可以证明，若总体服从均值为，方差为的正态分布，则从总体中抽取出的样本的均值仍然是服从正态分布的。下面我们研究样本均值的抽样分布特征。

假设我们从均值为，方差为２２的总体中抽取一组样本x1,x2,,xn。它们相互独立，且具有相同的分布函数。利用期望值的运算性质，我们研究样本均值x的数字特征，就有

EX11Ex1xnEx1Exn nn由于每一个xi都具有相同的分布函数，故它们都具有相同的期望值，所以，EX

对于x的方差Dx，根据方差的运算性质，有 1Dx1xn 2n因为x1,x2,,xn相互独立，有 DX2Dx1Dx2Dxn。

n２再因为x1,x2xn具有相同的分布，方差都为，故 DX12222 DX2

nn2于是，我们可以得出X~N,。

n

结果，我们得出样本均值的抽样分布特征如下：样本均值的抽样分布仍然是服从正态

2分布的，其均值仍为，方差为，即样本均值的方差比原总体的方差要小，而且样本

n容量n越大，方差越小。X的标准差通常又称作样本的标准误，并记为：

Xn

由此我们可以定义一个新的随机变量U

U＝xn～N(0，1)

上述结论是对正态总体而言的，不过实际上，即使对于非正态总体而言，随着样本容量的增加，X的抽样分布也会近似地变成正态的。事实上，只要样本足够大（通常要求样本容量不小于45），即使是从非正态分布的总体中抽样，根据统计学中的中心极限定理，样本均值的抽样分布与从正态分布总体中的抽样所得到的结果也近似相同。

四、样本的其他一些分布

１．样本方差的分布(略)２．样本比例的分布

管理中还需要研究总体或样本中具有某种属性的个体占全体单位数的百分比的问题，由此需要研究样本的比例分布问题。总体中具有某种属性的单位数与总体全部单位数之比称为总体的比例，也称总体的成数，记作P。而样本中具有某种属性的单位数与样本总数之比称为样本比例，或称样本成数，记作p。

若从总体中随机抽取出容量为n的样本，发现其中具有某种属性的单位数为m，则样本中具有某种属性的单位的比例就为

p

n样本比例是一个随机变量，当样本容量很大时，近似地服从正态分布。其分布的数学期望和方差分别为：

m11E(p)E()E(m)nPP

nnnP(1P)m11 p2(m)nP1Pnnnn2p2222由此可见，样本比例p的数学期望就是总体的比例P，样本比例的方差等于即：

p~NP,P1－P，nP1－P n但是，要使样本成数的抽样分布近似于正态分布，样本容量n必须足够大，并且要满足np和n1p都大于5。

3.两个样本平均数之差的分布

统计学中还经常用到分别来自两个正态总体的样本均值差的分布问题。如果有两个正

22态分布的总体X1和X2，其均值分别为1和2，方差分别为1和2，若从这两个正态总体中分别抽取容量为n1和n2的两个独立样本，则两个样本平均数之差也一定服从正态分布，其数学期望为12，方差为

12n122n2，即

X 1X22122 ~N12,n1n256

第三节 t分布、2分布和F分布

一、t分布

当样本容量小于30时，样本均值的分布与正态分布之间的误差较大，上节所得到的结果就不再适用了，此时只要总体是正态的或接近正态的，样本均值就服从t分布。

t分布与正态分布一样也是对称的。一般地，t分布比正态分布更平坦一些。对于不同的样本大小都有一个相应的t分布。随着样本数的增加，t分布的形状由平坦逐渐变得接近于正态分布。当样本容量大于30时，t分布就非常接近于正态分布，可以用正态分布来代替了。

不同大小的样本对应于不同的t分布，这是因为t分布与自由度有关。所谓自由度就是可以自由选样的数值个数。假如样本的大小是n，在样本的均值X确定的条件下，对样本中的数据能够自由决定数值的个数就只有n-1个了。实际上，当把n-1个数值选定以后，第n个数据的值也就自动确定了。由此可见，大小为n的样本的自由度就是n-1。图4-3是自由度分别为1和10的t分布曲线并与标准正态分布曲线比较。

图4-3 t分布曲线

二、2分布

设总体服从于标准正态分布，即X~N0,1，又x1x2xn为取自该总体的一个样本，它们的平方和记作，即 22=X12+X22Xn2

22则称统计量为服从自由度为n的分布，记作 2=2（n）

2的分布曲线与t分布一样与自由度有关。图4-4是自由度分别为1，4，10和20的2四种的分布曲线。从图上可以看出，当自由度很小时，的分布曲线向右伸展。随着自由22度的增加，的分布曲线变得愈来愈对称，当自由度达到相当大时，的分布曲线接近

正态分布。

图4-4

2分布曲线

与其他分布曲线一样，每一条2分布曲线下的总面积都等于1，附录表说明了五种显著性水平下2的曲线尾部的面积。我们可以根据某一问题计算得到的2实际值来计算出这一观察值发生的可能性。

2分布具有可加性，设X12～2（n1），X22～2（n2），且它们相互独立，则 X12＋X22～2（n1+n2）

三、F分布

设X和Y分别为服从于自由度为n1-1和n2-1的2分布，即X～2（n1-1），Y～2X（n2-1）且相互独立，则称统计量F=和（n2-1）的F分布。

n1n2Y~Fn11,n21为满足于自由度为（n1-1）F分布与t 分布一样也有自由度。t 分布与分布都仅有一个自由度，但F分布却有两个自由度。一个是分子的自由度，一个是分母的自由度。

图4-5是某些常用自由度的F分布的密度曲线图。图中的曲线随自由度的取值不同而不同。F分布的密度曲线是一个单峰的偏态曲线。它的具体形状取决于F比值中分子和分母的自由度。一般地，F分布向右方倾斜，随着分子分母自由度的增加，分布愈来愈趋向于对称。但它不以正态分布为其极限。为使用方便统计学中已编制了常用的F分布表供查阅。

由F分布的定义可知，若F~Fn1,n2，则

21~Fn2,n1 F

相关专题统计第三章讲稿统计讲稿第四章统计第三章讲稿统计讲稿第四章

[其他范文]相关推荐

[其他范文]热门文章