资源描述
数理统计基础知识数理统计基础知识数理统计基础知识数理统计基础知识 另一个是另一个是统计推断统计推断,研究如何对所获取的,研究如何对所获取的有限有限的资料进行的资料进行科学地分析科学地分析,用科学的方法,用科学的方法提取提取和和分析分析寓于所收集到的有限数寓于所收集到的有限数据中的信息,并据中的信息,并运用统计推断的方法运用统计推断的方法,在,在更大的范围内更大的范围内对所研对所研究的问题做出尽可能准确、可靠的推断,得出某种究的问题做出尽可能准确、可靠的推断,得出某种合理的合理的结论。结论。统计推断统计推断是数理统计学的基本问题之一,在此主要介绍统是数理统计学的基本问题之一,在此主要介绍统计推断的一些基本知识。计推断的一些基本知识。由于统计推断是由于统计推断是由部分来推断整体由部分来推断整体,是借助在小范围内,是借助在小范围内所提取的信息来推断整体的规律性,这就不可避免地会使这所提取的信息来推断整体的规律性,这就不可避免地会使这种推断带有某种种推断带有某种不确定性不确定性,也就是说,人们不能保证所推断,也就是说,人们不能保证所推断的结果是百分之百正确的。的结果是百分之百正确的。因此,在进行统计推断的同时,还必须寻求一些有意义因此,在进行统计推断的同时,还必须寻求一些有意义的指标来的指标来衡量衡量推断的正确程度,推断的正确程度,评价评价推断过程中所含有的不推断过程中所含有的不确定性。确定性。下面给出数理统计学的一些基本概念。下面给出数理统计学的一些基本概念。4.1总体与样本总体与样本一、总体与总体分布一、总体与总体分布总体总体是具有一定共同属性的是具有一定共同属性的研究对象研究对象的全体。一旦总体确的全体。一旦总体确定了,便称组成总体的每一个个别的成员为定了,便称组成总体的每一个个别的成员为个体个体。总体与个体总体与个体的关系的关系,即集合论中集合与元素之间的关系。,即集合论中集合与元素之间的关系。例如,例如,为研究灯泡厂一天中所生产的灯泡的质量,该厂在为研究灯泡厂一天中所生产的灯泡的质量,该厂在一天中所生产的一天中所生产的所有所有灯泡就是待研究的灯泡就是待研究的总体总体,每一个每一个灯泡就是灯泡就是一个一个个体个体。在统计学的研究过程中,人们关心的在统计学的研究过程中,人们关心的并不是并不是所研究对象所研究对象(总体)(总体)的的所有特征所有特征,而,而仅仅是关心仅仅是关心反映所研究对象某一反映所研究对象某一特征特征的某一项或某几项的某一项或某几项数量指标数量指标。例如例如,反映学生反映学生“概率统计概率统计”课程的课程的学习情况学习情况的数量指的数量指标,就是学生这门课程的考核成绩(并不需要考虑学生的身高、标,就是学生这门课程的考核成绩(并不需要考虑学生的身高、体重等指标)体重等指标)。对于对于所选定的所选定的数量指标数量指标X(可以是向量)而言,由于每个可以是向量)而言,由于每个个体的取值是不同的,且每个个体的取值在测试结束之前是不个体的取值是不同的,且每个个体的取值在测试结束之前是不能确定的,因此能确定的,因此数量指标数量指标X是一个随机变量是一个随机变量(或随机向量)。(或随机向量)。为了研究方便,通常把总体(为了研究方便,通常把总体(具有一定共同属性的具有一定共同属性的研究对研究对象象的全体)的全体)与数量指标与数量指标X等同等同起来,并把数量指标起来,并把数量指标X的分布的分布称为称为总体的分布总体的分布。即。即 定义定义4.1(P.124)统计学中,称随机变量(或随机向量)统计学中,称随机变量(或随机向量)X为为总体总体,并把随机变量(或随机向量),并把随机变量(或随机向量)X的分布称为的分布称为总体分总体分布布。注注(P.124):):总体总体X的分布一般是的分布一般是未知的未知的。有时虽然。有时虽然已知总体分布的类型(如正态分布、伯努利分布等),但这些已知总体分布的类型(如正态分布、伯努利分布等),但这些分布中所含的参数(如分布中所含的参数(如、2,p等)也是未知的。统计学的等)也是未知的。统计学的主要任务主要任务,就是对总体的未知的分布或参数进行推断。,就是对总体的未知的分布或参数进行推断。对于所研究对象的对于所研究对象的定性指标定性指标,也可以,也可以转化转化为为定量指标定量指标(即数量指标)来研究,进而可以设定一个随机变量来表示所(即数量指标)来研究,进而可以设定一个随机变量来表示所研究的总体。研究的总体。例如例如,“考察学生的学习成绩是优秀、合格还是不合格考察学生的学习成绩是优秀、合格还是不合格”时,仍然可以用一个随机变量时,仍然可以用一个随机变量X来描述:来描述:令令 。二、样本与样本分布二、样本与样本分布由于总体的分布一般是未知或部分未知的,为了获取对总由于总体的分布一般是未知或部分未知的,为了获取对总体分布的知识,就需要对总体进行观察,收集有关总体的信息体分布的知识,就需要对总体进行观察,收集有关总体的信息和资料。和资料。在实际研究过程中,由于受到人力、时间和财力方面的限在实际研究过程中,由于受到人力、时间和财力方面的限制,人们往往制,人们往往不能收集到不能收集到有关总体的有关总体的全部信息全部信息;而且在有些情;而且在有些情况下,根本就况下,根本就不允许不允许人们去获取有关总体的全部数据(如在测人们去获取有关总体的全部数据(如在测试灯泡的使用寿命时,测试本身具有破坏性)。试灯泡的使用寿命时,测试本身具有破坏性)。因此,通常总是从总体中因此,通常总是从总体中抽取一部分个体抽取一部分个体来进行观察,这来进行观察,这种做法称之为种做法称之为“抽样抽样”。假设从总体假设从总体X中抽取了中抽取了n个个体个个体X1,X2,Xn来对来对总体总体X进行抽样观察,由于在观察测试结束进行抽样观察,由于在观察测试结束之前之前,这,这n个个个个体的观测值是不确定的,而且体的观测值是不确定的,而且反复抽样反复抽样所得到所得到n个个体的观测个个体的观测结果也是不相同的。结果也是不相同的。因此,所抽取的因此,所抽取的n个个个体个体X1,X2,Xn实际上就是实际上就是一个随机向量(一个随机向量(X1,X2,Xn),),称之为一个称之为一个“样本样本”,每一个个体,每一个个体Xi称之为一个称之为一个样品样品;对样本(对样本(X1,X2,Xn)的一次的一次观测值观测值(x1,x2,xn),就是样本的一个,就是样本的一个“实现值实现值(样本值)(样本值)”。统计学的统计学的主要任务主要任务,就是,就是提供科学的方法提供科学的方法,借助,借助样本样本值值(x1,x2,xn),),对未知的总体进行对未知的总体进行合理的推断合理的推断。为了更准确地对总体分布进行分析和推断,就要求所抽为了更准确地对总体分布进行分析和推断,就要求所抽取的样本能够很好地反映总体的特性。下面的定义给出了一取的样本能够很好地反映总体的特性。下面的定义给出了一个个好的样本好的样本应该具备的条件。应该具备的条件。定义定义4.24.2(P.125P.125)称(称(X1,X2,Xn)为总体为总体X的的简单随机样本简单随机样本,如果,如果X1,X2,Xn是相互独立、同分是相互独立、同分布的随机变量,布的随机变量,而且而且它们都与总体它们都与总体X同分布。样本中所含分同分布。样本中所含分量的个数量的个数n,称为该样本的称为该样本的容量容量。1)1)人们要求样本中的每一个分量人们要求样本中的每一个分量 Xi(i=1,2,n)都与总体都与总体X同分布同分布,表明抽样观察的每一个个体都是从总体,表明抽样观察的每一个个体都是从总体中抽取的,因而它们对总体具有很好的中抽取的,因而它们对总体具有很好的代表性代表性;2)人们要求样本中的各分量人们要求样本中的各分量X1,X2,Xn 相互独相互独立立,则表明所得到的每一个观察结果,则表明所得到的每一个观察结果既不既不影响其它观察结果,影响其它观察结果,也不受也不受其它观察结果的影响。其它观察结果的影响。定义定义(P.125)获取简单随机样本的方法,称为获取简单随机样本的方法,称为简单随机简单随机抽样抽样。并称样本(。并称样本(X1,X2,Xn)的一组具体的观察值的一组具体的观察值(x1,x2,xn)为为样本值样本值,全体全体样本值组成的集合为样本值组成的集合为样样本空间本空间。容量为容量为n的样本空间是的样本空间是n维向量空间维向量空间Rn的一个子集。的一个子集。这里这里假定假定所考虑的样本都是简单随机样本,所考虑的样本都是简单随机样本,简称为简称为样本样本。约定约定:以:以大写大写的英文字母的英文字母Xi表示表示随机变量随机变量,而以相应的,而以相应的小写小写英文字母英文字母xi表示随机变量表示随机变量Xi的的观察值观察值。设总体设总体X的分布函数为的分布函数为F(x),则由定义则由定义4.2(P.125知,知,样本(样本(X1,X2,Xn)的分布函数为的分布函数为,并称之为,并称之为样本分布样本分布。特别地特别地,如果总体,如果总体X为为连续型连续型随机变量,其密度函数为随机变量,其密度函数为f(x),则样本(则样本(X1,X2,Xn)的密度函数为的密度函数为,并分别称,并分别称f(x)和和f(x1,x2,xn)为为总体密度总体密度和和样本密度样本密度。如果总体如果总体X为为离散型离散型随机变量,随机变量,.如果总体如果总体X为为离散型离散型随机变量,其概率分布为随机变量,其概率分布为p(x)=P(X=x),x取遍取遍X所有可能的取值,则样本所有可能的取值,则样本(X1,X2,Xn)的概率分布为的概率分布为,并分别称并分别称p(x)和和p(x1,x2,xn)为为总体概率分布总体概率分布和和样本概样本概率分布率分布。例例4.1(P.126)称总体称总体X为为正态总体正态总体,如果,如果X服从正态服从正态分布。正态总体是统计应用中分布。正态总体是统计应用中最常见最常见的总体。的总体。现假设总体现假设总体XN(,2),总体密度总体密度 则其样本(则其样本(X1,X2,Xn)的密度为的密度为 例例4.2(P.126)称总体称总体X为为伯努利总体伯努利总体,如果它服从以,如果它服从以p(0p1)为参数的伯努利分布,即为参数的伯努利分布,即Xb(1,p)。从而有从而有P(X=1)=p,P(X=0)=1 p,即即p(i)=P(X=i)=pi(1 p)1 i,i=0,1。于是,其于是,其样本(样本(X1,X2,Xn)的概率分布为的概率分布为其中其中 xi(i=1,2,n)取值取值 1 1 或或 0 0,它恰,它恰好等于样本中取值为好等于样本中取值为 1 1 的分量之总和。的分量之总和。例例4.3设总体设总体X服从参数为服从参数为p的几何分布,(的几何分布,(X1,X2,Xn)为其样本,求样本的概率分布。为其样本,求样本的概率分布。解解p(k)=P(X=k)=p(1 p)k 1,k=1,2,;(X1,X2,Xn)是来自总体是来自总体X的样本,的样本,样本的概率分布为样本的概率分布为其中其中xi(i=1,2,n)取值取值正整数正整数。例例4.4设总体设总体X服从参数为服从参数为 的指数分布,(的指数分布,(X1,X2,,Xn)为其样本,求样本密度为其样本,求样本密度 。解解 总体总体 Xe(),;(X1,X2,Xn)是来自总体是来自总体X的样本,的样本,样本密度为样本密度为对样本概率分布和样本密度的理解对样本概率分布和样本密度的理解:在例在例4.3和例和例4.4中,算得中,算得样本概率分布和样本密度样本概率分布和样本密度分别为分别为 ,xi取值正整数,取值正整数,i=1,2,n;和和 ,x xi i 0 0,i=1i=1,2 2,n n 。在概率论的研究中,人们通常假定随机变量(即总体)的在概率论的研究中,人们通常假定随机变量(即总体)的分布及其参数(如:分布及其参数(如:p、等)都是已知的,因而把等)都是已知的,因而把p(x1,x2,xn)和和f(x1,x2,xn)理解为关于理解为关于未知量未知量x1,x2,xn的的n元函数元函数。例 设总体X服从参数为 的泊松分布,则样本的概率分布为 在统计学的实际应用中,在统计学的实际应用中,根据知识与经验根据知识与经验,人们往往可以,人们往往可以确定确定总体分布所属的总体分布所属的类型类型,例如例如,认为学生的考试成绩服认为学生的考试成绩服从正态分布;从正态分布;描述一件产品是否为废品的随机变量服从伯描述一件产品是否为废品的随机变量服从伯努利分布(努利分布(01分布);分布);记录电话呼叫次数的随机变量服记录电话呼叫次数的随机变量服从泊松分布;从泊松分布;电子元件的寿命服从指数分布等等。电子元件的寿命服从指数分布等等。因此,在总体分布中,往往只是其中的因此,在总体分布中,往往只是其中的参数参数是未知的。是未知的。从这个意义上来讲,可以从从这个意义上来讲,可以从另一个角度另一个角度来理解例来理解例4.3和例和例4.4中的中的样本概率分布和样本密度样本概率分布和样本密度:把式中的把式中的(x1,x2,xn)看作是一个看作是一个样本值样本值,通过试验,通过试验观察就可以确定下来,因而它们是一组已知量(或观察就可以确定下来,因而它们是一组已知量(或可知量可知量),),而各总体的参数(如而各总体的参数(如p、等)是未知量,即分别把等)是未知量,即分别把p(x1,x2,xn)和和f(x1,x2,xn)理解为理解为关于未知参数关于未知参数p和和 的一元函数的一元函数:,0p0 。在统计学中,就是要由样本值在统计学中,就是要由样本值(x1,x2,xn)出发,来出发,来推断推断总体中未知的参数。因此,统计学中又把例总体中未知的参数。因此,统计学中又把例4.3和例和例4.4中中的的样本概率分布和样本密度函数样本概率分布和样本密度函数称为称为未知参数的似然函数未知参数的似然函数。关。关于似然函数的概念,将在于似然函数的概念,将在5.2中做详细的介绍。中做详细的介绍。三、统计推断问题简述三、统计推断问题简述(P.122)统计学要解决的统计学要解决的主要问题主要问题,就是借助总体,就是借助总体X的一个的一个样本样本(X1,X2,Xn),),利用其利用其样本值样本值(x1,x2,xn),对总体对总体X的未知分布的未知分布或参数或参数进行科学地、合理地进行科学地、合理地推断推断。人们。人们将这类问题统称为将这类问题统称为统计推断统计推断问题。问题。在进行在进行统计统计推断的过程中,推断的过程中,为了保证为了保证推断的科学性与合理推断的科学性与合理性,需要性,需要借助样本构造一些合适的借助样本构造一些合适的统计量统计量(即样本的函数,它(即样本的函数,它是一个随机变量是一个随机变量),然后再利用所构造的统计量的),然后再利用所构造的统计量的“良好良好”性质,对总体分布所属的性质,对总体分布所属的类型类型以及总体分布中所含的未知以及总体分布中所含的未知参数参数进行统计推断。进行统计推断。作业P127:4,6 4.2统计量统计量一、统计量的定义一、统计量的定义 定义定义4.3(P.127)设(设(X1,X2,Xn)为总体为总体X的的一个样本,称此样本的任一一个样本,称此样本的任一不含总体分布未知参数不含总体分布未知参数的函数为该的函数为该样本的样本的统计量统计量。例例4.4(P.127)设总体设总体X服从正态分布,服从正态分布,EX=5,DX=2(2未知),(未知),(X1,X2,Xn)为总体为总体X的一个样的一个样本。本。(1)令令Sn=X1+X2+Xn,则则Sn与与 X都是样本(都是样本(X1,X2,Xn)的的统计量统计量,且具有下面的,且具有下面的性质性质:ESn=E(X1+X2+Xn)=EX1+EX2+EXn=nEX=5n,DSn=D(X1+X2+Xn)=DX1+DX2+DXn=nDX=n 2;,。(2)令)令,则,则U不是不是该样本的统计量。因为该样本的统计量。因为U的表达式中含有总体分布的未知参数的表达式中含有总体分布的未知参数。对于一个给定的样本,根据统计量的定义,可以构造出很对于一个给定的样本,根据统计量的定义,可以构造出很多统计量来,但常用的、具有多统计量来,但常用的、具有“良好良好”性质的统计量并不性质的统计量并不多多.下面介绍一些在统计学中常用的统计量。下面介绍一些在统计学中常用的统计量。二、常用的统计量二、常用的统计量(P.128)设(设(X1,X2,Xn)为来自总体为来自总体X的一个容量为的一个容量为n的样本。的样本。1、样本均值、样本均值称样本称样本中各分量中各分量的算术平均值为的算术平均值为样本均值样本均值,记做,记做 X,即即(随机变量)。(随机变量)。注注:其其实现值实现值为:为:。注意注意区分符号区分符号EX与与 X!EX是是总体总体期望(总体均值),期望(总体均值),是一个,是一个常数常数;X是是样本样本均值,均值,是随机向量(样本),是随机向量(样本)(X1,X2,Xn)的函数,是一个的函数,是一个随机变量随机变量。因而,因而,EXX!2、样本方差、样本方差样本方差和样本标准差都是用来描述样本中各分量与样本样本方差和样本标准差都是用来描述样本中各分量与样本均值的均值的均方差异均方差异的统计量。样本方差有两种定义方式:的统计量。样本方差有两种定义方式:一种是一种是,并称,并称S02是样本的是样本的未修正的未修正的样本方差样本方差。3、样本标准差样本标准差更常用更常用的是样本方差的另一种定义,的是样本方差的另一种定义,并称,并称S2是是修正的样本方差修正的样本方差。S2比比S02有更好有更好的统计性质。今后使用的主要是修正的样的统计性质。今后使用的主要是修正的样本方差,简称为本方差,简称为样本方差样本方差.前者的数学期望是正好是方差前者的数学期望是正好是方差.同总体的方差与其标准差之间的关系一样,同总体的方差与其标准差之间的关系一样,样本标准差样本标准差 S S 定义为样本方差定义为样本方差 S S2 2 的算术平方根,即的算术平方根,即 。例例4.5样本方差的简化计算问题。样本方差的简化计算问题。其中其中。例例 4.6设(设(x1,x2,x6)是来自总体是来自总体X的的样本值样本值,已知已知 ,。求(。求(1)样本均值)样本均值 x;(2)样本方差样本方差s2,以及样本标准差以及样本标准差s。解解 (1 1);(2 2)。例例4.7设(设(X1,X2,Xn)是来自总体是来自总体X的的样本样本,EX=,DX=2,求求E X,D X。解解(X1,X2,Xn)是来自总体是来自总体X的样本,的样本,EX=,DX=2,EXi=,DXi=2,i=1,2,n;且且X1,X2,Xn相互独立,相互独立,;。进而有进而有,若总体,若总体XN(,2)(即即X是正态总体),是正态总体),则则。注:注:样本方差的统计意义样本方差的统计意义 就样本的某一组观察值(就样本的某一组观察值(x1,x2,xn)而言,而言,与总体与总体方差方差类似类似,样本方差样本方差刻画了样本值对其刻画了样本值对其样本均值的样本均值的平均偏离程度平均偏离程度:样本方差:样本方差越小越小,样本数据就围绕着,样本数据就围绕着其样本均值分布得其样本均值分布得越集中越集中;样本方差;样本方差越大越大,样本数据就围绕着,样本数据就围绕着其样本均值分布得其样本均值分布得越分散越分散。4、样本原点矩、样本原点矩(P.129)记记,k 1。并称并称Ak为为样本的样本的k阶原点矩阶原点矩。当当k=1时,一阶样本原点矩时,一阶样本原点矩就是样本均值就是样本均值 X。可见,样本原点矩是样本均值概念的推广。可见,样本原点矩是样本均值概念的推广。5、样本中心矩、样本中心矩(P.129)记记,k 1。并称并称Bk为为样本的样本的k阶中阶中心矩心矩。当当k=2时,二阶样本中心矩时,二阶样本中心矩就是就是未修正的样本方差未修正的样本方差。可见,样本中心矩是未修正的样本方。可见,样本中心矩是未修正的样本方差概念的推广。差概念的推广。以上各统计量(样本均值、样本方差、样本标准差、样以上各统计量(样本均值、样本方差、样本标准差、样本原点矩、样本中心矩)统称为样本的本原点矩、样本中心矩)统称为样本的矩统计量矩统计量,或简称为,或简称为样本矩样本矩。它们都可以。它们都可以表示成样本的显示函数表示成样本的显示函数。除样本矩以外,还可以定义不能表为样本的显示函数的除样本矩以外,还可以定义不能表为样本的显示函数的统计量。统计量。6、顺序统计量、顺序统计量 设(设(X1,X2,Xn)为总体为总体X的一个样本,将样本中的一个样本,将样本中的各分量按的各分量按由小到大由小到大的顺序排列成的顺序排列成X(1)X(2)X(n),则称(则称(X(1),X(2),X(n))为样本的一组为样本的一组顺序统计量顺序统计量,称,称X(i)为样本的为样本的第第i个顺序统计量个顺序统计量。特别地特别地,称,称X(1)与与X(n)分别为样本的分别为样本的极小值极小值与与极大值极大值,并称并称X(n)X(1)为样本的为样本的极差极差。三、枢轴量三、枢轴量在样本的在样本的统计量统计量中中不应该包含不应该包含总体分布的任何未知参数。总体分布的任何未知参数。但是但是在统计推断问题中,在统计推断问题中,又又常常需要利用样本资料对总体分布常常需要利用样本资料对总体分布中的某一个未知参数中的某一个未知参数 进行进行推断推断。为此,需要为此,需要构造构造一个一个样本的样本的仅含仅含有有待推断的待推断的未知参数未知参数,而不含有其它未知参数的而不含有其它未知参数的函数函数U(X1,X2,Xn;),同时要同时要求求如此构造的样本函数如此构造的样本函数 U(X1,X2,Xn;)的的分布已知。分布已知。将这种将这种只含有一个只含有一个未知参数、且分布已知的样本函数,称未知参数、且分布已知的样本函数,称为为枢轴量枢轴量。人们利用枢轴量的已知分布,就可以对总体分布中。人们利用枢轴量的已知分布,就可以对总体分布中的未知参数的未知参数 进行统计推断。进行统计推断。由此可见,枢轴量应该满足由此可见,枢轴量应该满足三点三点要求:要求:首先首先,它必须是一,它必须是一个样本的函数;个样本的函数;其次其次,在这个样本的函数中,在这个样本的函数中仅含有一个仅含有一个未知参未知参数;数;最后最后,此样本函数的分布是已知的。,此样本函数的分布是已知的。例例4.8(P.129例例4.5)设总体设总体X,其中其中已知,已知,未知,(未知,(X1,X2,Xn)为总体为总体X的一个样的一个样本,令本,令,则,则UN(0,1)。证证(X1,X2,Xn)是来自正态总体是来自正态总体的一个样本,的一个样本,X1,X2,Xn相互独立,且相互独立,且,i=1,2,n。,于是,于是,。另外,由于另外,由于U是样本是样本(X1,X2,Xn)的函的函数,且仅含有一个未知参数数,且仅含有一个未知参数,同时,同时U的分布已知,所的分布已知,所以以U是一个是一个枢轴量枢轴量。4.3常用的统计分布常用的统计分布 统计推断的统计推断的基本做法基本做法是:在取得总体是:在取得总体X的样本(的样本(X1,X2,Xn)之后,借助样本统计量(或枢轴量)来对未知的之后,借助样本统计量(或枢轴量)来对未知的总体分布进行推断。总体分布进行推断。为了实现统计推断的目的,一般需要确定相应的统计量为了实现统计推断的目的,一般需要确定相应的统计量(或枢轴量)所服从的分布。本节将介绍一些统计学中常用(或枢轴量)所服从的分布。本节将介绍一些统计学中常用的统计分布。的统计分布。一、分位数一、分位数 分位数是统计分布的分位数是统计分布的数字特征数字特征。定义定义 4.4(P.130)随机变量随机变量X的分布函数为的分布函数为F(x),对给定的实数对给定的实数(0 F)=,或或F(F)=1 。则称则称F 为为随机变量随机变量X的的分布的水平分布的水平 的上侧分位数的上侧分位数。或直接称为。或直接称为分布函数分布函数F(x)的水的水平平 的上侧分位数的上侧分位数。特别地特别地,如果,如果F(x)是严格单调增的,则其在水平是严格单调增的,则其在水平 的上的上侧分位数侧分位数F 为为F=F 1(1 )。当当X是连续型随机变量时,设其密度函数为是连续型随机变量时,设其密度函数为f(x):Xf(x),则其在水平则其在水平 的上侧分位数的上侧分位数F 应满足应满足(P(XF)=):,其中其中F 也称为也称为水平水平 的的右侧分位数右侧分位数;为图中阴影部分的面为图中阴影部分的面积,通常表示一个积,通常表示一个小概率小概率事件事件的的概率概率,也称为,也称为(右侧)尾部(右侧)尾部概率概率,常取值为,常取值为0.01、0.05和和0.10,一般要求,一般要求 F1 )=1 ,或或F(F1 )=。注注:当密度函数为:当密度函数为f(x)为偶函数时,成立为偶函数时,成立F1 =F(如图如图 2 2)。)。图图 1 1图图2f(x)1 0 F1 xxf(x)F1 =F 0 F 如:标准正态分布如:标准正态分布N(0,1)在水平在水平 的上侧分位数通常的上侧分位数通常记为记为u,且且u 应满足应满足 0(u)=1 。于是,通过查于是,通过查标准正态分布的分布函数表(附表标准正态分布的分布函数表(附表2),),即即可以得到分位数可以得到分位数u 的值。的值。例如例如,当当=0.05时,时,0(u0.05)=0.95,查表得查表得u0.05=1.645,由对称性,得由对称性,得u0.95=1.645;当当=0.10时,时,0(u0.10)=0.90,查表得查表得u0.10=1.28,由对称性,得由对称性,得u0.90=1.28。总注:(1)分布函数的图像在 左侧的面积为(2)若F(x)是严格单调递增的,则(3)标准正态分布N(0,1)水平 的上側分位数通常记为(4)根据图形的关系,可以得到(5)对于具有对称分布的分布函数的上側分位数 在统计学中,还要用到另一种分位数在统计学中,还要用到另一种分位数双侧分位数双侧分位数。定义定义4.5(P.131)设设X是是对称分布对称分布的随机变量,其分布的随机变量,其分布函数为函数为F(x),对给定的实数对给定的实数(0 T)=,即即P(XT)+P(XT)=,得得P(XT)+P(XT)=/2且且P(XF)=,知:知:T=F/2,即即水平水平 的双侧分位数的双侧分位数T,就是就是水平水平/2的上侧分位数的上侧分位数F/2(通常通常不使用不使用符号符号T,而使用而使用符号符号F/2来表示双侧分位数)来表示双侧分位数)。当当X是连续型随机变量是连续型随机变量时,设其密度函数为时,设其密度函数为f(x),T 的意义如右图所示。的意义如右图所示。可见可见,T=F/2,且有且有P(XF/2)=/2或或F(F/2)=1 /2,以及以及P(F/2XF1 /2)=1 /2,或或F(F1 /2)=/2;F/2满足满足:P(XF/2)=/2,或或F(F/2)=1 /2。且有且有P(F1 /2XF/2)=1 。当当 X是连续型随机变量时,且是连续型随机变量时,且Xf(x)时,有下图。时,有下图。x/2f(x)1 0 F1 /2 F/2/2 例例4.9当当=0.05时,求标准正态分布的水平时,求标准正态分布的水平 的(双的(双侧)分位数。侧)分位数。解解当当=0.05时,时,0(u0.025)=0.975,查表得查表得u0.025=1.96;且有且有P(1.96X1.96)=1 0.05=0.95。0 二、二、2分布分布 命题命题4.1 设设X1,X2,Xn是是n个相互独立的随机变个相互独立的随机变量,且量,且XiN(0,1),i=1,2,n。则则X=X12+X22+Xn2的密度函数为的密度函数为 ,其中,其中是是(伽马)函数。(伽马)函数。定义定义4.6(P.128)一个随机变量一个随机变量X称为服从称为服从以以n为自由为自由度的度的 2分布分布,如果其密度函数为,如果其密度函数为 。记作记作X 2(n)。可见可见,服,服从从 2分布的随机变量一定是分布的随机变量一定是非负非负随机变量。随机变量。定理定理:设X1,X2,Xn是相互独立的随机变量,且XiN(0,1),则统计量 2分布的密度函数的分布的密度函数的图形图形见见P.128图图4-4。当自由度。当自由度n取取不同的值时,不同的值时,2分布分布的密度函数的图形具有不同的形状。的密度函数的图形具有不同的形状。当当n 3时时,2分布的密度函数的曲线都为单峰曲线,曲分布的密度函数的曲线都为单峰曲线,曲线从原点开始递增,在线从原点开始递增,在x=n 2处达到最大值,然后递减,并处达到最大值,然后递减,并以以x轴为渐进线。函数的图形关于直线轴为渐进线。函数的图形关于直线x=n 2不对称,但随不对称,但随着自由度着自由度n的增大,曲线的峰值向右移动,图形变得比较平缓,的增大,曲线的峰值向右移动,图形变得比较平缓,并且趋于对称。因此,并且趋于对称。因此,当自由度当自由度n充分大以后,充分大以后,2分布可以分布可以用正态分布来近似。用正态分布来近似。2分布的的密度函数的示意图当当n=2时时,是参数是参数的指数分的指数分布布的密度函数,即的密度函数,即自由度为自由度为2的的 2分布分布 2(2)就是就是参数参数 的指数分布的指数分布 。其密度函数的曲线在。其密度函数的曲线在x=0处取到最大值,处取到最大值,然后递减,并以然后递减,并以x轴为渐进线。轴为渐进线。当当n=1时时,2分布的密度函数的曲线在分布的密度函数的曲线在x=0处取无穷大处取无穷大值并以值并以x轴和轴和y轴分别为其水平渐进线和垂直渐进线。轴分别为其水平渐进线和垂直渐进线。根据定义根据定义 4.6 4.6 和正态分布的性质,可以得到下面的命题。和正态分布的性质,可以得到下面的命题。命题命题 4.2 4.2(1)若若X 2(m),Y 2(n),且随机变量且随机变量X与与Y相互独立相互独立,则,则X+Y 2(m+n)。(。(也称之为也称之为独立独立 2变量变量的可加性的可加性。)。)(2)若若X 2(n),则则EX=n,DX=2n。证明证明(1)设随机变量设随机变量X1,X2,Xm,Xm+1,Xm+n相互独立,同服从标准正态分布相互独立,同服从标准正态分布N(0,1),则由命题则由命题4.1及及定义定义4.6得得 X12+X22+Xm2 2(m),Xm+12+Xm+22+Xm+n2 2(n),X12+X22+Xm+n2 2(m+n)。X 2(m),Y 2(n),X与与X12+X22+Xm2同分布,同分布,Y与与Xm+12+Xm+22+Xm+n2同分布。同分布。又又X与与Y相互独立,相互独立,X+Y与与X12+X22+Xm+n2同分布同分布。X+Y 2(m+n)。(2)设随机变量设随机变量X1,X2,Xn相互独立,同服从标相互独立,同服从标准正态分布准正态分布N(0,1),则则 X12+X22+Xn2 2(n),且且EXi=0,DXi=1,i=1,2,n。于是于是,EXi2=DXi+(EXi)2=1,i=1,2,n;i=1 i=1,2 2,n n。X 2(n),X与与X12+X22+Xn2 同分布同分布,于是,于是,;(;(注注:)又又随机变量随机变量X1,X2,Xn相互独立,相互独立,X12,X22,Xn2也相互独立,而也相互独立,而X与与X12+X22+Xn2 同分布,同分布,从而从而。2分布是常用的统计分布之一,但由于其密度函数的结构分布是常用的统计分布之一,但由于其密度函数的结构比较复杂,难于进行直接的计算。通常将其制成统计用表(比较复杂,难于进行直接的计算。通常将其制成统计用表(附附表表3)。)。附表附表3给出了自由度为给出了自由度为n的的 2分布的水平分布的水平 的上侧的上侧分位分位数数 2(n)的值的值,即若随机变量,即若随机变量X 2(n),0 2(n)=,或或P(X 21 (n)=1 。aca2(n)由于由于 2分布的密度函数分布的密度函数 2(x;n)不是对称的不是对称的,因而,因而 2分布不存在双侧分位数。分布不存在双侧分位数。但但在统计推断中,常常会使用在统计推断中,常常会使用两个分两个分位数位数 21 /2(n)和和 2/2(n),使使 P(X 2/2(n)=。通常采用式子通常采用式子P(X 21 /2(n)=1 /2和和P(X 2/2(n)=/2通过查表来通过查表来确定确定分位数分位数 21 /2(n)和和 2/2(n)。且有且有P(21 /2(n)X45或或n50)时,可以用正态时,可以用正态分布来分布来近似近似 2分布,用正态分布的分位数近似地求得分布,用正态分布的分位数近似地求得 2分布分布的分位数。的分位数。例例4.10设设r.v.X 2(16),=0.05,求求1)21 (16);2)21 /2(16)。解解1)由由P(X 20.95(16)=0.95,查表得查表得 21 (16)=20.95(16)=7.962;2)由由P(X 20.975(16)=0.975,查表得查表得 21 /2(16)=20.975(16)=6.908,且有且有P(6.908 X 28.845)=0.95。三、三、F分布分布F分布也是一种常用的统计分布。分布也是一种常用的统计分布。命题命题4.3设设X 2(m),Y 2(n),且且X与与Y相互独立,记相互独立,记,则,则Z的密度函数为的密度函数为其中其中(p0,q0)是是(贝塔)函(贝塔)函数。数。定义定义4.7一个随机变量一个随机变量X称为称为服从第一自由度为服从第一自由度为m,第第二自由度为二自由度为n的的F分布分布,如果其密度函数为,如果其密度函数为记作记作XF(m,n)。可见可见,服从,服从F分布的随机变量一定是分布的随机变量一定是非负非负随机变量。随机变量。F分布的的密度函数的示意图(n1,n2)=(10,40)(n1,n2)=(11,3)OF分布的密度函数曲线的形状因自由度分布的密度函数曲线的形状因自由度m、n的不同取值的不同取值而异。而异。当第一自由度当第一自由度m 3时,时,F分布的密度函数的曲线是单峰分布的密度函数的曲线是单峰曲线,曲线在曲线,曲线在处达到最大值,且处达到最大值,且x*1,即图即图形的峰值恒在小于形的峰值恒在小于1处达到。处达到。当两个自由度当两个自由度m与与n都变得越来越大时,都变得越来越大时,x*就越来越接就越来越接近于近于1,从而函数的图形就在非常接近于,从而函数的图形就在非常接近于1的地方达到最高点,的地方达到最高点,同时,曲线也接近于对称;同时,曲线也接近于对称;当当m与与n都趋于无穷大时,都趋于无穷大时,F分布趋于正态分布。分布趋于正态分布。综合定义综合定义4.7和命题和命题4.3,得,得 结论结论设随机变量设随机变量X与与Y相互独立相互独立,分别服从,分别服从 2(m)与与 2(n)分布。令随机变量分布。令随机变量,则,则Z服从第一服从第一自由度为自由度为m,第二自由度为第二自由度为n的的F分布,即分布,即ZF(m,n)。进而还有进而还有 结论结论若随机变量若随机变量Z服从服从F(m,n)分布,则分布,则服从服从F(n,m)分布。分布。由此可得由此可得:F(m,n)分布的水平分布的水平1 的上侧分位数的上侧分位数F1 (m,n),等于等于F(n,m)分布的水平分布的水平 的上侧分位数的上侧分位数F(n,m)的的倒数倒数,即,即。证证设设XF(n,m),则则X是是非负非负随机变量,且随机变量,且 于是于是,同时有,同时有 。3 F分布的上分位点设F(n1,n2),对于给定的a,0a1,满足条件的点的点F F (n1,n2)为为F F分布的上分布的上 分位点分位点.OFa(n1,n2)aF分布也是常用的统计分布,其分布也难于利用密度函数分布也是常用的统计分布,其分布也难于利用密度函数进行直接计算。因此,对于进行直接计算。因此,对于F分布也制出了统计用表(分布也制出了统计用表(附表附表4),供查阅。),供查阅。在附表在附表4中,仅对中,仅对充分小的充分小的(0.10)的一些特殊值列)的一些特殊值列出了出了F(m,n)分布的水平分布的水平 的的上侧分位数上侧分位数F(m,n)(若若XF(m,n),则则P(XF(m,n)=)的值;的值;此时由于此时由于1 的值较大(的值较大(0.90),因此),因此不可以不可以利用利用附表附表4直接查到直接查到F(m,n)分布的水平分布的水平1 的上侧分位数的上侧分位数F1 (m,n)的值,必须的值,必须先先查出查出F(n,m)的值,然后的值,然后再再利用利用关系式关系式 ,计算出,计算出F1 (m,n)的值。的值。另外,由于服从另外,由于服从F(m,n)分布的随机变量分布的随机变量X是是非负非负随机随机变量,其密度函数变量,其密度函数f(x;m,n)不是对称函数不是对称函数,因而,因而F分布也分布也不存在不存在双侧分位数。双侧分位数。但在统计推断中,也常常会使用但在统计推断中,也常常会使用两个分位数两个分位数F1 /2(m,n)和和F/2(m,n),使,使 P(XF/2(m,n)=。这时通常采用关系式这时通常采用关系式P(XF/2(m,n)=/2来确定分来确定分位数位数F/2(m,n)(直接查表)直接查表);采用关系式采用关系式 P(XF1 /2(m,n)=1 /2来确定分位来确定分位数数 F1 /2(m,n)。在确定分位数在确定分位数F1 /2(m,n)时,通常需要时,通常需要先先查表得到查表得到F/2(n,m)的值,的值,然后然后再利用关系式再利用关系式计算出计算出F1 /2(m,n)的值。的值。此时此时成立成立P(X0,q0)是是(贝塔)函数(贝塔)函数.定义定义4.8(P.131)一个随机变量一个随机变量X称为称为服从自由度为服从自由度为n的的t分布分布,如果其密度函数为,如果其密度函数为,记作记作Xt(n)。t分布是科塞特(分布是科塞特(W.S.Gosset)于于1908年在一篇署名为年在一篇署名为“学生学生”(Student)的论文中首先提出来的,因此,的论文中首先提出来的,因此,t分布也称分布也称为为“学生分布学生分布”。综合定义综合定义4.8和命题和命题4.4,得,得 结论结论设随机变量设随机变量X与与Y相互独立相互独立,XN(0,1),Y 2(n)。令随机变量令随机变量,则,则T服从自由度为服从自由度为n的的t分布,即分布,即Tt(n)。进而有:进而有:随机变量随机变量T2F(1,n)。这也说明了这也说明了t分布与分布与F分布的关系分布的关系:若:若r.v.Tt(n),则则r.v.T2F(1,n)。T分布的的密度函数的示意图 由于由于t分布的密度函数满足分布的密度函数满足t(x;n)=t(x;n),因而因而t分布的密度函数曲线的形状关于纵轴(分布的密度函数曲线的形状关于纵轴(y轴)对称轴)对称;同时,;同时,t分分布的密度函数的曲线为单峰曲线,在布的密度函数的曲线为单峰曲线,在x=0处达到最大值;以处达到最大值;以x轴为水平渐进线轴为水平渐进线.当自由度当自由度n很大时,很大时,t分布接近于标准正态分布,这是由分布接近于标准正态分布,这是由于于,且可以证明,且可以证明,即,即标准正态分布标准正态分布N(0,1)是是t分布的极限分布分布的极限分布。这也就是说,当这也就是说,当t分布的分布的自由度自由度n充分大充分大(如(如n50)时,时,t分布分布t(n)可以可以近似地近似地看作是看作是标准正态分布标准正态分布;然而对于比较;然而对于比较小的小的n值(如值(如nP(X x0),即即 t分布的尾部比标准正态分布的分布的尾部比标准正态分布的尾部具有更大的概率。尾部具有更大的概率。f(x)x x0 0 x0 N(0,1)t(n)t分布的上分位点 设T Tt(n),t(n),对于对于(0,1)(0,1)给定给定,称满足条件称满足条件:的点t tn n()为为t t分布的上分布的上 分位点分位点.ta(n)a注注:对于对于t分布,也编制了相应的统计用表(附表分布,也编制了相应的统计用表(附表5)。在附表)。在附表5中,仅对中,仅对充分小的充分小的(0.10)的一些特殊值列出了的一些特殊值列出了t分布的水平分布的水平 的的上侧上侧分位数分位数t(n)(若若Xt(n),则则P(Xt(n)=)的值;的值;此时由于此时由于1 的值较大(的值较大(0.90),在附表),在附表5中是中是不可不可以以直接查到直接查到t分布的水平分布的水平1 的上侧分位数的上侧分位数t1 (n)的值,的值,这时可以利用这时可以利用t分布具有分布具有对称的密度函数对称的密度函数的性质,得到的性质,得到t1 (n)=t(n)。另外,由于另外,由于t分布具有对称的密度函数,从而具有分布具有对称的密度函数,从而具有双侧分双侧分位数位数t/2(n),满足满足P(Xt/2(n)=,其中其中t/2(n)由关系式由关系式P(Xt/2(n)=/2来确定。且有来确定。且有P(X t/2(n)=P(t/2(n)X50)时,时,t分布分布t(n)可以近可以近似地看作是标准正态分布似地看作是标准正态分布 N(0,1),于是于是由标准正态分布的由标准正态分布的水平水平 的上侧分位数的上侧分位数u,可以近似地得到可以近似地得到t分布的水平分布的水平 的的上侧分位数上侧分位数t(n),即即t(n)u。根据根据t分布与分布与F分布的关系:若分布的关系:若r.v.Tt(n),则则r.v.T2F(1,n)。当手头上只有一张当手头上只有一张F分布表,而没有分布表,而没有t分分布表时,则可以利用布表时,则可以利用t分布与分布与F分布的关系来处理分布的关系来处理t分布的有分布的有关问题关问题。例例4.14设随机变量设随机变量Xt(10),=0.10,分别求水平分别求水平 和和1 的上侧分位数,以及水平的上侧分位数,以及水平 的(双侧)分位数。的(双侧)分位数。解解查表得查表得t0.10(10)=1.372,从而有从而有t0.90(10)=1.372;查表得查表得t0.05(10)=1.812,且有且有P(X50)时,成立时,成立和和(近似分布近似分布)。)。因此,定理因此,定理4.4常用于常用于大样本大样本的情况下,的情况下,非正态总体非正态总体参数参数的统计推断问题(的统计推断问题(如如非正态总体的数学期望非正态总体的数学期望 的区间估计和假的区间估计和假设检验问题)。设检验问题)。如果总体方差如果总体方差 2已知已知,而总体数学期望,而总体数学期望 未知,则利用未知,则利用枢轴量枢轴量()近似地近似地对总体中的未知参对总体中的未知参数数 进行统计推断(进行统计推断(5.3、5.5););如果总体方差如果总体方差 2和总体数学期望和总体数学期望 都都未知未知(但方差但方差 2 2 存在存在),则利用枢轴量),则利用枢轴量()近似地近似地对总对总体中的未知参数体中的未知参数 进行统计推断进行统计推断(5.5)。作业作业:P142:3,4:P142:3,4 51、天下之事常成于困约,而败于奢靡。、天下之事常成于困约,而败于奢靡。陆游陆游52、生命不等于是呼吸,生命是活动。、生命不等于是呼吸,生命是活动。卢梭卢梭53、伟大的事业,需要决心,能力,组织和责任感。、伟大的事业,需要决心,能力,组织和责任感。易卜生易卜生54、唯书籍不朽。、唯书籍不朽。乔特乔特55、为中华之崛起而读书。、为中华之崛起而读书。周恩来周恩来谢谢!
展开阅读全文