资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,多元正态分布主要内容包括:,2.,1,多元,(概率)分布基本概念,2.,2,多元正态,分布定义及其性质,2.,3,多元正态分布的参数估计,1,众所周知,,一元统计,分析是,多元统计,分析的,基础,,尤其是,一元正态分布,自然是,多元正态分布,的,基础,,它在统计学的理论和实际应用方面都有着重要的地位。,在一元统计分布中,经常会用到随机变量,X,的概念及其概率分布问题。,2,(,1,)随机变量的定义:,对于每一个随机结果都对应着某个变量的一个数值,这种对应就是一个函数,用随机变量来表示。,R.V.,特点:,a.,取值的随机性,即事先不能确定其取哪一个值;,b.,取值的统计规律性,即完全可以确定,x,取某个值或在某个区间内取值的概率。,3,有时候,,仅仅用一个随机变量来描述随机现象就不够了,需要用多个随机变量来共同描述的随机现象和问题,而且这些随机变量间又有联系,所以必须要将它们看做一个整体来研究(即不能一个一个地单独研究多个一元随机变量),这就出现了多元随机向量的问题和概念,因而,多元随机向量,可看作是,一元随机变量,的,推广,而,一个随机变量,可看作是,特殊,的,一元随机向量,4,2.,1,多元(概率)分布基本概念,1.,二元随机向量的例子,由于我们的研究对象涉及的是多个变量的总体,所以要用若干个随机变量合在一起看作一个整体,共同用这个整体来描述随机现象。,比如,,要考察一射击手向一平面靶子射击的水平,那么,子弹在靶子上的着点位置是随机的,这个平面上的随机点需要用两个随机变量(即横向的,X,与纵向的,Y),共同来描述,于是(,X,Y),就构成了,二元(维)的随机向量,。,5,射击后的子弹着落点的位置是随机的,这个点的位置要用两个随机变量,X,与,Y,共同描述才能确定,即用(,X,,,Y,)数组的取值来确定这个点的位置。,这就是二元随机向量。,A,X,Y,6,在研究社会、经济现象和许多实际问题时,经常遇到多指标的问题。,例如,,评价学生在校表现时,要考察他的政治思想(德)、学习情况(智)、身体状况(体)等各个方面的情况,仅学习情况就又涉及他在各个年度的每门课程成绩,这里面就有多项指标存在。,P,元(维)随机向量,7,再例如,,研究公司的经营情况,就要考察资金周转能力、偿债能力、获利能力、竞争力等多个指标。显然不能将这些指标分割开来进行单独研究,那样就不能从整体上综合把握事物的实质。,一般地,假设我们研究的问题,涉及,p,个指标,对,n,个个体进行观察,就会得到,n,p,个数据,,我们的目的就是对观测对象进行分组、分类、或分析考察这,p,个变量之间的相互关联程度,或者找出内在规律性等等。,8,P,元(维)随机向量的定义,设 为,p,个随机变量,将它们合在一起组成的一个整体的向量,称作,p,元随机向量。,注意:,X,是列向量,所以横着写时需要转置一下。,9,我们要研究的对象是多个变量的总体,即研究总体的概率分布,特别是关注其数字特征是什么?,采用的研究方法是,统计推断方法。,通过从总体中随机抽取一个样本的手段,然后对样本的概率分布(即抽样分布)进行研究,来推断(,inference,)未知分布的总体的概率分布。,10,2,.,联合分布函数与密度函数,与一元随机变量一样,也可将随机向量分为,离散性和连续型,两类,但是在表达其概率分布时,就非常不方便了(因为当它是离散型时,需要用多维表格表示概率分布,但超过两维时就不容易表示了),这时我们就必须借助于,分布函数,来刻画它的概率分布。这就充分体现出分布函数在表达联合概率分布时的优势。,对于,多元的随机向量,,就对应地需要用,联合分布函数,来刻画其概率分布。,11,二元随机向量的联合分布函数,12,X,Y,x,y,Xx,Yy,二元联合分布函数的几何意义演示图,:,(x,y),F,(,x,y,),=,P(Xx,Yy),F(x,y),值为随机点落入黄色矩形区域内的概率,13,联合分布函数的定义:,设 是一随机向量,它的,联合分布函数,定义为,对于,p,元的随机向量来说,,就对应地需要用,联合分布函数,来刻画其概率分布。,14,联合密度函数的定义,对于,多元连续型随机向量,来说,其概率分布也可以用密度函数来描述。,若存在一个非负的,p,元函数,f(,),,满足,对任意的,都成立,则称,p,元函数,f(,),为,p,元随机向量的,概率密度函数,并称随机向量为,连续型的,。,15,联合概率密度函数的基本性质,两条性质是:,16,随机向量的数字特征主要有,均值向量,和,协方差矩阵,。,1.均值向量,就是每一个分量的均值(或叫期望)所组成的常数向量。用数学符号表示如下:,设,p,元随机向量为 ,且每个分量的期望为 ,则将新向量:,定义为该随机向量的期望,也叫,均值向量,而一元随机变量的第一个数字特征名称却称为,均值或期,望请注意一元与多元在对应概念上的称呼的区别,3,.p,元随机向量的数字特征,17,P,元随机向量的协方差阵,注意:一元随机变量,与,多元随机向量,在第二个数字特征方面的表示有很大不同,其原因是在多元情形中还要体现出分量之间的相关关系。,一元的,称为,方差,,而,多元的,改称为,协方差阵。,以二元的为例,就会出现两个分量之间的,协方差,的概念。,18,二元随机向量协方差阵的定义,假设二元随机向量为,Z=(X,Y),定义其协差阵为22的一个方阵,其4个元素是两两分量之间的协方差数,用符号,表示,即,称此2阶矩阵为,Z=(x,Y),协方差矩阵。其中对角线上的两个数就是分量各自的方差。,以此可以类推到,P,元随机向量的协差阵的定义。,19,p,元随机向量协方差阵的定义,一个,P,元随机向量 自己,的方差或协差阵的定义,可用,D(X),或,表示。,两个,p,元随机向量,与 的,协差阵的定义,。,20,一个简单对比,一元分布情形,多元分布情形,概率,分布,名称,随机变量,p,元,随机向量,分布,名称,概率分布,联合概率分布,数字,特征,期望,均值是数,均值向量是向量,方差,方差是一个非负数,2,协方差矩阵,21,多元正态分布,在多元统计分析中的重要地位,就如同一元统计分析中一元正态分布所占重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上。,原因是,:,(1),许多实际问题研究中的随机向量确实遵从正态分布,或者近似遵从正态分布;,(2),对于多元正态分布,已经有一套统计推断方法,并且得到了许多完整的结果。,多元正态分布,是最常用的一种多元概率分布,下一节就是多元正态分布的定义。,22,2.,2,多元正态分布定义及基本性质,在多元分布中,最常见也是最重要的分布就是正 态分布。,定义,:若,p,维随机向量,的联合概率密度为,其中,,,x,和,都是,p,维向量,,是,p,阶正定阵,,则称,随机向量 服从,p,元正态分布,,,或称,p,维正态随机向量,,简记为,XNp(,),23,具体而言,其中的 的具体形式为,而符号 表示该随机向量的协方差矩阵的行列式,它是个,非负数值。由此说明,是非负定的。,24,二元正态分布,25,26,密度函数,27,多元正态分布的性质,显然,当,p=1,时,就是一元正态分布的密度函数;当,p=2,时,即为二元正态分布。,可以证明:,(1),恰好是,X,的均值向量;,(2),恰好是,X,的协方差矩阵。,28,P,元正态分布的性质:,(1)若,则任一分量的边缘分布也一定是正态分布。,并且,当协差阵,是对角形矩阵时,,则分量 是相互独立的。,(2)正态随机向量的线性组合仍然服从正态,分布,29,2.,3,多元正态分布的参数估计,(均值向量和协方差阵的估计),首先应明确,数理统计是本门课程的理论基础,,其基本思想是,:以样本提供的信息为依据,以统计量为工具,对总体分布中的未知参数或者未知分布进行推断。,简言之,一句话:,“用样本来推断总体”。,正因为如此,数理统计也称为“统计推断”。,30,什么是统计推断?,统计推断,是根据已经收集到的样本数据来推断总体的分布或者总体中的均值、方差等统计参数(它们往往是数字特征)。,之所以不直接从总体出发,,而根据样本数据推断总体的概率分布的原因是:,一是总体数据无法全部收集到;如检验电子器件的寿命,这类检验属于破坏性检验,是不可行的。,二是因为既使总体数据能够收集到,但需要耗费大量的人力、物力和财力。,31,因此大家应牢固树立一个观念:,统计推断的结论是有误差的,通常体现为在一定置信度下结论才成立。同时,,有些问题的结论也没有必要要求是100%的精确。,所以,统计推断方法既能节省成本、又能满足问题的需要,因而在实际中有着广泛的应用。,32,统计推断内容的两大组成部分,一大部分内容是“,参数估计,”。,另一大部分内容是“,假设检验,”。,这两种思维方式有很大的差异,33,统计推断之一:参数估计,参数估计的基本思想,:直接利用样本提供的信息对总体分布中的未知参数进行估计,这就叫做参数估计。,其思维方式是,正向的、直接的、即直接地想方设法去寻找总体中的未知参数的估计值。,34,假设检验的基本思想:,由于不知道总体的概率分布或者分布中的未知参数是什么,于是就首先提出一个类似于猜想的所谓的统计假设,然后再利用样本数据来检验这个假设是否可接受,或者利用样本数据检验一下是否支持这个假设。,如果样本数据不支持这个假设(即发生了意料之外的现象),则认为这个假设不可接受,否则,就认为没有充分的理由拒绝原来的假设。,这就叫做假设检验。,统计推断之二:假设检验,35,很明显,,假设检验的思维方式是,逆向的、间接的,即不是直接地想方设法去寻找总体中的未知参数的估计值,而是先猜测它是某个值,然后,再去检验这个猜测是否可接受。,在,SPSS,的参数检验中,最关键的要看伴随(或相伴概率)概率与显著性水平,a,进行比较,若概率,Sig.a,,就接受原假设。,36,下面首先学习的是“,多元正态总体的参数估计”问题。,在给出多元正态分布定义和性质的基础上,在实际问题中,通常可以假定被研究对象遵从多元正态分布(即是多元正态总体),,遗憾的是,,总体分布中的参数向量,和,往往是未知的,这就需要用样本提供的信息来估计它们。,37,参数估计方法有很多,比如,极大似然估计法、最小二乘法等等。,这里采用最大似然估计法,得到,的估计量是,即,总体均值向量的最大似然估计量是样本均值向量。,注意:这个估计量仍是一个随机向量。所以后面要讲它的分布问题。,1 正态总体均值向量 的估计量,38,2 总体协方差阵 的估计量,同样地,总体协差阵,的最大似然估计量是样本协差阵,用符号表示为:,当然,这个估计矩阵仍然是随机矩阵,。,39,
展开阅读全文