资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第一章多元正态分布,第一章多元正态分布第一章多元正态分布第一章 多元正态分布 目录 上页 下页 返回 结束 1.1 多元分布的基本概念1.2 统计距离和马氏距离1.3 多元正态分布1.4 均值向量和协方差阵的估计1.5 常用分布及抽样分布2020/11/122,第一章多元正态分布第一章多元正态分布第一章多元正态分布第一章,第一章 多元正态分布,目录 上页 下页 返回 结束,1.1,多元分布的基本概念,1.2,统计距离和马氏距离,1.3,多元正态分布,1,.4,均值向量和协方差阵的估计,1,.5,常用分布及抽样分布,2024/11/30,2,第一章 多元正态分布 目录 上页 下页 返回,一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:,许多随机向量确实遵从正态分布,或近似遵从正态分布;,对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。,目录 上页 下页 返回 结束,2024/11/30,3,一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元 分布、多元 分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。,目录 上页 下页 返回 结束,2024/11/30,4,多元正态分布是最常用的一种多元概率分布。除此之,1.1,多元分布的基本概念,目录 上页 下页 返回 结束,1.1.1,随机向量,1.1.2,分布函数与密度函数,1.1.3,多元变量的独立性,1.1.4,随机向量的数字特征,2024/11/30,5,1.1多元分布的基本概念 目录 上页 下页 返,1.1.1,随机向量,表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下,表,1-1,的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。,目录 上页 下页 返回 结束,假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量,2024/11/30,6,1.1.1 随机向量 表示对同一个体观测的 个变量,横看表,1-1,,记 ,,它表示第 个样品的观测值。,竖看表,1-1,第 列的元素,表示对 第个变量 的,n,次观测数值。,下面为,表,1-1,n,2,1,变量,序号,目录 上页 下页 返回 结束,2024/11/30,7,横看表1-1,记,因此,样本资料矩阵可用矩阵语言表示为,:,目录 上页 下页 返回 结束,注:,若无特别说明,本书所称向量均指列向量,定义,1.1,设 为,p,个随机变量,由它们组,成的向量 称为随机向量。,2024/11/30,8,因此,样本资料矩阵可用矩阵语言表示为:目录 上页,1.1.2,分布函数与密度函数,描述一维随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数,。,目录 上页 下页 返回 结束,定义,1.2,设 是一随机向量,它的多元分布函数是,式中:,2024/11/30,9,1.1.2 分布函数与密度函数 描述一维,目录 上页 下页 返回 结束,定义,1.3,:,设,=,若存在一个非负函数,使得,对一切 成立,则称,(或,)有分布密度,并称,为连续型随机向量。,一个,p,维变量的函数,f(),能作为,中某个随机向量的分布密度,当且仅当,2024/11/30,10,目录 上页 下页 返回 结束 定义1.3:设,1.1.3,多元变量的独立性,目录 上页 下页 返回 结束,定义,1.4,:,两个随机向量,和,称为是相互独立的,若,注意,:,在上述定义中,和 的维数一般是不同的。,若 有密度,,用 分别表示,和 的分布密度,则,和,独立当且仅当,(1.5),2024/11/30,11,1.1.3 多元变量的独立性 目录 上页 下页,1.1.4,随机向量的数字特征,是一个,p,维向量,称为均值向量,.,目录 上页 下页 返回 结束,当 为常数矩阵时,由定义可立即推出如下性质,:,),(,P,P,m,),(,),(,1.6,),.,),(,),(,(,2,1,2,1,X,=,=,=,X,E,X,E,X,E,E,m,m,1,、随机向量,X,的均值,设 有,P,个分量,.,若,存在,我们定义随机向量,X,的均值为,:,2024/11/30,12,1.1.4 随机向量的数字特征是一个p维向量,称为均值,目录 上页 下页 返回 结束,2,、随机向量,自协方差阵,则称,为,X,的,自协方差阵,2024/11/30,13,目录 上页 下页 返回 结束 2、随机向量,目录 上页 下页 返回 结束,3,、随机向量,X,和,Y,的协差阵,当,A,、,B,为常数矩阵时,由定义可推出协差阵有如下性质:,设,分别为,n,维和,p,维随机向量,它们之间的协方差阵定义,为一个,n,p,矩阵,其元素为,称,X,和,Y,是,不相关,的。,2024/11/30,14,目录 上页 下页 返回 结束 3、随机向量X,目录 上页 下页 返回 结束,(,3,)设,X,为 维随机向量,期望和协方差存在记,则,对于任何随机向量,来说,其协差阵都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。,2024/11/30,15,目录 上页 下页 返回 结束(3)设X为,目录 上页 下页 返回 结束,4,、随机向量,X,的相关阵,若随机向量 的协差阵存在,且每个分量的方差大于零,则,X,的相关阵定义为,:,也称为分量,与,之间的(线性)相关系数。,2024/11/30,16,目录 上页 下页 返回 结束 4、随机,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标,“标准化”,,即做如下变换,目录 上页 下页 返回 结束,2024/11/30,17,在数据处理时,为了克服由于指标的量纲不同对统计分析结,1.2,统计距离和马氏距离,目录 上页 下页 返回 结束,欧氏距离,马氏距离,2024/11/30,18,1.2 统计距离和马氏距离 目录 上页 下页,欧氏距离,在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离,.,如几何平面上的点,p=(x1,x2),到原点,O=(0,0),的欧氏距离,依勾股定理有,目录 上页 下页 返回 结束,2024/11/30,19,欧氏距离 在多指标统计分析中,距离的概念十分重要,样品间的,但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。,欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。,目录 上页 下页 返回 结束,2024/11/30,20,但就大部分统计问题而言,欧氏距离是不能令人满意的。这,目录 上页 下页 返回 结束,例如,,横轴 代表重量(以,kg,为单位),纵轴,代表长度(以,cm,为单位)。有四个点,A,、,B,、,C,、,D,见图,1.1,,它们的坐标如,图,1.1,所示,图,1.1,2024/11/30,21,目录 上页 下页 返回 结束 例如,横,目录 上页 下页 返回 结束,这时,显然,AB,比,CD,要长。,结果,CD,反而比,AB,长!这显然是不够合理的。,现在,如果,用,mm,作单位,,单位保持不变,此时,A,坐标为(,0,,,50,),,C,坐标为(,0,,,100,),则,2024/11/30,22,目录 上页 下页 返回 结束 这时显然AB比,目录 上页 下页 返回 结束,因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(,Mahalanobis,)于,1936,年引入的距离,称为,“马氏距离”,。,2024/11/30,23,目录 上页 下页 返回 结束 因此,有,目录 上页 下页 返回 结束,下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个一维正态总体 。若有一个样品,其值在,A,处,,A,点距离哪个总体近些呢?由,图,1-2,图,1-2,2024/11/30,24,目录 上页 下页 返回 结束 下面先用一,目录 上页 下页 返回 结束,由图,1-2,可看出,从绝对长度来看,A,点距左面总体,G,1,近些,即,A,点到 比,A,点到,要“近一些”(这里用的是欧氏距离,比较的是,A,点坐标与 到,值之差的绝对值),但从概率观点来看,,A,点在,右侧约,4,处,,A,点在,的左侧约,3,处,若以标准差的观点来衡量,,A,点离,比,A,点离,要“近一些”。显然,,后者是从概率角度上来考虑的,因而更为合理些,,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数。,2024/11/30,25,目录 上页 下页 返回 结束 由图1,马氏距离,设,X,、,Y,从均值向量为,,协方差阵为的总体,G,中抽取的两个样品,定义,X,、,Y,两点之间的马氏距离为,(1.21),),(,),(,),(,1,/,2,Y,X,Y),X,Y,X,-,-,=,-,d,m,X,G,(1.22),),(,),(,),(,1,/,2,),X,),(X,X,-,-,=,-,G,d,m,的马氏距离为,与总体,定义,目录 上页 下页 返回 结束,2024/11/30,26,马氏距离 设X、Y从均值向量为,协方差阵为的总体G中,设 表示一个点集,表示距离,它 是到 的函数,可以证明,马氏距离符合如下距离的四条基本公理,:,;,(,1,),,,(,2,)当且仅当 ;,(,3,),(,4,),目录 上页 下页 返回 结束,2024/11/30,27,设 表示一个点集,表示距离,它,1.3,多元正态分布,多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。,本节将介绍多元正态分布的定义,并简要给出它的基本性质。,目录 上页 下页 返回 结束,2024/11/30,28,1.3 多元正态分布 多元正态分布是一元正态分布的,1.3,多元正态分布,目录 上页 下页 返回 结束,1.3.1,多元正态分布的定义,1.3.2,多元正态分布的性质,1.3.3,条件分布和独立性,2024/11/30,29,1.3 多元正态分布 目录 上页 下页 返回,1.3.1,多元正态分布的定义,|,为协差阵的行列式。,目录 上页 下页 返回 结束,定义,1.5,若,p,元随机向量,的概,率密度函数为:,则称 遵从,元正态分布,也称,X,为,P,元正态变量。记为,2024/11/30,30,1.3.1 多元正态分布的定义|为协差阵的行列式。,定理,1.1,将正态分布的参数,和赋于了明确的统计意义。有关这个定理的证明可参见文献,3,。,多元正态分布不止定义,1.5,一种形式,更广泛地可采用特
展开阅读全文