高级统计学1.多元正态分布.ppt

上传人:za****8 文档编号:15719852 上传时间:2020-09-01 格式:PPT 页数:66 大小:1.91MB
返回 下载 相关 举报
高级统计学1.多元正态分布.ppt_第1页
第1页 / 共66页
高级统计学1.多元正态分布.ppt_第2页
第2页 / 共66页
高级统计学1.多元正态分布.ppt_第3页
第3页 / 共66页
点击查看更多>>
资源描述
1,第一章 多元正态分布,目录 上页 下页 返回 结束,1.1 多元分布的基本概念,1.2 统计距离,1.3 多元正态分布,1.4 均值向量和协方差阵的估计,1.5 常用分布及抽样分布,2,第一章 多元正态分布,一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是: 许多随机向量确实遵从正态分布,或近似遵从正态分布; 对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。,目录 上页 下页 返回 结束,3,第一章 多元正态分布,多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元 分布、多元 分布、多元指数分布等。 本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。,目录 上页 下页 返回 结束,4,第一章 多元正态分布,多元分布的基本概念 统计距离 多元正态分布 均值向量和协方差阵的估计 常用分布及抽样分布,目录 上页 下页 返回 结束,5,1.1多元分布的基本概念,目录 上页 下页 返回 结束,1.1.1 随机向量,1.1.2 分布函数与密度函数,1.1.3 多元变量的独立性,1.1.4 随机向量的数字特征,6,1.1.1 随机向量,表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表1-1的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。,假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量,目录 上页 下页 返回 结束,7,记 它表示第个样品的观测值。竖看表1-1,第j列的元素 表示对第j个变量Xj的n次观测数值。,目录 上页 下页 返回 结束,1.1.1 随机向量,8,因此,样本资料矩阵可用矩阵语言表示为:,定义1.1 设 为 个随机变量,由它们组成的向量 称为随机向量。,目录 上页 下页 返回 结束,1.1.1 随机向量,若无特别说明,本书所称向量均指列向量,9,定义1.2 设 是一随机向量,它的多元分布函数是,式中, ,并记成 。,1.1.2 分布函数与密度函数,描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。,目录 上页 下页 返回 结束,10,1.1.2 分布函数与密度函数,目录 上页 下页 返回 结束,定义1.3:设 = ,若存在一个非负的函数 ,使得,对一切 成立,则称 (或 )有分布密度 并称 为连续型随机向量。,一个 维变量的函数 能作为 中某个随机向量的分布密度,当且仅当,11,1.1.3 多元变量的独立性,目录 上页 下页 返回 结束,注意:在上述定义中, 和 的维数一般是不同的。,(1)若F(x,y)为(X,Y)的联合分布函数,G(x)和H(y) 分别为X和Y的分布函数,则X与Y独立当且仅当,(2)若(X,Y)有密度f(x, y),用g(x)和h(y)分别表示X和Y的分布密度,则X和Y独立当且仅当,12,1.1.4 随机向量的数字特征,是一个 维向量,称为均值向量.,目录 上页 下页 返回 结束,当A、B为常数矩阵时,由定义可立即推出如下性质:,1、随机向量 的均值 设 有 个分量。若 存在, 定义随机向量 的均值为,13,1.1.4 随机向量的数字特征,目录 上页 下页 返回 结束,2、随机向量X的协方差阵,称它为p维随机向量X的协方差阵,简称为X的协方差阵。 称|cov(X, X)|为X的广义方差,它是协差阵的行列式之值。,14,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,3、随机向量X 和Y 的协差阵,设 分别为 维和 维随机向量,它们之间的协方差阵定义为一个 矩阵,其元素是 ,即,当A、B为常数矩阵时,由定义可推出协差阵有如下性质:,15,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,(3)设X为n维随机向量,期望和协方差存在,记 则,对于任何随机向量 来说,其协差阵都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。,16,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,若随机向量 的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为:,rij也称为分量Xi与Xj之间的(线性)相关系数。,4、随机向量X 的相关阵,17,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,18,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,1. 欧氏距离,2. 马氏距离,19,1.2 统计距离和马氏距离,1. 欧氏距离,在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。 大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离.如几何平面上的点P=(x1,x2)到原点O=(0,0)的欧氏距离,依勾股定理有,目录 上页 下页 返回 结束,20,1.2 统计距离和马氏距离,但就大部分统计问题而言,欧氏距离是不能令人满意的。,目录 上页 下页 返回 结束,这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。,欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。,21,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,例如,横轴x1代表重量(以kg为单位),纵轴x2 代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示,这时,显然AB比CD要长。,22,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,现在,如果x2用mm作单位, x1单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则,结果CD反而比AB长!这显然是不够合理的。,23,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。,因此,采用“统计距离” 这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。,24,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?,图1-2,25,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,由图1-2可看出,从绝对长度来看,A点距左面总体G1近些,即A点到1比A点到2要“近一些”(这里用的是欧氏距离,比较的是A点坐标与1到2值之差的绝对值),,但从概率观点来看,A点在1右侧约41处,A点在2的左侧约32处,若以标准差的观点来衡量,A点离2比A点离1要“近一些”。,显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵的逆矩阵-1,这就是马氏距离的概念,以后将会看到,这一距离在多元分析中起着十分重要的作用。,26,1.2 统计距离和马氏距离,2. 马氏距离,设X、Y从均值向量为 ,协方差阵为的总体G中抽取的两个样品。,目录 上页 下页 返回 结束,定义X、Y两点之间的马氏距离为:,定义X与总体G的马氏距离为:,27,1.2 统计距离和马氏距离,设E表示一个点集,d表示距离,它EE 是到0, ) 的函数,可以证明,马氏距离符合如下距离的四条基本公理 :,(2) 当且仅当 ;,(3),(4),目录 上页 下页 返回 结束,28,1.3 多元正态分布,多元正态分布是一元正态分布的推广。 迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。 本节将介绍多元正态分布的定义,并简要给出它的基本性质。,目录 上页 下页 返回 结束,29,1.3 多元正态分布,目录 上页 下页 返回 结束,1.3.1,多元正态分布的定义,1.3.2,多元正态分布的性质,1.3.3,条件分布和独立性,30,1.3.1 多元正态分布的定义,|为协差阵的行列式。,目录 上页 下页 返回 结束,定义1.5:若p元随机向量 的概率密度函数为:,则称 遵从p元正态分布,也称X为p元正态变量。记为,31,定理1.1将正态分布的参数和赋于了明确的统计意义。,多元正态分布不止定义1.5一种形式,更广泛地可采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献3。,目录 上页 下页 返回 结束,1.3.1 多元正态分布的定义,定理1.1:设 ,则,32,1.3.2 多元正态分布的性质,目录 上页 下页 返回 结束,若正态随机向量 的协方差阵是对角阵, 则X的各分量是相互独立的随机变量。,容易验证, ,但显然 不是正态分布。,2. 多元正态分布随机向量X的任何一个分量子集的分布(称为X的边缘分布)仍然遵从正态分布。而反之则不一定成立,即若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。,例如,设 有分布密度,33, 1.3.2 多元正态分布的性质,目录 上页 下页 返回 结束,多元正态向量X=(X1,X2,Xp)的任意线性变换仍然遵从多元正态分布。,若设XNp(,) ,而m维随机向量Zm1=AX+b, 其中A=(aij)是mp 阶的常数矩阵,b是m维的常向量。,那么,m维随机向量Z也是正态的,且 ZNm(A+b, AA ) 。 即Z遵从m元正态分布。,34,第一次结束,35,4. 若XNp(, ) ,则 d2若为定值,随着X的变化, 其轨迹为一椭球面,是X的密度函数的等值面。若X给定,则d2为X到的马氏距离。, 1.3.2 多元正态分布的性质,36, 1.3.3 条件分布和独立性,目录 上页 下页 返回 结束,其中,X(1), (1)为q1,11为qq.,设 , p2,将X、和剖分如下:,我们希望求给定X(2)时X(1)的条件分布,即(X(1) |X (2)的分布。下一个定理指出:正态分布的条件分布仍为正态分布。,37,目录 上页 下页 返回 结束, 1.3.3 条件分布和独立性,定理1.2:设 ,0,则,其中,38,目录 上页 下页 返回 结束, 1.3.3 条件分布和独立性,定理1.3:设 ,0,将X,剖分如下:,则 有如下的条件均值和条件协差阵的递推公式:,其中, ,,39,定理1.2和定理1.3在20世纪70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献3。在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下:,X1:身高,X2:胸围,X3:腰围,X4:上体长,X5:臀围,已知它们遵从N5(, ),其中,服装标准例子,40,服装标准例子,41,服装标准例子,42,再利用(1.30)式得,服装标准例子,43,这说明,若已知一个人的上体的长和臀围,则身高、胸围和腰围的条件方差比原来的方差大大缩小。,此时我们可看到,服装标准例子,44,在定理1.2中,我们给出了对X、和作形如(1.25)式剖分时条件协差阵 的表达式及其与非条件协差阵的关系,令 表示 的元素,则可以定义偏相关系数的概念:,定义1.6:当 给定时, 与 的偏相关系数为:,目录 上页 下页 返回 结束, 1.3.3 条件分布和独立性,45, 1.3.3 条件分布和独立性,在上面制定服装标准的例子中,给定X4和X5时,偏相关系数为:,46,目录 上页 下页 返回 结束, 1.3.3 条件分布和独立性,其中,,证明参见文献3.,定理1.4:设 ,0,将X,剖分如下:,47,1.4 均值向量和协方差阵的估计,上节已经给出了多元正态分布的定义和有关的性质,在实际问题中,通常可以假定被研究的对象是多元正态分布,但分布中的参数和是未知的,一般的做法是通过样本来估计。,目录 上页 下页 返回 结束,48,1.4 均值向量和协方差阵的估计,1. 均值向量的估计,在一般情况下,如果样本资料阵为:,目录 上页 下页 返回 结束,49,1.4 均值向量和协方差阵的估计,即均值向量的估计量,就是样本均值向量.这可由极大似然法推导出来。推导过程参见文献3。,目录 上页 下页 返回 结束,设样品 相互独立,同遵从于p元正态分布 ,而且 ,0,则总体参数均值的估计量是,50,1.4 均值向量和协方差阵的估计,2. 协方差阵的估计,总体参数协差阵的极大似然估计是,目录 上页 下页 返回 结束,51,1.4 均值向量和协方差阵的估计,目录 上页 下页 返回 结束,但 不是的无偏估计,为了得到无偏估计我们常用样本协差阵 作为总体协差阵的估计。,52,1.5常用分布及抽样分布,多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量,如前面介绍的样本均值向量 、样本离差阵 等都是统计量。统计量的分布称为抽样分布.,在数理统计中常用的抽样分布有 分布、 分布和 分布.在多元统计中,与之对应的分布分别为Wishart分布、 分布和Wilks分布.,目录 上页 下页 返回 结束,53,1.5常用分布及抽样分布,1.5.2 分布与 分布,1.5.1 分布与Wishart分布,1.5.3 中心分布与Wilks分布,目录 上页 下页 返回 结束,54,1.5.1 分布与Wishart分布,在数理统计中,若 ( ),且相互独立,则 所服从的分布为自由度为 的 分布(chi squared distribution),记为 .,目录 上页 下页 返回 结束,55,1.5.1 分布与Wishart分布,分布的概率密度:,56,1.5.1 分布与Wishart分布,分布有几个重要的性质:,57,4. 设 ( ),且相互独立, 为 个 阶对称阵,且 (阶单位阵),记 , 则 为相互独立的 分布的充要条件为 .此时 , .,这个性质称为Cochran定理,在方差分析和回归分析中起着重要作用.,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,58,所服从的分布称为自由度为 的 维非中心Wishart分布,记为 ,其中,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,称 为非中心参数,当 时称为中心Wishart分布,记为,59,由Wishart分布的定义知,当 时, 退化为 ,此时中心Wishart分布就退化为 ,由此可以看出, Wishart分布实际上是 分布在多维正态情形下的推广.,下面不加证明的给出Wishart分布的5条重要性质:,相互独立.,和,(1),(2),目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,60,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2.若,且相互独立,则,61,特别的,设 和 分别为 和 的第 个对角元,则:,5. 若 , 为任一 元非零常向量,比值,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,62,1.5.2 分布与 分布,在数理统计中,若XN(0,1), Y 2(n),且X与Y相互独立,则称 服从自由度为n的t分布,又称为学生分布(student distribution),记为T t (n).,目录 上页 下页 返回 结束,如果将T平方,即 ,则T2F(1,n),即t(n)分布的平方服从第一自由度为1第二自由度为F的中心分布.,63,中心 分布可化为中心 分布,其关系为:,显然,当 时,有 .,目录 上页 下页 返回 结束,1.5.2 分布与 分布,64,1.5.3 中心分布与Wilks分布,在数理统计中,若X 2(m), Y 2(n), 且与相互独立,则称 所服从的分布为第一自由度为m,第二自由度为n的中心F分布.记为FF(m,n). F分布本质上是从正态总体N(, 2)随机抽取的两个样本方差的比.,目录 上页 下页 返回 结束,65,所服从的分布称为维数为 ,第一自由度为 第二自由度为 的Wilks 分布,记为,(1.34),定义1.9 设 , , , ,且 与 相互独立,则称随机变量,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,66,目录 上页 下页 返回 结束,The end! Thanks!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!