多元统计分析期末考试考点整理

上传人:缘*** 文档编号:29487059 上传时间:2021-10-07 格式:DOCX 页数:13 大小:133.34KB
返回 下载 相关 举报
多元统计分析期末考试考点整理_第1页
第1页 / 共13页
多元统计分析期末考试考点整理_第2页
第2页 / 共13页
多元统计分析期末考试考点整理_第3页
第3页 / 共13页
点击查看更多>>
资源描述
多元统计分析题型一定义、名词解释题型二 计算(协方差阵、模糊矩阵)题型三解答题一、定义 1随机向量及其分布一、随机向量的联合分布设司,4为是定义在样本空间Q上的9个随机变量,则称 (国/心,是七维随机向量(或为维随机变量).中元函数产(田一马,,.i) =尸工G g .号,,为 称为中维随机向量国.才,苞y的联合分布函数.如果存在非负可积函数/&.4.),使得产(4巧,7J Z,Jj小心心dF 则称是夕维连续型随机向量,称八为 (国&*力了的联合分布密度. 2 的机向量的数字特征一、随机向量的数学期望(均值)定义1设了=(为工.y,若与(工二)=%,z,中存在, 则称EF = 01;,左1/=(氏中r,/J = N为片TJ的数学期望(向量).设片=(卷),称1为随机矩阵,称ZT = (;)“为随机矩阵工的数学期望(矩阵).二、边缘分布称2维随机向量,为),的分量构成的子向量的概率分 布为.为)的边缘分布.设夕维随机向量.为)的分布函数为产(22,.),则 关于用的边缘分布函数为(管)=PXf ) B,性质 2 LAX) = ALX)A五、协方差矩阵r的代数性质记 s = zzr,1 . Z为非负定矩阵,即对Da e AJ有aEa / 0 .记号:若E为非负定矩阵,则记作EN。,若工为正定矩阵,则记作Z0.二、数学期望的性质设X,y为随机矩阵,,八夕为常数矩阵,则性质 1 EAX) = AEX.性质 2 E(.4XB) = A EX B,性质 3 EJ) = EXEY.三、协方差矩阵定义2设%=(国昌,为丫,=(4,),若可(/),/=1, 2. P, 7 = 1, 2.,/存在,则称工,)=EX-EX)Y-Eiy=而您/)】内为随机向量工与尸的协方差矩阵.当。1)=0时,称随机向量1与厂不相关.称CoyX.X) = DX为随机向量X的协方差矩阵.显然,协方差矩阵是一个对称矩阵.定义3 称火=4%为随机向量1的相关阵 由相关系数的概念,显然有勿=1, |共1, /.八L 2,,p.(1)最矩距离法(Nearestneighbor)考虑月个样本构成的距离矩阵,定义G与$之间的距离为两类最近样品的距离,即(3-3-29)= min 4,现在设G,与G合并为一个新类记为5,则任意一类G.与G的距离为y mm d”=min( min d* min ) = min(Dv,D).(3-3-30)2 .若E为正定矩阵,则有下述等价结论.Z0o3非奇异方阵乙使 = .Z0 o 3正交矩阵I,使E= MZg(44 其中,0./= L2,,.为Z的全部特征根.(3) E 。o工的任一主子式均大于零.(4) 0 o Va w 火尸,有 aa 0 ,且 aa = 0 o a = 0.(5)S0 7存在且S-l0. 3多元总体 一、多元总体设观测指标为则才;工./7构成一个维随机 向量1=(;4 C,1的一切可能取值的全体就构成了 元总 体,仍记作维随机向量1的概率分布即为所对应总体的概率分布,X 的数字特征也即为所对应总体的数字特征.二、样本观测阵设对元总体才二5,为)进行了次观测,记为第/次的观测结果($L 2,每次的观测结果称为一个样品.如果满足:% , 4),花)相互独立;(2)每个一%均与总体I具有相同的概率分布.称小为来总体的一个容鼠为的简单随机样本,仍 简称为样本.称样本观测值的个体构成的矩阵为样本观测阵(资料阵).三、样本数字特征%112Xp叫用2 % . 二% % 。吊 吊 吃)25W 4 1 .样本均值(向量)记 弓=上一 称=(.不元.七)为样本均值向最. “12,样本离差阵记= X(%-吊)( -可),称s= (%)”为样本离差阵.3 .样本协差阵毛尔“=_Ls=(-L7 s.“:为样本协差阵.4 .样本相关阵称天=(弓)上夕为样本和I关阵.1-3.1多元正态分布定义1.5:若夕元随机向量X=(不&,| 的概率密度函数为: /(七,力尸) 二万; exp - 3(x f)2一(x -“(2万),iXf|/0)(1.24) 则称x=(x,乜,,为了遵从。元正态分布,也称虺P元正 态变量。记为X N&A)|Z|为协差阵Z的行列式。二、一般的正态分布设随机向量、=(与,天,,巧,),若其的密度函数为/(不+,,x)=(如2国-仁 exp-g(x-MT (%-/)-oo经计算可得;X-出=2 2 .(43107-1462108 9464、L 二(231384司-14.62103.172-37.3760、8 9464-37 3760 35.5936 ;构造检验统计量1F =M/-晶)节(”= 6x70,0741 = 420,445由题目已知/1(3,3) = 29.5,由是琉广学/。3) = 147.5所以在显著性水平s= 0 01下,拒绝原设与 即认为农村和城市的2周岁男婴上述三个 指标的均值有显著性差异(a = 0.01, oiC,2) = 99.2, Oi 03) =29 5,况00,4) =16.7)答:4、设 =过,凡名劣尸砥(。,办 协方差阵= pP(1)试从E出发求X的第一总体士成分,(2)试1司当取多大时才能A14由P-P-P主成分的贡献率达95%以上. =0得特征根为4=1;-pa -i得项对应的单位特征向量为仁1故得第一主成分八%亭#舞+兴(2)第一个主成分的贡献率为的上 95% 4 H+44得p3U.95;4 二1 再 0933题型三解答题1、简述多元统计分析中协差阵检验的步骤答:第一,提出待检验的假设 和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中, 以便对待判假设做出决策(拒绝或接受)。2、简述一下聚类分析的思想答:聚类分析的基本思想, 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕 3、多元统计分析的内容和方法答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量, 使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别,对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研 究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计 方法。4、系统聚类法基本原理和步骤答:1)先计算n个样本两两间的距离2)构造n个类,每个类只包含一个样本3)合并距离最近的两类为一新类4)计算新类与当前各类的距离5)类的个数是否等于 1,如果不等于回到 3在做6)画出聚类图7)决定分类个数和类5、聚类分析的类型有:答:(1)对样本分类,称为 Q型聚类分析(2)对变量分类,称为 R型聚类分析# Q 型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。#R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性 的变量参与其他分析,实现减少变量个数,达到变量降维的目的。6、简述欧氏距离与马氏距离的区别和联系。4简述欧氏距离与马氏距离的区别和版系.答I设p维空间RP中的两点X=(XpX2XPy和Y= YpY2- Yp .则欧氏距离为 欧氏距离的局限有在多元数据分忻中,其度量不合理.会受到年问题中戮冈的哥响口设2,是来自均值向量为Id,协方差为上的总体G中的p维样本.则马氐K巨离为 1 1D国了:X 丫上 XY 1,当工 =【即单位阵时,D (兄力=X Y X丫=匕1(及Y = 3海切辑1欧氏距离口因此,在一定程度上,欧氏E巨离是马氏距离的特殊情况,马氏距离是欧氏距离的推广.7、试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。8对样品和变量进行聚类分析时所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为()明氏距离;&因或尤萨匕-1q取不同值,分为声(1)绝对距离7)%(D = X 1彦诋-石加|(2)欧氏距离 m%(2)=(|以一*/产(3)切比雪夫距离(:守=8)/ Ce) = 代乐一X排1户X.王避(-)马氏距离八 9 L片& ,,(二)兰氏距离= CKg XJ)X1(X1 -Xp对变量的相似性,我们更多地要了解堂量的变化趋势或变化方向,因此用怕关性迸行衡量.将变量看作p维空间的向量,一般用(一)夫角余以 温F F(二)相关系数7 _ ,9、在进行系统聚类时,选择距离公式应遵循哪些原则?答:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题, 我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析, 以确定最合适的距离测度方法。10、欧式距离的优点缺点答:欧式距离(Euclid距离)* =(%初尸产O优点:几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也 可以把握它的基本含义。缺点:从统计学的角度看,使用欧式距离要求一个向量的n个分量不相关,且具有相当的方差,或者说各个坐标对欧式距离的贡献同等且变差大小相同,此时使用欧式距离才合适,且效果良好,否则就不能如实反映情况且容易导致错误的结论。因此需要对坐标加权,化为统计距离11、模糊聚类分析的实质和基本原理答:模糊聚类分析的实质就是根据研究对象本身的属性而构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系基本原理:如果水平 满足,则按水平分出的每一类必是按水平分出的每一类的子类。(p62页)12、模糊聚类分析计算步骤:答:(1)对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。(2)计算模糊相似矩阵(3)建立模糊等价矩阵(4)进行聚类
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 中学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!