多元统计分析简答题.doc

资源描述

1、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设H0和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。协差阵的检验检验检验统计量2. 针对一个总体均值向量的检验而言，在协差阵已知和未知的两种情形下，如何分别构造的统计量？3. 作多元线性回归分析时，自变量与因变量之间的影响关系一定是线性形式的吗？多元线性回归分析中的线性关系是指什么变量之间存在线性关系？答：作多元线性回归分析时，自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换，将其变为线性关系，然后再做回归分析。多元线性回归分析的线性关系指的是随机变量间的关系，因变量y与回归系数i间存在线性关系。多元线性回归的条件是：（1）各自变量间不存在多重共线性；（2）各自变量与残差独立；（3）各残差间相互独立并服从正态分布；（4）Y与每一自变量X有线性关系。4.回归分析的基本思想与步骤基本思想：所谓回归分析，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。步骤：1）确定回归方程中的解释变量和被解释变量。2）确定回归模型根据函数拟合方式，通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系，则应进行线性回归分析，建立线性回归模型；如果被解释变量和解释变量之间存在非线性关系，则应进行非线性回归分析，建立非线性回归模型。3）建立回归方程根据收集到的样本数据以及前步所确定的回归模型，在一定的统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。4）对回归方程进行各种检验由于回归方程是在样本数据基础上得到的，回归方程是否真实地反映了事物总体间的统计关系，以及回归方程能否用于预测等都需要进行检验。5）利用回归方程进行预测5.多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系，即存在不全为0的p个常数C1,C2, ,Cp使得C1Xi1+C2Xi2+CpXip0,i=1,2,n不良后果：模型存在完全的多重共线性，则资料阵X的秩p+1，从而无法得到回归参数的估计量。对于近似多重共线性情况，虽有r(X)=p+1，但|XTX|0，从而矩阵（XTX）-1的主对角线上的元素很大，使得估计的参数向量的协方差阵的对角线上的元素也很大，导致普通最小二乘参数估计量并非有效。检验方法：方差扩大因子（VIF）法和特征根判定法方差扩大因子表达式为：VIFi=1/(1-Ri2)，其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时，表明自变量间存在多重共线性。解决方法：当发现自变量存在严重的多重共线性时，可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计（如采用岭回归法、主成分法、偏最小二乘法等）等方法来克服多重共线性。6.为什么要进行回归方程的显著性检验？答：对于任意给定的一组观测数据(xi1,xi2,.,xip;yi)，(i=1,2,.,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,.,xp之间根本不存在线性关系，这时建立起来的回归方程的效果一定很差，即回归值yi实际上不能拟合真实的值yi。即使整个回归方程的效果是显著的，在多元的情况下，是否每个变量都起着显著的作用呢？因此还需要对各个回归系数进行显著性检验，对于回归效果不显著的自变量，我们可以从回归方程中剔除，而只保留起重要作用的自变量，这样可以使回归方程更简练。7.统计性的依据是什么？给出一个回归方程如何做显著性检验？统计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量x1,x2,.xp从整体上对随机变量y是否有明显的影响，即检验假设H0：1=2=.=p=0 H1:至少有某个i0，1=i=p如果H0被接受，则表明y与x1,x2,.xp之间不存在线性关系，为了说明如何进行检验，我们首先要建立方差分析表。在进行显著性检验中，我们可以用F统计量来检验回归方程的显著性，也可以用P值法做检验。F统计量是：F=MSR/MSE=SSR/p/SSE/(n-p-1) 当H0为真时，FF(p,n-p-1)。给定显著性水平，查F分布表得临界值F1-(p,n-p-1)，计算F的观测值，若F0F0)，定显著性水平，若pt/2(n-p-1)时，拒绝H0。反之，则接受H0。数据的中心化和标准化目的：解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义：相当于将坐标原点移至样本中心，而坐标系的平移并不改变直线的斜率，只改变了截距。通过对残差进行分析，可以在一定程度上回答下列问题：1）回归函数线性假定的可行性；2）误差项的等方差假设的合理性；3）误差项独立性假设的合理性；4）误差项是否符合正态分布；5）观测值中是否存在异常值；6）是否在模型中遗漏了某些重要的自变量。8.标准化回归方程与非标准化回归方程有何不同？在怎样的情况下需要将变量标准化？标准化回归方程就是将自变量因变量都标准化后的方程。在spss输出的回归系数中有一列是标准化的回归系数，由于都标准化了，因此标准化方程中没有常数项了。对数据标准化，即将原始数据减去相应变量的均数后再除以该变量的标准差，计算得到的回归方程称为标准化回归方程，相应的回归系数为标准化回归系数。一般情况下的回归，并不必须标准化，直接回归即可。在做主成分分析包括因子分析时，则必须标准化。9.回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析，均有一元和多元，线性与非线性之分，在应用中相互结合渗透，但仍有差别，主要是：（1）相关分析主要刻画两类变量间线性相关的密切程度，而回归分析则是揭示一个变量如何与其他变量相联系，并可由回归方程进行控制和预测（2）在相关分析中，变量y与x处于平等的地位，在回归分析中，因变量y处于被解释的特殊地位（3）在相关分析中所涉及的变量y与x完全是随机变量；而在回归分析中因变量y是随机变量，自变量可以是随机变量也可以是非随机变量。一般来说，只有存在相关关系才可以进行回归分析，相关程度越高，回归分析的结果就越可靠。10.回归方程的基本假定？（1）回归函数的线性假设（2）误差项的等方差假设（3）误差项的独立性假设（4）误差项的正态分布假设11.运用回归分析解决问题时，回归变量的选择理论依据的什么？选择回归变量时应注意哪些问题？（1）从拟合角度考虑，可以采用修正的复相关系数达到最大的准则准则1：修正的复相关系数Ra2达到最大。因为：Ra2=1-MSE/(SST/(n-1)从这个关系式容易看出，Ra2达到最大时，MSE达到最小。（2）从预测的角度考虑，可以采用预测平方和达到最小的准则及Cp准则准则2：预测平方和PRESSp达到最小准则3：（Cp准则）（3）从极大似然估计角度考虑，可以采用赤池信息量化准则（AIC准则）准则4：赤池信息量达到最小AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型：全模型相应参数为有偏估计，选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型，全模型参数估计和预测是有偏估计，而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的，或虽有影响，但难于观测的自变量是有利的。 12.逐步回归方法的基本思想与步骤基本思想：有进有出。具体做法是将变量一个一个引入，引入变量的条件是通过了偏F统计量的检验，同时，每引入一个新变量后，对已入选方程的老变量进行检测，将经检验认为不显著的变量剔除，此过程经过若干步，直到既不能引入新变量又不能剔除老变量为止。基本步骤：（1）对于每个自变量xi(1im)，拟合m个一元线性回归模型，若Fi1(1)FE，则所选择含有自变量xi1的回归模型为当前模型，否则，没有变量引入模型，选择过程结束，即认为所有自变量对y的影响均不显著。（2）在第一步的基础上，再将其余的m-1个自变量分别加入此模型中，得到m-1个二元回归方程，若若Fi1(2)FE则将自变量xi2引入模型，进一步考察xi2引入模型后，xi1对y的影响是否仍显著，若Fi1(2)FD，则剔除xi。（3）在第二步的基础上再将其余的m-2个自变量分别加入此模型中，拟合各个模型并计算偏F统计量值，与FE比较决定是否又新变量引入，如果有新的变量引入，还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著，那样就应该被剔除。重复以上步骤，直到没有新的变量进入模型，同时在模型中的老变量都不能被剔除，则结束选择过程。13.在作判别分析时，如何检验判别效果的优良性？当一个判别准则提出以后，还要研究其优良性，即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。（1）误判率回代估计法回判过程中，用n12表示将本属于G1的样本误判为G2的个数，n21表示将本属于G2的样本误判为G1的个数，总的误判个数是n12+n21，误判率的回代估计为(n12+n21)/(n1+n2)，但往往比真实的误判率要小。（2）误判率的交叉确认估计每次剔除训练样本中的一个样本，利用其余容量为n1+n2-1个训练样本来建立判别准则，再利用所建立的判别准则对删除的那个样本作判别，对训练样本中的每个样本做上述分析，以其误判的比例作为误判概率的估计。14、简述费希尔判别法的基本思想。从k个总体中抽取具有p个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。15.Fisher判别法的基本思想基本思想是投影。将k组m元数据投影到某一个方向，使得投影后组与组之间尽可能地分开，其中利用了一元差分的思想导出判别函数。这个函数可以是线性的，也可以是其他类型的函数。贝叶斯判别法的基本思想基本思想是假定对所研究是对象（总体）在抽样前就有一定的认识，常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验概率做修正，得到后验概率分布，再基于后验概率分布做判别分析。16.简述费歇尔准则下两类判别分析的基本思想。答：费歇尔的判别方法，其基本思想是把p个变量x1,x2,.,xp综合成一个新变量y，y=c1x1+c2x2+.+cpxp=cx ，也即产生一个综合判别指标，要求已知的g个类Gk，k=1,2,.,g在这个新变量下能最大程度地区分开，于是可用这个综合判别指标判别未知样品的归属。其中c=(c1,c2,cp)为待定参数。判别方程除没有常数外，与回归方程非常相似，但两者有着本质的区别。在回归方程中，y为因变量，是一个已知的随机变量，有其样本测试值，回归分析的任务是选择一组参数，使得根据回归方程预测的因变量的值与实测值尽可能地接近；而判别模型中y只是一个综合变量，实际上并不存在这样一个变量，因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间（直线）上去，使各已知类在该直线上的投影尽可能分离。17.比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项？答：除没有常数项外，与回归方程非常相似，但两者有着本质的区别。在回归方程中，y为因变量，是一个已知的随机变量，有其样本测试值，回归分析的任务是选择一组参数，使得根据回归方程预测的因变量的值与实测值尽可能地接近；而判别模型中y只是一个综合变量，实际上并不存在这样一个变量，因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间（直线）上去，使各已知类在该直线上的投影尽可能分离。18.判别分析与聚类分析有何不同？聚类分析和判别分析有相似的作用，都是起到分类的作用。但是判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类都不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。所以聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。19.简述聚类分析的基本思想。有哪两类聚类分析？各自的作用？聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量，然后讨论根据相似性度量进行点群簇分的方法和应用。聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于不相似。聚类分析根据对象不同分为Q型聚类分析（对样本进行聚类）和R型聚类（对变量进行聚类）。对样品或变量进行聚类时，我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离用来度量样品之间的相似性，而相似系数常用来度量变量间的相似性。20.距离系数需要满足的基本条件？答：点i和点j之间的距离dij可有各种不同的定义，只要其满足所谓的距离公理：对一切是i,j，dij=0；dij=0等价于点i和点j为同一点，即X(i)=X(j)；对一切的i,j，dij=dji；三角不等式成立，即对一切的i,j,k，有dij=dik+dkj21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法？基本思想：（1）将聚类的n个样品（或者变量）各自看成一类，共有n类；（2）按照事先选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n-1类；（3）按前面的计算方法计算新类与其他类之间的距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n-2类；（4）如此继续下去，直到最后所有样品（或者变量）归为一类为止。基本步骤：（1）n个样品（或者变量）各自成一类，一共有n类。计算两两之间的距离，显然D（Gp,Gq）=dpq，构成一个对称矩阵D(0)=(dij)nn，其对角线上的元素全为0.（2）选择D(0)中对角线元素以外的上（或者下）三角部分中的最小元素，设其为D（Gp,Gq），与其下标相对应，将类Gp与Gq合并成一个新类，记为Gr。计算Gr与其他类Gk（kp,q）之间的距离。（3）在D(0)中划去与Gp、Gq所对应的两行和两列，并加入由新类Gr与其他各类之间的距离所组成的一行和一列，得到一个新的n-1阶对称距离矩阵D(1)。（4）由D(1)出发，重复步骤（2）（3）得到对称矩阵D(2)；再由D(2)出发，重复步骤（2）（3）得到对称矩阵D(3),.，依次类推，直到n个样品（或者变量）聚为一个大类为止。（5）在合并某两类的过程中记下两类样品（或者变量）的编号以及所对应的距离（或者相似系数），并绘制成果聚类图。（6）决定类的个数以及聚类结果。常用的系统聚类法有：最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法22.模糊聚类法的基本思想和步骤基本思想：采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析，模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵，并在此基础上根据一定的隶属度来确定聚类关系，即用模糊数学的方法把样本之间的模糊关系定量的确定，从而客观且准确地进行聚类。模糊聚类分析所讨论的对象，事先没有给定任何模式供分类参考，要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇，使得各个类之间的数据差别应尽可能大，类内之间的数据差别应尽可能小，即为“最小化类间相似性，最大化类内相似性”原则。基本步骤：（1）选定一种计算距离或相似系数的公式。（2）由观测数据矩阵计算样品间的距离dij(1i,jn)或变量间的相似系数rij(1i,jm)，形成距离矩阵D=(dij)nn或相似系数矩阵R=(rij)mm（3）将距离矩阵D或相似系数矩阵R中的元素压缩到0与1之间，形成模糊矩阵A=(aij)（4）将模糊矩阵A改造成为模糊等价矩阵（5）选取截取水平(01)，对样本进行模糊聚类（6）按的值画出聚类的谱系图。23如何确定合理的聚类数目？聚类数目的真正确定在于研究的问题是什么，以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中，可以根据方差分析理论，应用混合F统计量来确定最佳分类数。24、在进行系统聚类分析时，不同的类间距离计算方法有何区别？请举例说明。设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。（1）. 最短距离法（2）最长距离法（3）中间距离法其中-1/40（4）重心法（5）类平均法（6）可变类平均法其中b是可变的且b 1（7）可变法其中b是可变的且b FE，则所选择含有自变量xi1的回归模型为当前模型，否则，没有变量引入模型，选择过程结束，即认为所有自变量对y的影响均不显著。（2）在第一步的基础上，再将其余的m-1个自变量分别加入此模型中，得到m-1个二元回归方程，若若Fi1(2)FE则将自变量xi2引入模型，进一步考察xi2引入模型后，xi1对y的影响是否仍显著，若Fi1(2)FD，则剔除xi。（3）在第二步的基础上再将其余的m-2个自变量分别加入此模型中，拟合各个模型并计算偏F统计量值，与FE比较决定是否又新变量引入，如果有新的变量引入，还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著，那样就应该被剔除。重复以上步骤，直到没有新的变量进入模型，同时在模型中的老变量都不能被剔除，则结束选择过程。最优回归方程的选择准则：（1）基于RSS的自变量的选择准则（2）Cp统计量，Cp愈小愈好具体方法：（1）从变量所有可能组合的回归方程中选择最优者（2）前进法与后退法（3）逐步回归法46.简述典型相关分析的基本思想与步骤，试举例说明它的应用。答：基本思想：在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。步骤：（1）确定典型相关分析的目标（2）设计典型相关分析（3）检验典型相关分析的基本假设（4）估计典型模型，评价模型拟合程度（5）解释典型变量（6）验证模型典型相关分析的用途很广。在实际分析问题中，当我们面临两组多变量数据，并希望研究两组变量之间的关系时，就要用到典型相关分析。例如，为了研究扩张性财政政策实施以后对宏观经济发展的影响，就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。47.多元线性回归方程有哪些基本假定？在实际应用中，若这些假定并不满足，会造成怎样的不良后果？答：多元线性回归模型的基本假定有：零均值假定、随机项独立同方差假定、解释变量的非随机性假定、解释变量之间不存在线性相关关系假定、随机误差项i服从均值为0方差为2的正态分布假定。在证明最小二乘估计量的无偏性中，利用了解释变量与随机误差项不相关的假定；在有效性的证明中，利用了随机项独立同方差假定。若这些假定不满足，会遇到较多问题，主要有多重共线性问题以及自相关、异方差等问题。48.回归系数的普通最小二乘估计具有哪些统计性质？要想获得理想的系数估计以及较好的预测效果，对观测样本有何要求？答：1）线性。估计量i是yi的线性函数；2）无偏性。i是i的无偏估计。3）有效性。估计量在所有的无偏估计量中有最小方差。观测样本的x取值要尽可能分散些，样本容量也尽可能大些。49.试解释回归方程的样本决定系数和检验回归方程显著性的P值的含义。答：样本决定系数用回归平方和与总离差平方和的比例来表示，是用来评判一个模型拟合优度的标准。其值越接近于1，意味着模型的拟合优度越高。P值是P（FF0），它表示第一、第二自由度分别为p,n-p-1的F变量取值大于F0的概率。50.如何考虑两个自变量对因变量的交叉作用？对于实际应用问题，如何设定回归方程的形式？答：若某一自变量的单独效应随另一自变量的变化而变化时，说明两自变量间有交叉作用。检验两自变量间有无交叉作用，普遍的做法是在方程中加入它们的乘积再做检验，如考察x1,x2间的交叉作用，可在模型中加入x1x2项。或是通过两变量不同水平的均数作线图，得到交互作用图，若图中两条直线几乎平行，则说明两交叉作用很小或不存在。反之，若两条直线互不平行，则说明两变量可能存在交叉作用，需要进一步假设检验进行确认。回归方程的形式应包含某些变量的高次项或交叉乘积项。51.如何考察自变量之间是否存在多重共线性问题？如果存在多重共线性，会有怎样的不良后果？如何在尽量不降低模型解释能力的前提下消除多重共线性问题？答：多重共线性可从以下几个方面识别：1）变量的重要性与专业不符2）R2高，但各自变量对应的回归系数均不显著3）方差膨胀因子（VIF）104）回归系数的符号与专业知识不符不良后果：1）参数估计值的标准误差变得很大，从而t值变得很小2）回归方程不稳定，增加或减少某几个观察值，估计值可以发生很大变化3）t检验不准确，误将应保留在方程中的重要变量舍弃4）估计值的客观符号与客观实际不一致解决方法：当发现自变量存在严重的多重共线性时，可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计（如采用岭回归法、主成分法、偏最小二乘法等）等方法来克服多重共线性。52.如何诊断数据中的异常数据？是否只要存在异常数据，都会对回归方程的参数估计以及预测效果造成较大的影响？为什么？答：在常规回归模型中,异常值是指对既定模型偏离较大的数据点。通过建立数据删除模型来分析某一数据点对回归分析的影响,如果该点对回归方程估计量的影响超过临界值,那么就判定该点为异常值。可以从残差分布的角度分析预测值与实际值之差的误差百分率的分布是否服从某种分布,并在该分布下检验误差百分率这列数据中的异常值。可以根据杠杆值、库克距离、标准化回归系数的变化和标准化预测值的变化来探测解释变量中的异常值。53.为什么要对回归方程和变量进行检验？答：对回归方程的检验是指对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立。对变量检验的目的是检验解释变量对被解释变量的单独作用是否显著，为某个解释变量是否保留在模型中，提供重要参考依据。54.如何解释多元线性回归系数的含义？如何度量回归方程拟合优度？拟合优度的好坏是否可作为回归方程优劣是重要标志？答：回归系数表示自变量x对因变量y的影响程度。回归系数越大表示x对y影响越大，正的回归系数表示y随x增大而增大，负的回归系数表示y随x增大而减小。用样本决定系数（回归平方和与总离差平方和的比例）作为评判一个模型拟合优度的标准。拟合优度的好坏可以作为回归方程优劣的重要标志，但不是判断模型质量的唯一标准，有时为了追求模型的实际意义，可以在一定程度上放宽对拟合优度的要求。55. 作因子分析时，如何确定公共因子的个数？如何解释这些公共因子的实际意义？答：有3个方法可以用来确定因子的个数：1）方差贡献率2）设定特征值条件3）碎石图公共因子的实际意义，需结合具体问题来定。56. 主成分分析与因子分析有哪些应用？答：主成分分析是构造原始变量的适当线性组合，以产生一系列互不相关的变量，并从中选取少量几个新变量来分析和解决问题，例如高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数，同时也不会造成信息的大量丢失。能够有效降低变量维数。因子分析是主成分分析的推广，它也是利用降维的思想，从研究原始变量相关矩阵内部结构出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法。例如，某企业招聘人才，对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核。这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面，每一方面称为一个公告因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。57. 距离判别法采用何种距离？这种距离有什么特点？答：距离判别法采用马氏距离。其特点有：1）两点之间的马氏距离与原始数据的测量单位无关。2）标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏矩离相同。3）可以排除变量之间的相关性的干扰。4）满足距离的四个基本公理：非负性、自反性、对称性和三角不等式。58.变量间的统计关系和函数关系的本质区别是什么？答：变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系，而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。59. 回归模型中随机误差项的意义是什么？答：为随机误差项，正是由于随机误差项的引入，才将变量间的关系描述为一个随机方程，使得我们可以借助随机数学方法研究y与x1,x2.xp的关系，由于客观经济现象是错综复杂的，一种经济现象很难用有限个因素来准确说明，随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。60. 回归分析与相关分析的联系与区别是什么？答：联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中，变量y称为因变量，处在被解释的特殊地位。在相关分析中，变量x和变量y处于平等的地位，即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中，因变量y是随机变量，自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制。61. 线性回归模型的基本假设是什么？答：线性回归模型的基本假设有：1.解释变量x1.x2.xp是非随机的，观测值 xi1.xi2.xip是常数。2.等方差及不相关的假定条件为E(i)=0 i=1,2. Cov(i,j)=2 3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数，即np.62. 回归变量的设置理论根据是什么？在回归变量设置时应注意哪些问题？答：理论判断某个变量应该作为解释变量，即便是不显著的，如果理论上无法判断那么可以采用统计方法来判断，解释变量和被解释变量存在统计关系。应注意的问题有：在选择变量时要注意与一些专门领域的专家合作，不要认为一个回归模型所涉及的变量越多越好，回归变量的确定工作并不能一次完成，需要反复试算，最终找出最合适的一些变量。63.你认为运用回归分析研究实际问题时应该定性分析和定量分析相结合吗？为什么？对此你是否有直接经验？如有，请作简要介绍。答：在回归模型的运

展开阅读全文

多元统计分析简答题.doc

最新文档