SPSS第十四讲偏相关性分析.ppt

资源描述

,统计软件,第十四讲偏相关分析,第十四讲偏相关分析,第一部分 Excel与SPSS方式对比第二部分偏相关分析的概念第三部分偏相关分析的SPSS过程第四部分距离分析,相关分析的Excel方式,例：一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的提高，这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因，管理者希望利用银行业务的有关数据做些定量分析，以便找出控制不良贷款的办法。,下表就是该银行所属的25家分行2002年的有关业务数据。,散点图,Spss结果比较,偏相关分析,在多变量的情况下，变量之间的相关关系是很复杂的。因此，多元相关分析除了要利用上一讲的简单相关系数外，还要计算偏相关系数。在对其他变量的影响进行控制的条件下，衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。,偏相关系数与简单相关系数区别,在计算简单相关系数时：只需要掌握两个变量的观测数据，并不考虑其他变量对这两个变量可能产生的影响。在计算偏相关系数时：需要掌握多个变量的数据，一方面考虑多个变量相互之间可能产生的影响，一方面又采用一定的方法控制其他变量，专门考察两个特定变量的净相关关系。,变量1,变量2,关系,变量3,控制,例：在现实经济生活中，由于收入和价格常常都有不断提高的趋势，如果不考虑收入对需求的影响，仅仅利用需求和价格的时间序列数据去计算简单相关系数，就有可能得出价格越高需求越大的错误结论。,偏相关分析的公式表达,在偏相关中，根据固定变量数目的多少，可分为零阶偏相关、一阶偏相关、(p-1) 阶偏相关。零阶偏相关就是简单相关。如果用下标 0 代表 Y，下标 1 代表 X1，下标 2 代表X2，则变量Y与变量X1之间的一阶偏相关系数为： r01.2是剔除 X2 的影响之后，Y 与 X1 之间的偏相关程度的度量。 r01，r02 ，r12分别是Y ，X1 ，X2两两之间的相关系数。,如果增加变量X3，则变量Y与X1的二阶偏相关系数为：依此类推变量Y与Xi的p-1阶偏相关系数为：,第四部分偏关分析的SPSS过程,SPSS中相关分析可以通过Analyze菜单进行（Correlate），Correlate菜单如图所示。选择其中第二个子菜单进入到偏相关分析界面（Partial）,第一步：录入数据，打开偏相关分析对话框。第二步：将对话框中左侧的变量列表框中选择两个变量，作为相关变量，移入Variables列表框中；选择一个控制变量移入Controlling for列表框中,第三步：选择检验类型。,变量窗口,显著性检验：双尾检验（默认）单尾检验（相关方向明显时）,显示相关系数时，显示实际的显著性概率,相关变量,控制变量,第四步：打开OPTION选项框。,均值与标准差，即显示每个变量的均值、标准差和非缺失值的例数,显示零阶相关矩阵，即Pearson相关矩阵,仅剔除当前分析的两个变量值是缺失值的个案,剔除带有缺失值的所有个案,已知有某河流的一年月平均流量观测数据和该河流所在地区当年的月平均雨量和月平均温度观测数据，如表所示。试分析温度与河水流量之间的相关关系。,相关分析的命令语句,结果分析,一、描述性统计量表中给出了个变量的均值、标准差和变量的非缺失值例数。,相关系数,在月平均雨量作为控制变量的条件下，月平均流量和月平均气温间的偏相关为0.365，概率p值为0.270，在显著性水平为0.05的条件下，月平均流量和月平均气温呈的正相关关系，说明月平均流量和月平均气温的有线性影响但影响有限。,解释,看上去得到了两个相反的结论，为什么呢？,距离分析,一、距离分析的概念距离分析是对观测量之间或变量之间相似或不相似程度的一种测度，是计算一对变量之间或一对观测量之间的广义的距离。这些相似性或距离测度可以用于其它分析过程，例如因子分析、聚类分析等。在距离分析过程中，主要利用变量间的相似性测度（Similarities）和不相似性测度（Dissimilarities）度量两者之间的关系,有多像OR 有多不像？,不相似性测度,对定距型变量间距离描述的统计量，主要有：欧式距离（Euclidean distance）欧式距离的平方（Squared Euclidean distan-ce ）契比雪夫距离（Chebychev）绝对值距离（Block）闵可夫斯基距离（Minkowski）等。,对定序型变量之间距离的描述，主要有：卡方不相似测度（Chi-Square measure） Phi方不相似测度（Phi-Square measure）,对二值变量之间的距离描述，主要有：欧氏距离（Euclidean distance）平方欧氏距离（Squared Euclidean distance ） Lane and Williams不相似性测度（ Lane and Williams ）等。,相似性测度,两变量之间可以定义相似性测度统计量，用来对两变量之间的相似性进行数量化描述。针对定距型变量，主要有： Peason相关系数夹角余弦距离等。对于二值变量的相似性测度主要包括：简单匹配系数（Simple matching） Jaccard相似性指数（Jaccard） Hamann相似性测度（Hamann）等20余种。相似性或不相似性测度还可用与其它模块，例如：因子分析、聚类分析以及多维尺度分析的进一步分析，以助于分析复合数据集。,Kulczynski 1：Kulczynski 型配对系数，分母为总数与配对数之差，分子为非配对数，分子与分母的权重相同； Kulczynski 2：Kulczynski平均条件概率； Sokal and Sneath 4：Sokal and Sneath 条件概率； Hamann：Hamann概率； Lambda：Goodman-Kruskai相似测量的值； Anderbergs D：以一个变量状态预测另一个变量状态； Yules Y：Yule综合系数，属于22四格表的列联比例函数； Yules Q：Goodman-Kruskal 值，属于22四格表的列联比例函数。 Ochiai：Ochiai二分余弦测量； Sokal and Sneath 5：Sokal and Sneath 型相似测量； Phi 4 point correlation：Pearson相关系数的平方值； Dispersion：Dispersion相似测量。,二值变量的相似性测度选项,Russell and Rao：以二分点乘积为配对系数； Simple matching：以配对数与总对数的比例为配对系数； Jaccard：相似比例，分子与分母中的配对数与非配对数给予相同的权重； Dice：Dice配对系数，分子与分母中的配对数给予加倍的权重； Rogers and Tanimoto：Rogers and Tanimoto配对系数，分母为配对数，分子为非配对数，非配对数给予加倍的权重； Sokal and Sneath 1：Sokal and Sneath 型配对系数，分母为配对数，分子为非配对数，配对数给予加倍的权重； Sokal and Sneath 2：Sokal and Sneath 型配对系数，分子与分母均为非配对数，但分子给予加倍的权重； Sokal and Sneath 3：Sokal and Sneath 型配对系数，分母为配对数，分子为非配对数，分子与分母的权重相同；,已知有我国六城市2004年各月的日照时数数据如表所示。请分析各城市日照数是否近似。,执行【Analyze】/【Correlate】/【Distances】命令,弹出【Distances】对话框,变量列表,选择变量,个案（观测量）标识变量,计算距离选项：个案距离，计算个案间的距离；变量距离，计算变量之间的距离,度量方式,等距间隔数据选项,计数数据选项,二值数值选项,转换转换选项,转换测度选项,结果解读,取值越大说明近似程度越低，反之亦然,例：测得30名13岁男童的身高、体重、肺活量的数据。对身高、体重和肺活量进行变量距离分析。,距离分析命令语句,PROXIMITIES 身高体重肺活量 /VIEW=VARIABLE /MEASURE= CORRELATION /STANDARDIZE= NONE .,结果分析,距离分析的相似性矩阵，也就是Pearson相关系数矩阵。从表中可以看出，3个变量之间，身高和体重的相关系数最大，为0.735，体现出两者之间具有更紧密的关系。比较而言，身高和肺活量之间的Pearson相关系数最小，两者之间的相似性测度也最小，体现出两者之间关系更远一些。,实例二对飞机叶片的个案距离分析,利用三种不同的仪器对飞机的10只叶片半径分别进行了测量，下表给出了测试结果。现对10只叶片进行距离分析。,步骤,将三次测量变量移入变量列表，选择“Bewteen cases”其余选择默认值。命令语句为： PROXIMITIES 第一次第二次第三次 /VIEW=CASE /MEASURE= EUCLID /STANDARDIZE= NONE .,距离分析的相似性矩阵,上表是个案距离分析的不相似矩阵。由于操作中利用默认选项选择距离统计量，所以这里的距离测度为Euclidean距离，是一种不相似距离测度，数值越大，表示两个个案的不相似性越大，两叶片差距也就越大。从表中可以看出，在给定的10只叶片中，第7只叶片和第10只叶片的距离最大；第6、7叶片距离最小。表示这两只叶片半径测量数据最接近。,第九次实验内容,两变量的相关分析（Bivariate过程）某地区10名健康儿童头发和全血中的硒含量（1000ppm）如下，试作发硒与血硒的相关分析。编号发硒血硒,第十次实验内容,1.偏相关分析(Partial 过程) 某地29名13岁男童身高（cm）、体重（kg）和肺活量（ml）的数据如下表, 试对该资料作控制体重影响作用的身高与肺活量相关分析。,2.距离分析(Distances过程) 某医师对10份标准血红蛋白样品作三次平行检测，结果如下，问检测结果是否一致？,感谢您的关注,每个人都有一定的理想，这种理想决定着他的努力和判断的方向。在这个意义上，我从来不把安逸和快乐看作是生活目的本身这种伦理基础，我叫它猪栏式的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是善、美和真。爱因斯坦,

展开阅读全文

SPSS第十四讲偏相关性分析.ppt

最新文档