统计建模PPT课件

资源描述

u 统计建模方法u 统计建模论文格式规范第1页/共116页统计建模方法统计建模概念统计建模步骤统计建模方法第2页/共116页统计建模概念统计建模是以计算机统计分析软件（Excel、Spss、Sas、Matlab、R、S-plus等）为工具，利用各种统计分析方法对批量数据建立统计模型和探索处理的过程，用于揭示数据背后的因素，诠释社会经济现象，或对经济和社会发展作出预测或判断。第3页/共116页统计建模的一般步骤（1）明确问题（2）收集信息（3）模型假设（4）模型构建（5）模型求解（6）结果分析第4页/共116页统计建模方法方差分析回归分析聚类分类因子分析第5页/共116页方差分析方差分析概述多因素方差分析第6页/共116页方差分析概述在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下总体均值间的差异举例u医学界研究几种药物对某种疾病的疗效；u农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响u不同饲料对牲畜体重增长的效果等u不同广告形式、地区规模等因素对广告效果的影响等都可以使用方差分析方法去解决第7页/共116页方差分析是检验多个总体均值是否相等一种方法。本质上是研究分类型自变量对数值型因变量的影响。方差分析基本原理方差分析中判断总体均值是否相等一般是通过对数据误差来源的分析判断得到。误差来源有两种情况：随机误差和系统误差。随机误差：在同一因素下的观察值由于抽样的随机性造成的误差。系统误差：不同因素下的观察值由于系统因素造成的误差。第8页/共116页数据误差用平方和表示。组内误差（随机误差）数据误差随机误差组间误差系统误差衡量同一水平下样本数据的误差衡量不同下的样本数据误差第9页/共116页方差分析的核心是方差可分解。这里的方差是指通过计算各观测值偏离均值的平方和再除以n-1得到。这样，在给定n的情况下，方差就是离差平方和，简称SST。观察量的总平方和SST分解为组间离差平方和SSA和组内误差平方和SSE,即：SST=SSA+SSE第10页/共116页由误差来源的分析得知，判断分类型自变量对数值型因变量受否有影响，就是检验数值型变量存在差异的原因。如果这种差异主要是系统误差，则分类型变量对该数值存在显著影响,否则差异不显著。根据统计学原理，组间均方和组内均方的比值构成F分布。给定显著性水平，通过和F分布统计量的概率P的比较，推出总体均值是否存在显著差异。第11页/共116页多因素方差分析u 概念u 基本思想u 数学模型u 应用第12页/共116页概念多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。它不仅能分析多个因素对观测变量的独立影响，更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响，进而找到有利于观测变量的最优组合。第13页/共116页基本思想u确定观测变量和若干个控制变量u剖析观测变量的方差u比较观测变量总离差平方和和各部分所占的比例第14页/共116页多因素方差分析的数学模型设控制变量A有k个水平，B有r个水平，每个交叉水平下均有l个样本，则在控制变量A的水平Ai和控制变量B的水平Bj下的第k个样本值定义为：ijkx()ijkijijijkxabab(1,2,. ;1,2., ;1,2., )ik jr kl多因素方差分析的饱和模型ijkijijkxab(1,2,. ;1,2., ;1,2., )ik jr kl多因素方差分析的非饱和模型第15页/共116页应用某企业在制定某商品的广告策略时，对不同广告形式在不同地区的广告效果进行了评估。通过多因素方差分析方法对广告形式、地区以及广告形式和地区的交互作用给销售额带来的影响进行分析，进而制定广告和地区的最优组合方案提供依据。第16页/共116页第17页/共116页第18页/共116页饱和模型情况第19页/共116页非饱和模型情况第20页/共116页一元线性回归多元线性回归回归分析方法回归分析方法数学模型及定义数学模型及定义模型参数估计模型参数估计检验、预测与控制检验、预测与控制数学模型及定义数学模型及定义模型参数估计模型参数估计多元线性回归中的多元线性回归中的检验与预测检验与预测第21页/共116页一元线性回归分析一元线性回归分析例例1 测16名成年女子的身高与腿长所得数据如下：以身高x为横坐标，以腿长y为纵坐标将这些数据点（xi，yi）在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10身高身高143145146147149150153154155156157158159160162164腿长腿长8885889192939395969897969899100102 1.数学模型数学模型第22页/共116页一元线性回归分析的主要任务是：一元线性回归分析的主要任务是：、1、用试验值（样本值）对0 1 和s s作点估计；、2、对回归系数0 1 作假设检验；03.xxy对处对做预测和区间估计第23页/共116页2.回归系数的置信区间回归系数的置信区间0和和1置信水平为置信水平为 1-的置信区间分别为的置信区间分别为 xxexxeLxnntLxnnt221022101)2(,1)2(ss和 xxexxeLntLnt/)2(,/)2(211211ss2s的的置置信信水水平平为为 1-的的置置信信区区间间为为 )2(,)2(22221nQnQee第24页/共116页3.预测与控制预测与控制（1）预测）预测:对固定的对固定的x值预测相应的值预测相应的y值值用 y0的回归值0100 xy作为 y0的的预预测测值值.第25页/共116页（2）控制）控制0111yx 若要的值以的概率落在区间（y ,y )之内，那么预报变量x应控制在什么范围内。也就是说要求出区间(x ,x ),使当x (x ,x )时，对应的y值以的概率落在区间（y ,y )之内。这就是控制问题。控制问题可以看成是预测问题的反问题。第26页/共116页1122,eexxxxyuyuss 一般说来，要解出和很复杂。若样本容量很大，且在附近，问题可以大大简化。这时我们可以利用预测区间来进行控制。第27页/共116页多元线性回归多元线性回归多元线性回归在工程上更为有用。0111.( )kkyxx1212100,.,( ),( ).kyx xxkED s s0 0k k其其中中为为可可观观测测的的随随机机变变量量，为为非非随随机机的的可可精精确确观观测测的的变变量量，，，. . . . ., ,为为个个未未知知参参数数，为为随随机机变变量量，设设 1. 1.数学模型及定义数学模型及定义一般地，影响试验指标的因素不只一个，假设它们之间有如下的线性关系：第28页/共116页211212011122,.,.,.( ),.,kiiikiikikinx xxynnxxxyxxss 0k0ki i 为为了了估估计计未未知知参参数数，，.,.,和和，我我们们对对和和作作次次观观测测得得组组观观测测值值（,y,y）(i=1,2,3,.,n).(i=1,2,3,.,n).它它们们满满足足关关系系式式：i=1,2,3,.ni=1,2,3,.n其其中中相相互互独独立立且且是是与与同同分分布布的的随随机机变变量量。为为了了用用矩矩阵阵表表示示上上式式，令令第29页/共116页2(1)10( , ).nXnkkECOVI s其中为阶矩阵，称为资料矩阵，为维未知的列向量，满足：，1于是，（）式变为：(3)YX第30页/共116页第31页/共116页2.2.模型参数估计模型参数估计 2is(1)对和作估计0000.0kQQQ根据微积分求极值的方法，得正规方程组第32页/共116页 YXXXTT1解得估计值211() .TkX Xs服从维正态分布，且为的无偏估计，协注意为：方差阵第33页/共116页3.多元线性回归中的检验与预测多元线性回归中的检验与预测第34页/共116页第35页/共116页第36页/共116页第37页/共116页线性回归例子应用例如：要研究全国各地高校教师课题总数与投入人年数、投入高级职称的人年数、投入科研事业费、专著数、论文数、获奖数之间的关系，可以通过建立多元线性回归模型来研究。相关数据在高校科研研究.sav中。第38页/共116页第39页/共116页第40页/共116页此概率值小于0.05，因此拒绝原假设，即认为各回归系数不同时为0，被解释变量与解释变量全体的线性关系显著，可建立线性模型。由于调整的判定系数较接近1，因此认为模型拟合优度较高第41页/共116页通过采用逐步回归分析得到上面两表中各项系数的概率P值与0.05相比，发现只有投入年人数的系数差异显著，即对方程有用，其余的系数都没用，因此不能保留在方程中，所以最后得到的模型为：2945240.492yx第42页/共116页第43页/共116页第44页/共116页第45页/共116页线性回归分析还可以应用的例子 1.为了考评教师的教学质量，教学研究部门设计了一个教学评估表，对学生进行一次问卷调查，要求学生对12位教师的15门课程按以下指标进行打分，分值为15分，具体指标依次为：课程内容组织的合理性、主要问题展开的逻辑性、回答学生问题的有效性、课下交流的有助性、教科书的帮助性、考试评分的公正性、对教师的总体评价。要求：建立教师的总体评价与各项具体指标之间的回归模型，为提高教师的教学水平提供依据。第46页/共116页 2.某大型牙膏制造企业为了更好地拓展产品市场，有效的管理库存，公司董事会要求销售部门根据市场调查，找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系，从而预测出在不同价格和广告费用下的销售量。为此销售部的研究人员收集了过去30个销售周期（每个销售周期为4周）公司生产的牙膏的销售量、销售价格、投入的广告费用、以及同期其他厂家生产的同类牙膏的市场平均销售价格，试根据这些指标建立一个数学模型，分析牙膏销售量与其他因素的关系，为制定价格策略和广告投入提供依据。第47页/共116页聚类分析物以类聚，人以群分，社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要，于是数值分类学便应运而生。一、数学模型二、应用类例第48页/共116页一、数学模型某种物品有n个： XXXn12,指标，如何将其分成若干类，基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类：它有m个数值量化1.距离距离 Xxxxiiiim (,)12in 1 2,XXij,的距离, dD XXijij(,)本文中的距离常用欧氏或马氏距离，公式在前几节中已述，还有一种用绝对距离：jkikmkijxxd1max)(应该提及马氏距离dMij()可以克服数据相关性的困难。第49页/共116页2.数数据正据正规规化化处处理理当Xi的分量中m大，要经过正规化标准化处理，令个指标量纲不一致时，相差很(min)(max)(min)iiiijijxxxxx(4.1) 其中 xxxxiiiim(min)min(,)12xxxxiiiim(max)max(,)12(4.2) (4.3) 将经过(1)(1)式处理的数据ijx重新视作xij( (为记号上的方便) )第50页/共116页3. 相似系相似系数数法法 XXij,的相关系数rxxxxxxxxijikijkjkmikijkjkmkm()()()()1221112(4.4) 可以将相关愈密切的归成一类。第51页/共116页4.最短距离聚类法(系统聚类法，逐步并类法) 先将n个样本各自为一类，计算它们之间的距离，选择距离小的二个样本归为一个新类，再计算这个新类与其它样本的距离，选择距离小的二个样本(或二个新类)归为一个新类，每次合并缩小一个以上的类，直到所有样本都划为一个类为止。这里规定两点间距离为：dD XXijij(,)两类间的距离，即 GGpq与的距离为： ijGXGXpqdDqjpi,min第52页/共116页步骤如下： 1.数据正规化处理要视各指标的量纲是否一致，相差是否太大，并选择一种距离计算法，为了方便计，一般都选择欧氏距离法。 2.计算各样本间的两两距离,并记在分类距离对称表中,并记为D(0),第0步分类,此时 Ddpqpq(每一每一个样个样本点本点为为一一个类个类)3.选择选择表表D(0)中的最短距离中的最短距离,设为设为 Dpq,则将则将 GGpq,合并成一个新类,记为 GrGGGrpq,(4.5) 4.4.计算新类Gr与其它类之间的距离, ,定义 ijGXGXrkdDkjri,minijGXGXijGXGXddkjqikjpi,min,minmin第53页/共116页 min,DDpkqk(4.6) 表示新类Gr与类Gk之间的距离。 5.作作D(1)表表,将将D(0)中的第中的第p,q行和行和p,q列列删删去去,加加上第上第r行行,第第r列。第列。第r行行,第第r列列与与其其它类它类的距离按的距离按(4.6)式判式判断断后后记记上上,这样这样得到一得到一个个新的分新的分类类距离距离对称对称表表,并并记为记为D(1), D(1)表示表示经过经过一次聚一次聚类类后的距离表后的距离表,要要注意的是注意的是Dr类类是由是由哪两类哪两类聚聚类类得到得到应应在在D(1)表下表下给给以以说说明。明。 6.对D(1)按3,4,5重复类似D(0)的聚类工作,得D(2)。 7.一直重复,直到最后只剩下两类为止,并作聚类图。第54页/共116页二、应用类例现有8个样品,每个样品有2个指标(m=2,2维变量),它们的量纲相同,(否则要经过正规化处理) x1x2编号编号1 12 23 34 45 56 67 78 82 22 24 44 4-4-4-2-2-3-3-1-15 53 34 43 33 32 22 2-3-3试用系统聚类方法对这8个样品进行聚类。解:采用欧氏距离 (1)最短距离法,首先用表格形式列出D(0)第55页/共116页D(0)D(0)G1G1G2G2G3G3G4G4G5G5G6G6G7G7G8G8G1G10 0G2G22.02.00 0G3G32.22.22.22.20 0G4G42.32.32.02.01.01.00 0G5G56.36.36.06.08.18.18.08.00 0G6G65.05.04.14.16.36.36.16.12.22.20 0G7G75.85.85.15.17.27.27.17.11.41.41.01.00 0G8G88.58.56.76.78.68.67.87.86.76.75.15.15.45.40 0表示第i个样品,i=1,2,8 Gi在D(0)D(0)中, ,最小值是1.0,1.0,相应的距离是D(3.4),D(3.4),与D(6,7)D(6,7)。则G G34,合并为新类G9, ,把G G67,合并成G10。第56页/共116页(2)把把D(0)中去掉中去掉 G G G GG G G G34673467,行及列并计算得下表,后两行重算,其余照D(0)照抄。 D(1)D(1)G1G1G2G2G5G5G8G8G9G9G11G11G1G10 0G2G22.02.00 0G5G56.36.36.06.00 0G8G88.58.56.76.76.76.70 0G9G92.22.22.02.08.08.07.87.80 0G10G105.05.04.14.11.41.45.15.18.18.10 0第57页/共116页 DDD( ,)min( ,),( , ), , ,934 21258DDD(, )min( , ),( , ), , ,10671258DDDDD( ,)min( , ),( , ),( , ),( , )9 1036374 64 7视D(1)D(1)中, ,最小值为1.4, 1.4, 相应的是D(5,10)D(5,10)将G G510,合并成新类G11。第58页/共116页3)同法同法构构造造D(2)表表D(2)D(2)G1G1G2G2G8G8G9G9G10G10G1G10 0G2G22.02.00 0G8G88.58.56.76.70 0G9G92.22.22.02.07.87.80 0G11G115.05.04.14.15.15.16.16.10 0其中(11, )min(5, ),(10, )1,2,8,9DDD最小值D(1,2)=D(2,9)=2.0D(1,2)=D(2,9)=2.0，则把G GGG12912,合并成新类，在D(2)中,第59页/共116页D(3)D(3)G8G8G11G11G12G12G8G80 0G11G115.15.10 0G12G126.76.74.14.10 0 其中DDDD(, )min( , ),( , ),( , ),12129811D(3)D(3)中, ,最小值D(11,12)=4.1D(11,12)=4.1，因此把GGG111213,合并成，在D(4)D(4)G8G8G13G13G8G80 0G13G135.15.10 0DDDDDDDD(, )min( , ),( , ),( , ),( , ),( , ),( , ),( , ).1381828384 858687 851(见见D(0)第第8行行)第60页/共116页 3. 3.把上述聚类过程用聚类图表示: : 0 1 1.4 2 T 3 4 5 G1G2G3G4G5G8G12G9G11G10G13G14G7G8 说明：聚类到一定程度即可结束第61页/共116页一般可以选取一个阈值T，到D(K)中的所有非零元素都大于T，即结束(表中的值T值)设T=2.5：则到D(3)时结束，此时的共聚为三类： GGGGGGGGGGG1234125671188,如下图：85761 32 4第62页/共116页模糊聚类分析二、数学模型一、问题的提出三、一个实例第63页/共116页一、问题的提出客观事物分成确定性和不确定性两类,处理不确定性的方法为随机数学方法。在进行随机现象的研究时,所表现的现象是不确定的,但对象事物本身是确定的。例如投一个分币,出现哪一面是随机的,但分币本身是确定的。如果所研究的事物本身是不确定的,这就是模糊数学所研究的范畴。例如,一个人年龄大了,称年老,年小,或年青,但到底什么算年老,什么算年青呢? 又如儿子象父亲,什么是象?象多少? 再说儿子象父亲,儿子又象母亲(部分象),难道父亲象母亲?1965年由I.A.Zadeh提出模糊数学,它可以广泛地应于图象识别,聚类分析,计算机应用和社会科学。第64页/共116页例如洗衣机和空调器已用上模糊控制,本节将把模糊数学的一套方法引入聚类分析中来,称为模糊聚类分析。第65页/共116页二、数学模型设E为分明集(集合)1.定义: 称为隶属度函数(分得很清楚)要末是,要末不是对A为不分明集, 可以取0到1之间的任意一个实数值.当愈接近于1.则的程度愈大. 愈接近于0.则的程度愈小.fEEE()1001fA()fA() AfA()fEX()fA()第66页/共116页2.模糊数学的运算法则如A和B为不分明集,则有: 并,记为 , 交,记 , 补,记为 ,)(),(max)(BABAffffffABAB()min(),()ffAA()()1A第67页/共116页3.模糊聚类模糊聚类同于一般聚类法(相似系数法或最小距离法) 以相似系数(相关系数)法为例: 思路: 先算相似系数矩阵(相似矩阵) 将相似矩阵改造成模糊矩阵:即将原相似矩阵的元素压缩到0,1之间改造成模糊等价矩阵,取不同的标准,可以得到不同的聚类标准.第68页/共116页计算步骤: 第一步:计算相似的系数先将数据标准化令得到标准化的数据为显然 (标准化数据的平均值一定为0) 得标准化后比数据的相关系数为iiiim (,)12in12 , ,Yyyyiiiim (,)12ni, 2 , 1Yi 0 21211 )()()(mkjjkmkiikjjkmkiikijYYYYYYYYr 第69页/共116页相似矩阵第二步:将相似系数压缩到0,1之间令建立模糊矩阵 Rrijn n()|rij1rrrijijij050201.则 Rrijn n第70页/共116页第三步: :建立模糊等价矩阵由于上述模糊矩阵不具有传递性: :即要通过褶积将模糊矩阵改造成模糊等价矩阵: : 矩阵的褶积与矩阵乘法类似, ,只是将数的加. . 乘运算改成并和交 : : 则褶积为: :RRRR242,ABabcijnijnijn() ()()Ca ba ba bijijijinnj1 122Cabababijijijinnj()()(1122第71页/共116页于是有: : 于是有: :一直到为止此时即满足模糊等价矩阵, ,具有传递性此时记它为:CR:CR第四步: :进行聚类: : 将矩阵CRCR的元素依大小次序排列, ,从1 1开始, ,沿着自大到小依次取值, ,定义: : 可以得到若干个0,10,1元素构成的CR CR 矩阵, ,其中之1 1的表示这二个样本划为一类RR R RRRRRR2422844,RRhh2RhCrijCrijCrCrCrijijij10第72页/共116页三、一个实例三、一个实例 = = - -上海4 4月平均气温; -; -北京3 3月雨量 -5-5月地磁指数; -5; -5月500500毫巴W W型环流型日数予报对象: : 华北五站( (北京、天津、营口、太原、石家庄)7-8)7-8月降水量, ,仅用61-6761-67年 7 7年的资料( (略) )第一步: :计算相似系数经过标准化计算相似系数矩阵R RX(,)XXXX1234X1X2X3X4)(114. 0149. 019. 0123. 029. 076. 0126. 056. 061. 020. 0160. 019. 099. 076. 057. 0106. 005. 074. 028. 084. 068. 01 ijrR第73页/共116页第二步: :建立模糊矩阵将相似系数压缩到0,10,1之间得第三步: :建立模糊等价矩阵按上式计算: : 例如 rrijij0502.143. 0120. 040. 0162. 065. 012. 0163. 022. 020. 060. 0120. 042. 099. 012. 022. 0153. 048. 013. 060. 092. 016. 01Rrrrrrrrrrrrrrrr121112122213321442155216621772*() () ()() () ()()(.)( .)( .)( .)( .)( .)( .)( .10160161092022064012013099048042053020016016022012013042020042第74页/共116页得到 , , 发现 , , 当取0.920.92时: : 将 , ,当取0.650.65时有: : RRR248,RR84CR0 921010000100100100001000100101.5252,XXXX合并成一类XXXX1313,亦合并成一类CR0 651010000100100100001010100101.第75页/共116页又将合并成一类, , 当取0.640.64时, ,有此时将1,3,1,3,再与4,64,6并为一类, ,可分成三类再取=0.63=0.63时这次再将 , ,只有二类: : , ,XX46,CR0 641011010100100110101010100101.6431,XXXX111001110111011001001110110163.0CRXXXXX71346并入,XXXXX13467,XX25,752,XXX第76页/共116页聚类图: :说明: : (1) (1)当 =0.65=0.65时, ,共分成四类: : (2) (2)当 =0.64=0.64时, ,共分成三类: : (3) (3)当 =0.63=0.63时, ,共分成二类: : 这是以按年份为基本类的分类图 XXXXXXX2513467, XXXXXXX2513467, XXXXXXX2513467,0.640.650.920.990.63X5X2X13XX4X6X7第77页/共116页聚类分析应用之一： K-Means聚类为了研究世界各国森林、草原资源的分布规律，抽取21个国家的数据，每个国家4项指标，分别是森林面积、森林覆盖率、林木蓄积量、草原面积。要求对数据进行K-Means聚类方法。第78页/共116页第79页/共116页第80页/共116页第81页/共116页第82页/共116页聚类分析应用之二：层次聚类现有某年全国主要城市的一月到十二月的日照时数，现对该数据进行层次聚类。第83页/共116页第84页/共116页第85页/共116页第86页/共116页* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ Apr 4 -+-+ May 5 -+ +-+ Sep 9 -+-+ | | Oct 10 -+ +-+ +-+ Jun 6 -+-+ | | Aug 8 -+ | | Jul 7 -+ | Feb 2 -+-+ | Nov 11 -+ | | Mar 3 -+-+ | Jan 1 -+ +-+ Dec 12 -+第87页/共116页聚类分析还可以应用的例子 1.我国31个地区农民某年支出情况，通过调查反映每人平均生活消费支出情况的六个指标，分别为：食品、衣着、燃料、住房、生活用品及其它、文化生活服务支出。可通过聚类对31个地区进行分类。第88页/共116页因子分析 n因子分析的定义n因子分析的模型n因子载荷矩阵的统计意义n因子分析的基本步骤n因子分析的应用第89页/共116页因子分析的定义因子分析就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子反映原资料的大部分信息的统计方法。比如：在商业企业的形象评价中，消费者可以通过一系列指标构成的一个评价指标体系，评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面：商店的环境、商店的服务和商品的价格。这三个方面除了价格外，商店的环境和服务质量，都是客观存在的、抽象的影响因素，都不便于直接测量，只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。第90页/共116页设有维可观测的随机向量，其均值为，协方差矩阵为 pTpxxx,21xTp,21ijs1 . 2 . 8221122222121221121211111pmpmppppmmmmfafafaxfafafaxfafafax因子分析的一般模型为因子分析的数学模型第91页/共116页（8.2.1）式可用矩阵表示为2 . 2 . 8Afx式中公共因子向量，为特殊因子向量，称为因子载荷矩阵因子载荷矩阵。Tmffff,21Tp,21mpaAij:第92页/共116页 3 . 2 . 80,0022221TpfEfCovdiagDVIfVEfEsss通常假设第93页/共116页1、的元素原始变量与公共因子之间的协方差函数由（8.2.1）式知Aijaixjf8 . 2 . 8,1ijiiimijiafCovffCovafxCov即是与之间的协方差函数。ijaixjf 因子载荷矩阵的统计意义因子载荷矩阵的统计意义第94页/共116页若为各分量已标准化了的随机向量，则与的相关系数xixjf 9 . 2 . 8,ijjijijijiafxCovfVxVfxCovfx此时表示与之间的相关系数。ijaixjf第95页/共116页2、的行元素平方和公共因子对原始变量的方差贡献Amjijiah122ix 10. 2 . 8, 2 , 1,2222212222121piaaaVfVafVafVaxViimiiimimiiis对（8.2.1）各等式两边取方差令piahmjiji, 2 , 1,12211. 2 . 8, 2 , 122pihiiiiss于是第96页/共116页反映了公共因子对的影响，可以看成是公共因子对的方差贡献，称为共性方差（communality）；而是特殊因子对的方差贡献，称为特殊方差（specific variance）。ixixi2siix2ih12. 2 . 8, 2 , 1122pihiis当为各分量已标准化了的随机向量时，，此时有x1iis第97页/共116页3、的列元素平方和公共因子对的贡献Apiijjag122ifx由（8.2.10）式得 13. 2 . 81222221112122211211piimpiipimimpiipiipiigggVfVafVafVaxVs第98页/共116页其中mjagpiijj, 2 , 1,122 反映了公共因子对的影响，是衡量公共因子重要性的一个尺度，可视为公共因子对的总方差贡献。2jgjfpxxx,21jfjfpxxx,21第99页/共116页因子分析的步骤因子分析的前提条件因子提取和因子载荷矩阵的求解因子命名计算因子得分第100页/共116页因子分析的应用现以对12个地区的5个经济指标的调查数据进行因子分析为例，本数据是美国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。第101页/共116页第102页/共116页第103页/共116页第104页/共116页第105页/共116页第106页/共116页第107页/共116页利用因子分析还可解决的问题有： 1.对20名大学生进行的有关价值观的测验，包括9个项目，分别是合作性、分配、出发点、工作投入、发展机会、社会地位、权力距离、职位升迁、领导风格等。从这些指标中可以提取几个因子。2. 深、沪两市证券交易所50家上市公司的13个财务指标数据分别为：流动比率、速动比率、总资产周转率、存货周转率、营运资本、每股收益、净利润增长率、每股收益增长率、主营业务毛利率、主营业务利润率、成本费用利润率、净资产收益率、总资产利润率。第108页/共116页这些指标有些之间具有很强的相关性，如果利用所有的13个财务指标对这50家公司进行财务分析，难免出现信息的重叠，而利用因子分析可以解决这个问题。3.我国各地区教育人力资源发展水平的相关数据指标：每百万人口学校数、每十万人口毕业生数、每十万人口招生数、每十万人口在校生数、每十万人口研究生数、每十万人口教职工数、每十万人口专职教师数、高级教师占专职教师的比例、每所学校在校生数、师生比等。第109页/共116页统计建模论文的格式规范题目摘要关键词目录正文参考文献第110页/共116页摘要要求：既简练又能说明整篇论文的内容。内容包括：目的意义、采用的建模方法、得到的结果。第111页/共116页关键词要求：要能体现在整篇论文中的地位及作用。一般最好不要超过5个。第112页/共116页目录最好做到三级标题第113页/共116页正文一、问题的提出二、研究现状及存在的问题三、模型建立前的准备四、利用统计方法建立模型五、结论与建议六、模型的优缺点七、小结第114页/共116页统计建模论文可参看论文基于层次分析法的大连城乡统筹测度问题研究的格式第115页/共116页感谢您的观看！第116页/共116页

展开阅读全文

统计建模PPT课件

最新文档