spss教程相关分析与回归模型的建立与分析

上传人:仙*** 文档编号:129629583 上传时间:2022-08-03 格式:DOCX 页数:22 大小:446.06KB
返回 下载 相关 举报
spss教程相关分析与回归模型的建立与分析_第1页
第1页 / 共22页
spss教程相关分析与回归模型的建立与分析_第2页
第2页 / 共22页
spss教程相关分析与回归模型的建立与分析_第3页
第3页 / 共22页
点击查看更多>>
资源描述
第三章相关分析与回归模型的建立与分析相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。本章主要内容:1对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。2、建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(CurveEstimation)。数据条件:参与分析的变量数据是数值型变量或有序变量。3.1相关分析在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图3.1所示。1Sr&phstiesRegortsDescriptiveStatistiesTablesConpu电MewsvarGftner*1LinuModtlMixedMedelsBivariGReressiojikPartial.LglinearRistances.Clk.SclieFNonparametricTestskIj_mSeritsSurvivalMultipleResponseMissingValues.Saiiples图3.1Correlate相关分析菜单3.1.1简单相关分析两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。3.1.1.1散点图SPS软件的绘图命令集中在Graphs菜单。下面通过例题来介绍具体操作方法例1数据库SY-8中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。具体操作步骤如下:首先打开数据SY-8,然后单击GraphstScatter,打开Scatterplot散点图对话框,如图3.2所示。然后选择需要的散点图,图中的四个选项依次是:Simple简单散点图Matrix矩阵散点图Overlay重叠散点图3-D三维散点图图3.2散点图对话框如果只考虑两个变量,可选择简单的散点图Simple,然后点击Define,打开SimpleScatterplot对话框,如图3.3所示。图3.3SimpleScatterplot对话框选择变量分别进入X轴和丫轴,点击0K后就可以得到散点图,见图3.4。从下面输出的人均国内生产总值与城镇居民消费额的散点图3.4中可以粗略地看出,两个变量之间有强正相关的线性关系。人均国内生产总值(元)图3.4散点图3.1.1.2简单相关分析操作简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出定量分析。仍然数据SY-8为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:1、打开数据库SY-8后,单击Analyze=Correlate=Bivariate打开Bivariate对话框,见图3.5所示。图3.5Bivariate:Correlation两变量相关分析对话框2、从左边的变量框中选择需要考察的两个变量进入Variables框内,从CorrelationCoefficients栏内选择相关系数的种类,有Pearson相关系数,Kendalls致性系数和Spearman等级相关系数。从检验栏内选择检验方式,有双尾检验和单尾检验两种3、单击Options按纽,选择输出项和缺失值的处理方式。本例中选择输出基本统计描述,见图3.6所示。:Options对话框图3.6BivariateCorrelation4、单击OK可以得到相关分析的结果。从表3.1(a)可以得到两个变量的基本统计描述,从表(b)中可以得到相关系数及对相关系数的检验结果,由于尾概率就小于0.01,故说明两变量之间存在着显著的线性相关性。表3.1(a)基本统计描述DescriptiveStatisticsMeanStd.DeviationN城镇居民消费额(元)2582.28002335.9638425人均国内生产总值(元)3689.88003701.5079825表3.1(b)相关系数检验Correlations城镇居民消费额(元)人均国内生产总值(元)城镇居民消费额(元)PearsonCorrelation1.998(*)Sig.(2-tailed).000N2525人均国内生产总值(元)PearsonCorrelation.998(*)1Sig.(2-tailed).000N2525*Correlationissignificantatthe0.01level(2-tailed).从表3.1(b)中可以看到两个变量相关性分析的结果:相关系数是0.998,相关程度非常高,且假设检验的P值远远地小于0.05,可以认为居民收入与某产品的销量存在线性正相关关系。3.1.2偏相关分析简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。例2:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表3.2。试求火柴销售量与煤气户数的偏相关系数.表3.2火柴销量及影响因素表(见参考文献1)年份火柴销售量煤气户数卷烟销量蚊香销量打火石销量(万件)(万户)(百箱)(十万盒)(百万粒)6823.6925.6823.610.14.186924.125.7723.4213.312.437022.7425.8822.099.496.57117.8427.4321.4311.0925.787218.2729.9524.9614.4828.167320.2933.5328.3716.9724.267422.6137.3142.5720.1630.187526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.8220.098029.2571.2553.2933.5721.228131.0573.3755.3639.5912.638232.2876.685448.4911.17解:根据数据表建立数据文件SY-9,求解火柴销售量与煤气户数的偏相关系数具体操作如下:1、首先打开数据文件SY-9,单击AnalyzeCorrelatePartial,打开PartialCorrelations对话框,见图3.7所示。2dVariables:應万件龙崔雯掾1万户S气数Controllingfor:侖百万粒EF丁火石量上十万盒E蚊香销星万箱卷烟帝量1;PartialCorrelationsTestofSignificancie3。Allcase输出所有观测量的残差值。本例中选择D.W佥验及奇异值诊断,选择标准差为2,即置信度约为95%图3.11LinearRegression:Statistics4、如果需要观察图形,可单击Plots按纽,打开LinearRegression:Plots对话框如图3.12所示。在此对话框中可以选择所需要的图形。图3.12LinearRegression:Plots对话框在左上角的源变量框中,选择Dependent进入X(或Y轴变量框,选择其它变量进入丫(或X)轴变量框,除因变量外,其客观存在变量依次是:ZPRED标准化预测值,ZRESID标准化残差,DRESID剔除残差,ADJPRED修正后预测值,SRESI学生化残差,SDRESID学生化剔除残差。StandardizedResidualPlots栏,标准化残差图类型,有选择项:Histogram:标准化残差直方图Normalprobabilityplot标准化残差序列的正态分布概率图.Produceallpartialplots依次绘制因变量和所有自变量的散布图本例中选择因变量Dependent与标准化残差ZRESlD勺残差图。5、单击Options按纽,打开LinearRegression:Options对话框,如图3.13所示。可以从中选择模型拟合判断准则SteppingMethodCriteria及缺失值的处理方式。图3.13LinearRegression:Options对话框SteppingMethodCriteria栏,设置变量引入或剔除模型的判别标准。UseprobabilityofF:采用F检验的概率为判别依据。UseFvalue:采用F值作为检验标准。Includeconstantinequation回归方程中包括常数项。MissingValues缺失值的处理方式。本例中选择系统默认项。6如果要保存预测值等数据,可单击Save按纽打开LinearRegression:Save对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。7、当所有选择完成后,单击OKI到分析结果。主要的分析结果见表3.4。表3.4(a)ModelSummary(d)模型综合分析表ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatistics变动分析Durbin-WatsonRSquareChangeFChangedf1df2Sig.FChange1.879(a).772.7552.44047.77244.085113.0002.994(b).988.986.58304.216215.772112.0003.997(c).994.993.41783.00612.365111.0052.066aPredictors:(Constant),卷烟销量(万箱)bPredictors:(Constant),卷烟销量(万箱),打火石销量(百万粒)cPredictors:(Constant),卷烟销量(万箱),打火石销量(百万粒),煤气户数(万户)dDependentVariable:火柴销量(万件)表3.4(a)模型综合分析中有模型的复相关系数R,样本决定系数氏,修正的可决系数R2,估计标准误,模型变化导致的可决系数及F值的变化,D.W佥验值等。由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好,DW值为2.066,显然通过DVt验,说明残差项不存在一阶自相关。表3.4(b)方差分析表ANOVAdModelSumofSquaresdfMeanSquareFSig.1Regression262.5661262.56644.085.000aResidual77.427135.956Total339.993142Regression335.9142167.957494.090.000bResidual4.07912.340Total339.993143Regression338.0733112.691645.483.000cResidual1.92011.175Total339.99314a. Predict。rs:(Constant),万箱Predictors:(Constant),万箱,百万粒Predictors:(Constant),万箱,百万粒,万户DependentVariable:万件方差分析表3.4(b)同时给出了3个模型的方差分析表。其中模型3的F值最大,说明模型3的回归效果最显著。表3.4(c)回归系数Model非标准化回归系数UnstandardizedCoefficients标准化回归系数StandardizedCoefficients检验统计量tP值Sig.相关系数Correlations共线性统计CollinearityStatistics单相关容忍度方差膨Std.Zero-or偏相关Toleranc胀因子BErrorBetaderPartialParteVIF1(Constant)13.3921.9996.698.000卷烟销量(万箱).320.048.8796.640.000.879.879.8791.0001.0002(Constant)17.240.54531.647.000卷烟销量(万箱).315.012.86527.347.000.879.992.865.9991.001打火石销量(百万粒)-.243.017-.465-14.689.000-.490-.973-.464.9991.0013(Constant)17.420.39444.243.000卷烟销量(万箱).254.019.69813.228.000.879.970.300.1855.417打火石销量(百万粒)-.243.012-.465-20.526.000-.490-.987-.465.9991.001煤气户数(万户).049.014.1853.516.005.826.727.080.1855.415aDependentVariable:火柴销量(万件)表3.4(c)中的Model栏中,模型1是先将卷烟销量作为自变量进入模型,模型2将卷烟销量与打火石销量两个自变量进入模型,模型3是将卷烟、打火石和煤气户数三个自变量进入模型。第四个自变量蚊香销量没有通过检验自动剔除。回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都比较显著。由最后两列的容忍度Toleranee和方差膨胀因子VIF的值来看,自变量之间不存在强烈的共线性。表3.4(d)相关系数表Correlations火柴销量(万件)煤气户数(万户)卷烟销量(万箱)蚊香销量(十万盒)打火石销量(百万粒)PearsonCorrelation火柴销量(万件)1.000.826.879.808-.490煤气户数(万户).8261.000.903.949-.023卷烟销量(万箱).879.9031.000.903-.029蚊香销量(十万盒).808.949.9031.000-.007打火石销量(百万粒)-.490-.023-.029-.0071.000Sig.(1-tailed)火柴销量(万件).000.000.000.032煤气户数(万户).000.000.000.468卷烟销量(万箱).000.000.000.458蚊香销量(十万盒).000.000.000.490打火石销量(百万粒).032.468.458.490N火柴销量(万件)1515151515煤气户数(万户)1515151515卷烟销量(万箱)1515151515蚊香销量(十万盒)1515151515打火石销量(百万粒)1515151515相关分析表中表示的相关系数是全部变量(自变量与因变量)的两两变量之间的简单相关系数和相关性检验。ResidualsStatistics表3.4(e)残差统计MinimumMaximumMeanStd.DeviationNPredictedValue17.927232.153225.98934.9140715Residual-.9332.9950.0000.3703715Std.PredictedValue-1.6411.254.0001.00015Std.Residual-2.2332.381.000.88615aa.DependentVariable:万件残差统计表3.4(e)表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。表3.4(f)共线性诊断表:CollinearityDiagnosticsModelDimensionEigenvalueConditionIndexVarianceProportions(Constant)万箱百万粒万户111.9491.000.03.032.0516.184.97.97212.7421.000.01.01.032.2123.597.03.12.843.0467.735.96.86.13313.6641.000.01.00.02.002.2623.742.00.01.74.023.0647.568.84.01.24.074.01118.329.15.98.00.91a.DependentVariable:万件共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。表3.4(g)奇异值表(标准化残差值大于2)CasewiseDiagnosticsCaseNumberStd.Residual万件PredictedValueResidual122.38129.6928.6950.995014-2.23331.0531.9832-.9332a.DependentVariable:万件奇异值表3.4(g)中依次是序号,标准化残差值,实际观测值、预测值及残差值表中给出的两个个体数据的标准化残差(数据号为12和14)超出了2。Scatterplot表3.4(h)标准化残差图:DependentVariable:万件-1-2-316182022242628303234万件由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。最终得回归模型为:y二17.420.254论0.049x2-0.243x43.3曲线估计上节介绍了线性回归模型的分析和检验方法。如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。SPSS提供了多种曲线方程。列出表3.5如下:表3.5可化为线性方程的曲线方程函数名称方程形式相应的线性回归方程Linear线性函数y=b+bpXQuadratic二次多项式2y=b0+十b2xy=b0+bjX+b2xx=x2Compound复合模型Xy=bobiIny=Inb0+xInb1Growth生长曲线(bo屮bx)y=ey,=b0+Sxy=InyLogarithmic对数函数y=b0+bInxy=b0+b1xx=InxCubic三次多项式y=b0+bxx2+b3x3y=b0+Sx+b2x+b3xx=x2;x=x3SS曲线y=e(m也/x)ybo+Sxy=Iny;x=1/xExponential指数函数y=0e1y=b;+Sxy=Iny;b;=InboInverse逆函数y=bo+(b/x)y=b0+Sxx=1/xPower幕函数yf(xbl)y,=b;y=Iny;b;=Inb;x=InxLogistic逻辑曲线y=(1/u+bobix)Jy=b;+b;xy*=ln(1/y1/u);b;=Inb0;b;=Inb这里以例题说明曲线拟合的具体操作方法。例4:表3.6表示的是全国1990年至2002年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的年份人均消费性支出(元)教育支出(元)19901627.6438.2419911854.2247.9119922203.657.5619933138.5671.0019944442.09153.9819955565.68194.6219966544.73307.9519977188.71419.1919987911.94542.7819997493.31556.9320007997.37656.2820019463.071091.8520029396.451062.13函数曲线。表3.6人均消费支出与教育支出数据表(见参考文献3)解:首先根据上表建立数据SY-10,作出人均消费支出与教育支出的散点图3.14如下:12001000.800口400教育支出口200m0;0200040006000800010000年人均消费性支出图3.14人均消费与教育支出的散点图由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。具体操作如下:1、单击Analyze;Regression;CurveEstimation打开CurveEstimation对话框。如图3.15所示:CurveEstrnatiofi2d喑年扮nfD&penderitfs):$較育支皿元)y|Independent(Variable:務年人吗(肖费性支出元广TimeOKPasteReseiCancel|Help17IncludeconstantinequationCaseLabelsmiModels-LinearWQuadratic厂Logiarithmic厂Cubic-Inverse17PowerRPlotmodelsWCompound厂GruwtldSrExponentialLogisticUpperbound:康nisplaANOVAlable图3.15CurveEstimation曲线估计对话框2、选择估计曲线:SPS有多条曲线形式供选择。根据散点图,本例中选择Quadratic,Power,和Compoun曲线进行对比分析。3、单击Save按纽,打开Save对话框如图3.16所示。图3.16CurveEstimation:Save对话框选择需要保存到数据表中的项目。在SaveVariables栏中,复选项依次是:PredictedValues预测值、Residuals残差、Predictionintervals预测区间,可以在下方框中选择置信度,默认值为95%本例中不作选择。4、所有选择完成后,单击OK,得到输出结果如表3.7.:表3.7曲线估计输出表与曲线图回归系数Independent:XDependentMthRsqd.f.FSigfb0b1b2YQUA.98710382.64.000252.698-.14752.5E-05YCOM.995112086.35.00020.95501.0004YPOW.95411229.58.0003.6E-051.8460决定系数自由度F值P值教育支出(元)匸Observed仁Quadratic匚Compound-Power年人均消费性支出(元)从表中可以看出,可决系数接近1的模型是Com复合函数,同时也可通过图形验证这三个模型对观察值的拟合程度。下面对以上三个模型进一步分析。在主对话框的下方选择输出方差分析表DisplayAMOVAtable,可得到方差分析表的详细分析结果如表3.8所示:表3.8曲线估计及方差分析表Dependentvariable.Y复相关指数MultipleR可决系数RSquareMethod.QUADRATI.99353.98710二次多项式修正的可决系数AdjustedRSquare.98452标准误StandardError45.70690AnalysisofVarianee:方差分析表自由度平方和DFSumofSquares均方MeanSquareRegression21598766.0799383.00Residuals1020891.22089.12F(检验统计量)382.64096SignifF(假设检验P值)=.0000变量VariableX*22.46018091E-052.2722E-062.08579710.827.0000回归系数标准误标准化系数T值P值BSEBBetaTSigT-.147527.025041-1.134958-5.892.00024.373.0014(Constant)252.69789057.792248Dependentvariable.YMethod.COMPOUND复合函数ListwiseDeletionofMissingDataMultipleR.99737RSquare.99476AdjustedRSquare.99428StandardError.09002AnalysisofVariance:DFSumofSquaresMeanSquareRegression116.90528916.905289Residuals11.089131.008103F=2086.35111SignifF=.0000VariablesintheEquationVariableBSEBBetaTSigTX1.0004209.1977E-062.711154108768.23.0000幂函数(Constant)20.9550191.22613917.090.0000Dependentvariable.YMethod.POWERListwiseDeletionofMissingDataMultipleR.97687RSquare.95428AdjustedRSquare.95012StandardError.26578AnalysisofVariance:DFSumofSquaresMeanSquareRegression116.21738716.217387F=229.58009SignifF=.0000VariablesintheEquationVariableBSEBBetaTSigTX1.845988.121832.97687115.152.0000(Constant)3.5781705054E-053.7164E-05.963.3563从上面的输出结果可以看出,比较各种估计模型的样本决定系数R2,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。故可以选择复合函数曲线作为拟合曲线,其回归方程为:y二20.995x练习三1、铝合金化学铣切工艺中,为了便于生产操作,需要对腐蚀速度进行控制,因此要考察腐蚀温度X1C),碱浓度X2,(g/L),腐蚀液含铝量X3(g/L)对腐蚀速度y(mm/min)的影响,一共做了44次试验,所得数据表如下,试验号XX2X3y试验号XX2X3y173122000.02402387362000.0380273212000.02352487422000.0370375302000.02402587482000.0325475362000.02452677191500.0230575422000.01902777191750.0225675482000.01852877192000.0265779122000.03052977192250.0285879212000.0303077192500.0315979302000.02903181271500.02551079362000.02653281271750.02901179422000.02503381272000.03101279482000.02653481272250.03151383122000.03703581272500.03201483212000.03603685351500.03451583302000.03553785351750.03551683362000.03253885352000.03701783422000.03103985352250.03801883482000.02654085352500.04301987122000.04454189431500.03502087212000.04254289431750.03802187302000.04204389432000.04252273122000.02404489432250.0430试对以上数据进行回归分析:(1)建立线性回归模型;(2)对回归模型进行检验(3)若回归模型通过检验,试求:当Xi=80C,X2=35g/L,x3=200g/L时,腐蚀速度y的点预测与95%的区间预测。2、下表是山东省2003年统计年鉴的统计数据,试根据表中数据,将山东省的交通运输客运量对人均国内生产总值的关系拟合一条合适的曲线。年份人均国内生产总值(元)客运量(万人)年份人均国内生产总值(元)客运量(万人)198040212208199225563392019814721268219933222336341982531131091994447334592198361114839199557583642519847651730919966834391991985887197721997759043218198695626459199881285090419871131252091999867359350198813952903520009555661281989159530718200110465704971990181529798200211645746261991212231940
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!