线性回归分析ppt课件

资源描述

回归分析(Correlation®ression),1,线性回归,2,回归分析（regressionanalysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。*涉及的自变量的多少一元回归分析多元回归分析*自变量和因变量之间的关系类型，线性回归分析非线性回归分析,3,回归分析一般步骤：确定回归方程中的解释变量（自变量）和被解释变量（因变量）确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测,4,线性回归模型一元线性回归模型是指只有一个解释变量的线性回归模型，用于揭示被解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型：其中0和1是未知参数，分别称为回归常数和回归系数，称为随机误差，是一个随机变量，且应该满足两个前提条件：E()=0var()=2,5,多元线性回归模型是指有多个解释变量的线性回归模型，用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型：其中0、1、p都是未知参数，分别称为回归常数和偏回归系数，称为随机误差，是一个随机变量，且同样满足两个前提条件：E()=0var()=2,线性回归模型,6,回归参数的普通最小二乘估计（OLSE）线性回归方程确定后的任务是利用已经收集到的样本数据，根据一定的统计拟合准则，对方程中的各参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则。最小二乘法将偏差距离定义为离差平方和，即最小二乘估计就是寻找参数0、1、p的估计值0、1、p，使式（1）达到极小。通过求极值原理（偏导为零）和解方程组，可求得估计值，SPSS将自动完成。,7,回归方程的统计检验回归方程的拟合优度检验（相关系数检验）一元线性回归的拟合优度检验采用R2统计量，称为判定系数或决定系数，数学定义为,其中称为回归平方和（SSA）,称为总离差平方和（SST）,8,回归方程的统计检验回归方程的拟合优度检验（相关系数检验）R2取值在0-1之间，R2越接近于1，说明回归方程对样本数据点的拟合优度越高。,9,多元线性回归的拟合优度检验采用统计量，称为调整的判定系数或调整的决定系数，数学定义为,式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。,回归方程的统计检验回归方程的拟合优度检验（相关系数检验）,10,回归方程的统计检验回归方程的显著性检验（F检验）,一元线性回归方程显著性检验的零假设是1=0，检验采用F统计量，其数学定义为：,即平均的SSA/平均的SSE，F统计量服从（1，n-2）个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为线性关系显著。,11,回归方程的统计检验回归方程的显著性检验（F检验）,多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零，检验采用F统计量，其数学定义为：,即平均的SSA/平均的SSE，F统计量服从（p，n-p-1）个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为y与x的全体的线性关系显著。,12,回归方程的统计检验回归系数的显著性检验（t检验）,一元线性回归方程的回归系数显著性检验的零假设是1=0，检验采用t统计量，其数学定义为：,t统计量服从n-2个自由度的t分布。SPSS将会自动计算t统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为x对y有显著贡献，线性关系显著。,13,回归方程的统计检验回归系数的显著性检验（t检验）,多元线性回归方程的回归系数显著性检验的零假设是i=0，检验采用t统计量，其数学定义为：,ti统计量服从n-p-1个自由度的t分布。SPSS将会自动计算ti统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为xi对y有显著贡献，应保留在线性方程中。,（i=1,2,，p）,14,回归方程的统计检验残差分析,所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距，即,它是回归模型中的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律，那么残差序列中应不包含明显的规律性和趋势性。,15,回归方程的统计检验残差分析均值为0的正态性分析,残差均值为0的正态性分析，可以通过绘制残差图进行分析，如果残差均值为0，残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化（或学生化）残差的累计概率图来分析,16,回归方程的统计检验残差分析独立性分析绘制残差序列的序列图以样本期（或时间）为横坐标，残差为纵坐标，如果残差随时间的推移呈规律性变化，则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间，接近于+1表明序列存在正自相关性。DW（DurbinWatson）检验DW取值在0至4之间，直观判断标准是DW=4，残差序列完全负自相关；DW=2，完全无自相关；DW=0，完全正自相关。,17,回归方程的统计检验残差分析异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加（或减少）的趋势，说明出现了异方差现象。,18,回归方程的统计检验残差分析异方差分析等级相关分析得到残差序列后首先对其取绝对值，然后计算出残差和解释变量的秩，最后计算Spearman等级相关系数，并进行等级相关分析。具体过程见相关分析相关章节。,19,回归方程的统计检验残差分析探测样本中的异常值和强影响点（对于y值）标准化残差ZRE由于残差是服从均值为0的正态分布，因此可以根据3准则进行判断，首先对残差进行标准化，绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE（或剔除学生化残差SDRE）上述SRE、SDRE的直观判断标准同标准化残差ZRE。,20,回归方程的统计检验残差分析探测样本中的异常值和强影响点(对于x值)杠杆值hiiSPSS中计算的是中心化杠杆值chii，通常如果chii大于2或3倍的chii的均值（p/n）,则认为观察点为强影响点。库克距离Di库克距离是杠杆值与残差大小的综合效应，一般库克距离大于1，则可认为观察点为强影响点。标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于，或标准化预测值变化的绝对值大于，则可认为第i个样本可能是强影响点。,21,多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程，首先选择与被解释变量具有最高线性相关系数的变量进入方程，并进行各种检验；其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略变量不断剔除出回归方程的过程，首先所有变量全部引入回归方程并检验，然后在回归系数显著性检验不显著的一个或多个变量中，剔除t检验值最小的变量。逐步筛选策略向前筛选与向后筛选策略的综合,22,多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1，表示多重共线性越弱。SPSS变量多重共线性的要求不很严格，只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数，越接近于1，表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10，说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值，则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10ki100时，认为多重共线性较强，ki100时，认为多重共线性很严重,23,24,（2）将因变量选入Dependent框（3）将一个或多个自变量选入Independengt（s）框（4）在Method框中选择回归分析中自变量的筛选策略。其中Enter表示所选变量强行进入回归方程，是SPSS默认策略，通常用在一元线性回归分析中；Remove表示从回归方程中剔除所选变量；Stepwise表示逐步筛选策略；Backward、Forward分别表示向后、向前筛选策略。,回归分析基本操作,25,（5）上述（3）、（4）中确定的自变量和筛选策略可放置在不同的Block中，单击“Next”和“Previous”按钮设置多组自变量和变量筛选策略，并放在不同Block中，SPSS将按照设置顺序依次进行分析。“Block”设置便于作各种探索性的回归分析。,回归分析基本操作,26,（6）选择一个变量作为条件变量到SelectionVariable框中，并单击“Rule”按钮给定一个判断条件。只有变量值满足给定条件的样本数据才参与线性回归分析。,回归分析基本操作,27,（7）在CaseLabels框中指定哪个变量作为数据样本点的标志变量，该变量的值将标在回归分析的输出图形中。（8）WLSWeight中选人权重变量，主要用于加权最小二乘法。至此便完成了线性回归分析的基本操作，SPSS将根据指定自动进行回归分析，并将结果输出到输出窗口中。,回归分析基本操作,28,回归分析的其他操作,选项,输出与回归系数相关的统计量，包括回归系数、回归系数标准误、标准化回归系数、回归系数显著性检验的t统计量和概率p值，个解释变量的容忍度。,每个非标准化回归系数的95%置信区间,输出各解释变量间的相关系数、协方差以及各回归系数的方差,29,输出判定系数、调整的判定系数、回归方程的标准误、回归方程显著性检验的方差分析表,每个解释变量进入方程后引起的判定系数的变化量和F值的变化量（偏F统计量）,输出个解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值,输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数和部分相关,回归分析的其他操作,选项,30,多重共线性分析：输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等,DW值,输出标准化残差绝对值大于等于3（默认）的样本数据的相关信息,回归分析的其他操作,选项,31,选项,标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差,标准化残差序列直方图,标准化残差序列正态分布累计概率图,依次绘制被解释变量与各解释变量的散点图,回归分析的其他操作,32,Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中，并可同时生成XML格式的文件，便于分析结果的网络发布。,回归分析的其他操作,33,Save选项,保存剔除第i个样本后各统计量的变化量,回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比,回归分析的其他操作,34,Options选项,设置多元线性回归分析中解释变量进入或剔除出回归方程的标准,偏F统计量的概率值,回归分析的其他操作,35,线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响，收集某年31个省市自治区部分高校有关社科研究方面的数据，并利用线性回归方法进行分析。这里，被解释变量为立项课题数X5，解释变量为投入人年数（X2）、投入高级职称的人年数（X3）、投入科研事业费（X4）、专著数（X6）、论文数（X7）、获奖数（X8）。具体操作如前所述。分析结果如下,36,37,38,39,40,41,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（一）,回归方程的拟合优度较高,42,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（二）,SSASSESST,被解释变量与解释变量的全体的线性关系显著,43,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（三）,偏回归系数检验只有x2的是显著的，其他均不显著，即与0无显著差异,各解释变量之间存在很强共线性,44,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（四）,由特征根的较大差异、条件指数以及方差比进一步证实了各解释变量之间存在严重的线性自相关。,45,线性回归分析的应用举例,立项课题数多元线性回归分析结果（向后筛选策略）（一）,由此可见，不能以一味追求高的拟合优度为目标，还要重点考察解释变量对被解释变量的贡献,46,线性回归分析的应用举例,立项课题数多元线性回归分析结果（向后筛选策略）（二）,SSASSESST,47,线性回归分析的应用举例,立项课题数多元线性回归分析结果（向后筛选策略）（三）,由此可清楚地看到变量剔除的过程,48,线性回归分析的应用举例,立项课题数多元线性回归分析结果（向后筛选策略）（四）,49,线性回归分析的应用举例,通过上述回归方程的分析以及各种检验，得出如下回归方程：立项课题数=-94.524+0.492投入人年数，意味着投入人年数每增加一个单位会使立项课题数平均增加0.492个单位。,50,曲线估计,51,变量间相关关系的分析中，变量之间的关系并不总是表现出线性关系，非线性关系也极为常见。非线性又可划分为：本质线性关系形式上虽然呈非线性，但可通过变量转换化为线性关系。本质非线性关系不仅形式上呈非线性，也无法通过变量转换化为线性关系。这里的曲线估计是解决本质线性关系问题的。,52,常见本质线性模型,53,在SPSS曲线估计中，首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型，然后，SPSS自动完成模型的参数估计，并输出回归方程显著性检验的F值和概率P值、判定系数R2等统计量；最后以判定系数为主要依据选择其中的最优模型，并进行预测分析。,54,基本操作：（1）选择菜单AnalyzeRegressionCurveEstimation。（2）选择被解释变量到Dependent框。（3）曲线估计中解释变量可以是相关因素变量，也可以是时间变量。如果解释变量为相关因素变量。则选择Variable选项，并指定一个解释变量到Independent框；如果选择Time参数表示解释变量为时间变量。（4）在Models中选择几种模型。（5）选择PlotModels选项绘制回归线；选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果。,55,曲线估计应用举例,为研究居民家庭教育支出和消费性支出之间的关系，收集到1990年至2002年全国人均消费性支出和教育支出的数据。,56,57,58,59,60,61,62,教育支出和年人均消费性支出的散点图,63,曲线估计应用举例,观察散点图发现两变量之间呈非线性关系，可尝试选择二次、三次曲线，复合函数、幂函数等模型。,64,65,66,曲线估计应用举例,观察散点图发现两变量之间呈非线性关系，可尝试选择二次、三次曲线，复合函数、幂函数等模型。,拟合优度比较,67,曲线估计应用举例,与实际不符,回归系数检验不通过,68,曲线估计应用举例,69,曲线估计应用举例,复合函数和幂函数的拟合优度都很好，同时两种模型的回归系数显著性检验也都通过，因此可考虑采用这两种模型。另外，由于复合函数数值增长速度高于幂函数，从居民消费未来趋势看，教育支出将可能占消费性支出的较大比例，并呈快速增长的趋势，而且复合函数拟合优度高于幂函数，因此可最终考虑采用复合函数。,70,曲线估计应用举例,71,Logistic回归分析（二维&多项）,72,引例：在许多实际问题中，会经常出现因变量是定性变量的情况。例如，某个人是否购买汽车，受到多种如家庭情况、收人情况等因素的影响，但最终的可能性只有两个，要么购买，要么不购买。把y1定义为购买，yo则表示不购买。再如，在是否购买某项商业保险的研究中，根据消费者的年龄、身体状况、收人情况、工作性质、受教育程度等，因变量y也只有两种可能结果：要么y=1表示购买，要么yo表示不购买。可见，在现实因变量的结果只取两种可能情况的应用很广泛。,73,可用于处理定性因变量的统计分析方法有：判别分析(D1scriminantanalysis)、Probit分析、logistic回归分析和对数线性模型等。在社会科学中，应用最多的是logistic回归分析，逻辑回归分析是对定性变量的回归分析。logistic回归分析根据因变量取值类别不同，又可以分为二元（Binarylogistic）回归分析和多项（Multinomianllogistic）回归分析。Binarylogistic回归模型中因变量只能取两个值1和o(虚拟因变量)，而Multinomianllogistic回归模型中因变量可以取多个值。,具体地说，logistic回归分析主要解决以下几方面的问题。通过分析大量的样本数据，确定变量之间的数学关系式对所确定的数学关系式的可信程度进行各种统计检验，并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式，根据一个或几个变量的值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确度。,74,Logistic函数的形式为Binarylogistic中通过Logit变换可得关于X（不同自变量）的线性关系因此，可得，,75,模型参数确定后，必须进行检验。下面解释一些常用的检验统计量。,12对数似然值(2loglikelihood，2LL),因为2LL近似服从卡方分布且在数学上更为方便，所以一2LL可用于检验Logistic回归的显著性.,2LL的计算公式为：,2拟合优度GoodnessofFit统计量,Logistic回归的拟合优度统计量计算公式为,76,4Nagelkerke的R2,5伪R2（Psedo-R-square）伪R2与线性回归模型的R2相似，其意义相似，但它小于1,6Hosmer和Lemeshow的拟合优度检验统计量,7Wald统计量,3cox和snell的R2,77,二项logistic回归应用：在一组独立变量上对二分从属变量进行回归利用前像/后向逐步方法或全部进入方法建模用偏差数对比、简单比较、差分（反Helmert）、Helmert、多项式、邻近类别比较、用户自定义、或指示预示变量选择建模标准：变量进入的评分统计量的概率值、Wald概率值、或者移除变量的对数似然比统计量保存统计量：预测概率和分组、残差、偏差值、Logit、标准化残差、杠杆值、类似Cooks的距离、差异通过XML导出模型,78,多项logistic回归模型,模型如下：,与二元逻辑回归一样，通过变换可得,79,多项logistic回归应用在一组自变量上对多于两种类别的分类因变量进行回归用CRITERIA子命令控制算法调整参数的值包含交互作用项自定义假设检验：使用TEST子命令直接把零假设指定为参数的线性组合用SCALE子命令指定离差偏离比例建立包含/不包含截距项的方程几率比的置信区间保存统计量：预测概率、预测响应类别、预测响应分类的概率和实际响应分类的概率指定因变量的参照类处理非常大的问题利用逐步方法从众多的可能的预测因子中选择最佳预测因子利用评分和Wald方法，使您在大数据集的情况下更迅速地得出研究结果利用AIC或者BIC准则(也称为SBC)评估模型拟合度,80,多项logistic回归：,二项logistic回归：,二项logistic回归与多项logistic回归的区别：,81,以下以二元logistic回归为例讲解logistic回归在spss中的实现：,实例：在一次关于某城乡居民上下班使用交通工具的社会调查中，因变量y=1表示居民主要乘坐公共汽车上下班，y=0表示主要骑自行车上下班，自变量x1表示被调查者的年龄，x2表示被调查者的月收入，x3表示被调查者的性别（x3=1为男性，x3=0为女性）。试建立y与自变量之间的logistic回归。数据如表所示。,82,实现步骤,【步骤1】把表中数据一一输入SPSS数据编辑窗口，在“Analyze”菜单的“Regression”子菜单中选择“BinaryLogistic”命令，进行逻辑回归分析。【步骤2】在弹出的“LogisticRegression”对话框中，从左侧的变量列表中选择y变量（居民上下班使用交通工具的情况），将至添加到“Dependent”框中，表示该变量时因变量。,选择X1变量（被调查者的年龄）、X2（被调查者的月收入）、X3（被调查者的性别），使它们分别进入“Independent（s）”框中，表示其为自变量。在Method框中选择SPSS默认的“Enter”方法，使所选变量全部进入回归方程，如图所示。,83,【步骤3】单击“LogisticRegression”对话框中的“Options”按钮，在弹出的“LogisticRegression：Options”对话框中按需要选择各选项，如图所示。,“Display”框用来选择输出计算结果的方式。Ateachstep：显示spss每个步骤的计算结果。Atlaststep：只显示最终计算结果。,84,“StatisticsandPlots”框中的选项用来选择输出哪些统计量或统计图表，具体选项如下。Classificationplots（分类图）：通过比较因变量的观测值和预测值之间关系，反映回归模型的拟合效果。Hosmer-Lemeshowgoodness-of-fit（H-L拟合优度检验统计量）：用以检验整个回归模型的拟合优度。Casewiselistingofresiduals（个案残差列表）：输出标准方差大于某值（Outliersoutside*std.Dev.）的个案或者全部个案（Allcases）的入选状态，因变量的观测值和预测值及其相应预测概率、残差值。Correlationsofestimates（估计参数的相关性）：输出模型中各估计参数间的相关矩阵。Iterationhistory（迭代历史）：输出参数估计迭代过程中的系数及对数似然值。CIforexp（B）(exp（B）的N%置信区间)：选中该选项将会在模型检验的输出结果中列出exp（B）（各回归系数指数函数值）的N%（缺省值为95%）置信区间，如果要改变缺省值，可以在空白方框内输入199（一般常用的值为90，95，99）之间的任何一个整数。,85,“ProbabilityforStepwise”框用来设定步长标准，以便逐步控制自变量进入方程或被剔除出方程：Entry：设置变量进入方程的标准值。如果变量的分数统计概率小于所设置进入方程的标准值，则该变量进入模型，SPSS默认的显著性水平为0.05Removal：设置变量被剔除方程的标准值。如果变量的分数统计概率大于所设置被剔除出方程的标准值，则将该变量剔除出方程，SPSS默认的显著性水平为0.10,Classificationcutoff选项用以确定个案分类的中止点。因变量预测值大于分类中止点的个案设归为正个案一类；因变量预测值小于分类中止点的个案设为负个案。SPSS设中止点缺省值为0.5，我们可以通过输入0.010.99之间任一数值改变缺省值，从而产生新的分类表。MaximumIterations选项用以确定最大对数似然值达到之前的迭代次数。最大对数似然值是通过反复迭代计算知道收敛为止而得到的。SPSS中该项的缺省值为20，我们可以重新输入一个新的正整数来改变此项的值。,86,【步骤四】单击“Continue”按钮，返回上一个对话框。然后，单击“OK”按钮，即可得到SPSS回归分析的结果。,“Includeconstantinmodel”选项用以确定所求模型的参数是否要包含常数项。为了更好地说明以上各选项的意义，本例选择了所有选项，但保留各选项中的缺省值。,87,结果与讨论总列表SPSS输出结果列表如图。,88,第二个表格说明初始的因变量值（0，1）已经转换为逻辑回归分析中常用的0、1数值。,SPSS输出结果文件如下。（1）第一部分输出结果有两个表格，第一个表格说明所有个案（28个）都被选入作为回归分析的个案。,结果与讨论,案例处理汇总,因变量编码：初始值内部值,89,（2）第二部分（Block0）输出结果有4个表格。第1个输出表格列出迭代过程。其中常数项包括在模型中，初始-2LL为38.673。迭代结束于第二步，因为此时参数与其在上一步的变化已经小于0.001。,第2个分类表说明Step0的拟合效果。可以看出对于y=0，有100%的准确性，对于y=1，有0%准确性，总共有53.6%的准确性。,此时参数估计的变化表现为对数似然值的变化,迭代历史记录,分类表,90,下面两个表格给出了模型系数的检验结果，其中常数项的系数值为-0.143，其伴随概率为0.706，可见常数项不显著。X1，X2，X3的系数通过了检验，即这两个变量显著。,各回归系数指数函数值,91,（3）OmnibusTestofModelCoefficients表格列出了模型系数的OmnibusTests结果。,（4）ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。,模型系数的综合检验,模型汇总,cox和snell的R2是在似然值基础上模仿线性回归模型的R2解释Logistic回归模型，一般小于1.,为了对cox和snell的R2进一步调整，使得取值范围在01之间，Nagelkerke把cox和snell的R2除以它的最大值，即Nagelkerke的R2,92,（5）HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量。,HosmerandLemeshow检验,HosmerandLemeshow检验的随机性表,与一般拟合优度检验不同，Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组，然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量，简称HL拟合优度检验统计量)，最后根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验。如果该P值小于给定的显著性水平(如0.05)，表明模型的预测值与观测值存在显著差异。如果P值大于给定的显著性水平，表明在可接受的水平上模型的估计拟合了数据。,大于0.05，表明拟合了数据,93,（6）ClassificationTable分类表说明第一次迭代结果的拟合效果，从该表格可以看出对于y=0，有86.7%的准确性；对于y=1，有76.9%准确性，因此对于所有个案总共有82.1%的准确性。,分类表,正确分类比例,预测值,观测值,94,（7）VariablesintheEquation表格列出了Step1中各个变量对应的系数，以及该变量对应的Wald统计量和它对应的相伴概率。从该表格中可以看出X3相伴概率最小，Wald统计量最大，可见该标量在模型中很重要。,wald统计量用于判断个变量是否应该包含在模型中。SPSS软件没有给出Logisticc回归的标准化回归系数，因此，如果要考虑每个自变量在回归方程中的重要性，不妨直接比较Wald统计量的大小(或sig)，Wald统计量大者(或sig值小者)显著性高，也就更重要。,95,（8）CorrelationMatrix表格列出了常数Constant、系数之间的相关矩阵。常数与X2之间相关性最大，X1和X3之间的相关性最小。,相关矩阵,96,（9）下图所示是观测值和预测概率分布图。该图以0和1为符号，每四个符号代表一个个案。横坐标是个案属于1的隶属度，这里称为预测概率（PredictedProbability）。纵坐标是个案分布频数，反映个案的分布。,如果逻辑回归预测完全准确，那么该坐标图中预测概率是00.5之间的个案都应该是0，0.51之间的个案都应该是1.该例生成的图基本上符合这个效果。不正确的结果包括：预测概率是00.5之间的个案中有3个实际的观测值为1，0.51之间的个案观测值有2个为0，这是错误预测的结果。,观测值和预测概率分布图,97,（10）逻辑回归的最后一个输出表格式CasewiseList，列出了残差大于2的个案。本例中列出了两个符合条件的个案，分别是第10个案和第19个案。这两个个案都有*，表明这两个个案的逻辑回归结果是错误的。,案例列表,残差、标准化残差,98,概率单位回归分析（Probit）,99,概率单位回归分析（Probit）,概率单位回归分析简介概率单位回归分析可以度量刺激的强度和反应的比例之间的关系。当因变量的变化能改变成者影响二维结果时，概率单位回归分析显得较为有用。概率单位回归可以让用户估计为达到某一比例的反应所需要的刺激强度。使用概率单位回归分析所得到的统计量有相关系数、标准差、Pearsonchi-square吻合度、置信区间等等,100,101,102,概率单位回归分析的步骤1、在数据输入之后，依次单击AnalyzeRegressionProbit，打开ProbitAnalysis对话框。2、在左边的源变量框内选择响应变量进入“ResponseFrequency”栏内3、在左边的源变量框内选择总的观测变量进入“TotalObserved”栏内。4、在左边的源变量框内选择因素变量进入“Factor”栏内。在选择此项后，会激活“DefineRange”按钮。单击“DefineRange”按钮，打开DefineRange对话框，在对话框内设置分组的最大值和最小值。5、在左边的源变量框内选择协变量进入“Covariate(s)”栏内。6、在“Model”栏内设置分析方式。7、单击“Option”按钮，会打开Option对话框.8、单击”OK”按钮，即开始进行统计分析过程。,103,例：我们可以使用概率单位分析来分析杀虫利的浓度和蟑螂死亡的比例之间的关系。用户可以进行这样一个实验，将不同浓度的杀虫剂分别使用到一些独立的样本蟑螂群，随后记录下不同浓度的杀虫剂所杀死的蟑螂比例。然后对这些数据采用概率单位回归分析，用户可以发现杀虫剂浓度和杀死蟑螂比例之间的关系。这样用户就可以确定出要杀死至少某比例的蟑螂所需要的最佳杀虫剂浓度。,104,例题解析,1、在数据输入之后，依次单击AnalyzeRegressionProbit，打开ProbitAnalysis对话框。,响应变量,总观测变量,因素变量,协变量,105,（2）在源变量框内选择变量“杀死数目”进入“ResponseFrequency”栏内。（3）在源变量框内选择变量“蟑螂数”进入“TotalObserved”栏内。（4）在源变量框内选择变量“剂量”进入“Covariate”栏内。还选择Logbase10选项，进行以10为底的对数转换。,106,（5）单击“Options”按钮，会打开Options对话框，在对话框内选择Calculatefromdata选项。其他设置按系统默认状态即可。（6）单击“OK”按钮，进行统计分析。,对每一个观测计算实际的和期望的频率、实际的和期望的残差,对每一分组水平计算相对中位数，并对每一相对中位数计算置信区间,进行各分组是否有相同斜率的假设检验,计算置信区间,使用样本数据计算自然响应率,107,非线性回归分析,108,非线性回归分析,非线性回归分析简介非线性回归是发现因变量和自变量之间的非线性关系的一种方法。非线性回归能够在因变量和自变量之间构造任意的模型，它不像线性模型那样有众多的假设条件。这个过程是通过迭代估测运算来完成的，因此如果已经了解待估方程中的参数取值范围，但是方程式不能写成简单的函数关系式时，建议使用非线性回归分析。例如：健康研究问题中，财政赤字对寿命的影响；社会科学研究中，人口增长与时间的关系；生物学与生理学研究中，有关动物骨骼成长与时间和营养的关系等，都是非线性关系。,109,常用的非线性回归模型,110,111,112,113,非线性回归分析的步骤1、在数据输入之后，依次单击AnalyzeRegressionNonlinear，打开NonlinearRegression对话框。2、在左边源变量框内选择因变量进入“Dependent”栏内。3、在“ModelExpression”栏内为因变量设置一个模型方程式。4、单击“Parameter”按钮，打开对话框设置参数值。5、单击“Loss”按钮，打开LossFunction对话框设置损失函数。6、单击“Constraints”按钮，会打开ParameterConstraints对话框，在此对话框内设置对参数的一些限制。7、单击“Save”按钮，会打开Save对话框。8、单击“Options”按钮，会打开Option对话框。9、单击“OK”按钮，开始进行统计分析过程。,114,问题描述和数据准备研究零售商的广告费用支出与产品的销售量之间的关系，目的是用Nonlinear过程拟合更合适的销售量随广告费用变化的模型。,115,1、对数据的初步分析依次单击“GraphsChartBuilder”打开图形构建器界面。,116,下图所示是销售量对广告费用的散点图，通过观察，建议对此数据采用如下的非线性模型（称为Mistcherlich模型）：y=b1+b2eb3x,b10,b20,b30,此模型符合效益递减规律。,117,118,非线性回归的参数设置依次单击AnalyzeRegressionNonlinear，打开NonlinearRegression对话框。,119,单击参数列表上方的Parameters按钮，弹出下图所示参数设置对话框。,120,单击Loss按钮，弹出下图所示的损失函数设置对话框，单击Continue按钮返回主界面。,121,单击Constraints按钮，弹出如下对话框，用于设置估计参数的取值范围。,122,单击Options按钮，弹出如下对话框，在此设置回归算法的相关参数。默认使用Sequentialquadraticprogramming方法，单击Continue按钮返回主界面。,123,单击Save按钮，弹出如下对话框，勾选Predictedvalues复选框和Residuals复选框；单击Continue按钮返回主界面。,124,权重估计（WeightEstimation）,125,权重估计（WeightEstimation）,标准线性回归模型假定残差序列应该是等方差的，但是由于某些客观特征的存在，异方差的现象也常常存在。如果出现异方差的现象，可以用权重估计法（即加权最小二乘法）来替代普通最小二乘法来进行回归分析。权重估计法的实质是在回归计算过程中给不同的观测值以不同的权数，变差小的观测值给予较大的权数，变差大的观测值给予较小的权数。权重估计的关键就是确定加权变量的权数值。SPSS中给定一个加权范围，然后根据似然值越大越好的原则，给出一个最佳的权数建议值，并据此利用加权最小二乘法建立回归方程。,126,对数据的要求和假设：1.自变量和因变量必须是数值型变量2.权重变量应为数值型变量，并与因变量的变异性相关；3.对于自变量的每个值，因变量的分布必须是正态的。因变量和每个自变量之间的关系应是线性的，且所有观察值应是独立的4.因变量的方差对于自变量的不同级别可能不同，但是必须能够根据权重变量预测此差异。,127,引例：某建筑商考虑开发兴建商场，构建建筑成本预测线性模型。主要因素包括面积，建设建议是室内还是室外广场，以及建筑师的经验。开发人员知道，随着商场面积大小的增加，建筑成本会随之增加。他们怀疑这样建筑成本会更多变，也就是说不能准确的预测建筑成本。这将违反典型的线性回归的假设，但可能满足权重估计模型。,128,权重估计步骤:1.方差诊断先利用最小二乘法对原始数据建立简单线形模型，并绘制其残差对预测值的散点图，如果残差均匀分布在某条与横轴平行的横线附近，说明样本的方差基本相等；反之，如果方差呈现明显的喇叭状或其他不规则形状，说明样本方差不相等，必须进行加权最小二乘法(WLS)估计。如果只有一个自变量，可以直接作因变量对自变量的散点图，观察因变量的分布是否均匀，判断方法与残差图相似。2.权重估计如果认为因变量的方差与其他变量之间存在相关关系，就可以使用(WLS)方法进行估计权重。,129,操作步骤,一、初步残差分析（使用最小二乘法OLS回归）1、依次单击菜单AnalyzeRegressionLinear进行线性回归分析设定因变量和自变量2、设置因变量和自变量,3、点击Plot键设置散点图坐标参数4、点击Save键保存,二、权重估计1依次单击菜单AnalyzeRegressionWeightEstimation执行加权回归分析的功能2.变量设置（因变量、自变量、加权变量）,3.选项设置Options,130,131,132,133,134,因变量*标准化预测值*标准化残差*剔除残差*修正后预测值*学生化残差*学生化剔除残差,135,136,137,138,139,140,141,142,143,144,145,146,147,148,设置权重指数的初始值、结束值和变化步长权重指数范围必须在-6.57.5之间，并且满足（初始值结束值）/步长=150此时权重变量为1/（WeightVar)power,149,将最佳权重值保存至当前数据集,方差和估计值的输出形式只输出最终的方差分析表和指数估计值输出在主设置面板指定的指数范围内所有的方差分析表和指数估计值,150,151,对数似然估计值该表给出了指定power范围内所有对数似然值，使得这个对数似然值最大的指数就是最佳指数,模型描述该表给出了加权估计模型的概要信息，包括因变量、自变量、权重变量和最优权重系数（同左图所标）,152,模型摘要给出最佳指数建立的加权回归模型的拟合优度检验结果。可以看出R2是0.745，比之前普通线性回归的0.662要大，即权重估计建立的回归模型拟合优度效果更好,方差分析表该表是在权重系数为0.35时建立的加权回归模型的方差分析表。可以看出F统计量的sig值远小于0.05，也就是说由加权回国模型解释的变异显著的大于由残差解释的变异，即回归效果更好。,参数估计结果该表是在权重系数为0.35时建立的加权回归模型的参数估计值表。同时可以看出各变量通过t检验sig0.05，也就是说各变量对模型的建立都有显著的作用。最终得到的回归方程为cost=53.438+149.273sqft-26.533inorout-2.209yrexp。,153,二阶最小二乘回归2-StageLeastSquares（2SLS）,154,二阶最小二乘回归2-StageLeastSquares（2SLS）,在研究有关时间序列的宏观经济数据时，各分析变量之间存在着复杂的内部关系，误差项就比较容易与某些预测变量相关，这种情况下使用普通最小二乘法所得到的模型会有偏差，因此使用二阶最小二乘法建立模型。SPSS的两阶最小二乘法回归过程：第一阶段，使用与误差项无关的工具变量（instrumentalVariables）计算可能与误差项存在关联的自变量的估计值。第二阶段，把出现在结构方程右端的内生变量用第一阶段得到的估计值代替，使其由随机变量变成确定变量，再对方程进行最小二乘法估计，得到结构参数的估计值。,155,二阶最小二乘回归常使用的变量：1、内生变量。在回归分析中随着其他变量的变化而变化的变量和在有反馈作用的情况下具有反馈关系的变量都是内生变量。2、工具变量。在回归模型中不受其他变量影响，但是影响其他变量的变量，与模型中的其他变量不存在因果关系，与理论误差项不相关。如果模型中没有合适的工具变量，具有“滞后”特点的内生变量也可以被当做工具变量来使用，虽然其具有“滞后”的特点，但是却可能与误差项没有关联。3、解释变量。指回归方程中的自变量，其范围包括内生变量。,二阶最小二乘回归过程对数据的要求：1、因变量和自变量必须是数值型变量，对自变量的每个取值，相应因变量的取值分布必须是正态的。因变量和自变量之间应该呈线性关系。2、对于自变量的不同取值，因变量的方差应该是一个常数。3、分类变量必须被重新编码成二分变量或其他类型的对照变量。4、内生变量必须为连续性变量。,156,例:某商品邮寄公司由一个CD俱乐部和一个书籍俱乐部，每个月公司都会为俱乐部会员提供一份特殊的商品（如家庭用具和普通用具）。此公司想根据会员的书籍购买量、CD购买量和味会员提供的服务种类预测他在每个月的特殊商品购买量。用于购买特殊商品的钱就不能购买书籍和CD，于是因变量（特殊商品购买量）与解释变量（CD购买量、书籍购买量）就构成了一种反馈的关联状态，适于建立2SLS回归模型进行分析。,此数据记录了99个月里，会员在每个月购买商品的消费情况。由于给出的折扣数据与特殊商品的购买是无关的，却影响着CD和书籍的购买量，因此建议把CD购买量的滞后变量、数据购买量的滞后变量和两个折扣对数变量都作为工具变量。,157,二、依次单击菜单AnalyzeRegression2-StageLeastSquares执行二阶最小二乘回归分析功能。1、在变量列表中选择特殊商品购买量作为因变量，CD购买量、书籍购买量、家庭用具商品、普通商品购买量作为解释变量，变量列表中所标变量作为工具变量,操作步骤,一、依次单击菜单TransformCreateTimeSeries执行生成时间序列变量的过程,2、单击Option按钮，弹出选项设置对话框。勾选Predicted，单击Continue3、回到主页面勾选OK键，显示处理结果。,1、在变量列表中选中CD购买量（buycd）和书籍购买量（buybk），将其选入New列表框。2、在New列表框中选中buycd_1，单击Function下拉列表，选中Lag选项，单击Chang按钮确认修改。同样方法设置buybk_1变量3、单击OK按钮运行，在当前数据集产生两个新的变量：CD购买量和书籍购买量的1期滞后变量buycd_1和buybk_1,158,159,160,161,162,163,滞后阶数,164,165,166,167,168,169,170,模型中包括常数项,171,保存到当前数据集的新变量保存预测值保存残差,输出参数估计的协方差,172,173,模型概述（给出模型使用变量的相关信息）“预测值”变量将用“工具”变量进行预测并用这些预测值取代原来的观测值进行回归模型估计“预测值和工具”变量既要用他们预测“预测值”的变量值，也要用他们的原始观测值进行回归模型估计“工具”变量只用他们预测“预测值”变量的变量值，而不用于最终的回归方程估计。,因变量,预测值,预测值和工具,工具,模型汇总复相关系数测量的是因变量和预测值之间的相关性，值越小说明相关性越差R2是复相关系数的平方，表示当前模型解释了因变量差异的14.7%调整R2用来比较不同模型的拟合度，愈大说明模型拟合度越好估计的标准误差是在模型基础上估计特殊商品购买量的标准误差，可以将这个值与特殊商品购买量的标准差相比较，看看模型是如何减少下月销售量最好预测的不确定性,174,方差分析表（从统计角度，分析模型的认受度）方差分析表可以判断模型解释因变量的能力，但是不能直接讨论这种关系的强度本例中回归平方和比残差平方和小很多，说明模型只解释了因变量变异的一小部分，而大部分的变异没有解释到F检验的Sig值小于0.05，说明模型所解释的那部分变异并不是随机的。,参数估计值由系数估计值得到回归方程：buyoff=-1.511+0.353buycd+0.189buybk+0.130offer_type1+0.303offer_type2.但是其中变量buybk和offer_type1的系数显著性检验的Sig值大于0.05，说明这两个变量对模型的贡献率不高，还有必要做进一步的分析和探讨,175,最优尺度回归OptimalScaling（CATREG）,176,最优尺度回归OptimalScaling（CATREG）,实际工作中常遇到有序而非数值型的数据（例如高兴、一般、不高兴；高中毕业、大本毕业、硕士研究生毕）。这种数据呈现典型的分位数或是分类特点，多数情况下，这种数据的度量起点很难确认，各取值之间的可比关系也比较模糊，虽然可以将其取值水平进行重新编码，但是他们相互之间的真实距离仍然不明确。普通的回归方法是可以用来预测分类变量，并且能够估计不同类别之间的相关性。但是前提是对分类变量进行适当的编码处理，因此，不同的编码方案可能会产生不同的结果，会对变量的分析产生障碍。最优尺度（OptimalScaling）回归方法能够自动将分类变量转化成为数值变量进行分析，其常用缩写为CATREG（CategoryRegression），即分类回归。,177,最优尺度回归原理,最优尺度回归分析是标准的回归方法的扩展，它按比例换算名义变量、有序变量以及数值型变量，使用定量化的方法尽量反应各源变量的属性，并利用非线性转化求解最佳回归方程。最优尺度回归使用连续的整数对名义变量或者序变量量进行编码；使用数值1作为每一个分类变量的的起始点。如果变量本身已经是数值型数据，则不再对它们进行重新编码，为了减少输出量，每个分类变量的每一个值最好减去一个最小的观测值，再加1然后取整。最优尺度回归只允许设置一个因变量，最多可以设置200个自变量。数据中至少包含三有效的观测记录，并且有效观测量的数量必须超过自变量的数量加1。在分析过程中如果没有名义变量用来进行分析，应进行数值的事先设置,178,例：,某吸尘器生产商调查影响消费者偏好的5个因素。包括包装设计（A*、B*、C*）、商标名称（K2R、Glory和Bissell）、价格、是否经过验证（是和否）和退款保证（是和否）。指定五个因素取值的22种组合，对应了22中类型的产品，请消费者对这22种产品进行偏好排序，序号越小说明越喜欢。把产品每次被排序的序号作为分数，以一个偏好变量（pref）记每种产品的平均分。生产商希望通过这些数据分析某类型吸尘器的市场前景。,179,操作步骤：,依次单击菜单AnalyzeRegressionOptimalScaling执行最优尺度回归分析过程一、变量设置,1、偏好（pref）变量设为因变量，从包装设计到退款保证的5个变量设为自变量。2、单击选中因变量对话框的pref变量，然后再单击DefineScale按钮，设置变量的最优尺度,二、缺失值设置,1、单击主对话框中的Missing按钮，弹出缺失值设置对话框2、AnalysisVariables列表中显示当前分析使用的变量，括号里说明缺失值的处理方法，如果需要修改，首先单击选中该变量，然后在Strategy栏中选择缺失值的处理方法，单击Change按钮确定更改。单击Continue按钮返回主对话框,180,三、Option选项设置,单击主对话框中的Option按钮，弹出选项设置对话框，对分析过程的多个参数进行设置。单击Continue按钮返回主对话框,四、变量编码设置,单击主对话框中的Discretization按钮，弹出变量编码设置对话框，在这里设置对变量进行离散化的编码方式，单击Continue按钮返回主对话框。,五、输出设置,1、单击主对话框中的Output按钮，弹出输出设置对话框，选择分析过程的输出选项，2、勾选Correlationsoforiginalvariables复选框和Correlationsoftransformedvariables复选框，单击取消选中ANOVA复选框，单击Continue按钮返回主对话框。,181,六、保存设置,1、单击主对话框中的Save按钮，弹出保存设置对话框，选择需要保存的信息。2、勾选Saveresiduals复选框和Savetransformed复选框，单击Continue按钮返回主对话框。,七、图形设置,1、单击主对话框中的Plots按钮，弹出图形设置对话框，选择需要输出图形的种类。2、在变量中选中package和pr

展开阅读全文