市场营销调研(第二版)14相关分析和回归分析课件

上传人:文**** 文档编号:242002434 上传时间:2024-08-09 格式:PPT 页数:49 大小:1.08MB
返回 下载 相关 举报
市场营销调研(第二版)14相关分析和回归分析课件_第1页
第1页 / 共49页
市场营销调研(第二版)14相关分析和回归分析课件_第2页
第2页 / 共49页
市场营销调研(第二版)14相关分析和回归分析课件_第3页
第3页 / 共49页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,普通高等教育“十一五”国家级规划教材,面向,21,世纪高等学校市场营销专业主干课教材,景奉杰、曾伏娥主编 市场营销调研(第,2,版),高等教育出版社,,2010,年,1,月,普通高等教育“十一五”国家级规划教材,面向,21,世纪高等学校市场营销专业主干课教材,市场营销调研(第,2,版),高等教育出版社,,2010,年,1,月,市场营销调研,高等教育出版社 景奉杰,普通高等教育“十一五”国家级规划教材,面向,21,世纪高等学校市场营销专业主干课教材,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,14,章,相关分析和回归分析,教学目标:,1.,了解散点图和相关系数的概念,2.,了解等级相关的概念,3.,描述简单线性回归模型,4.,描述多元回归分析模型,5.,了解使用回归分析时应注意的问题,2024/8/9,1,第14章 相关分析和回归分析教学目标:2023/8/211,1,第,14,章 相关分析和回归分析,了解散点图和相关系数的概念,了解等级相关的概念,描述简单线性回归模型,描述多元回归分析模型,了解使用回归分析时应注意的问题,2024/8/9,2,第14章 相关分析和回归分析了解散点图和相关系数的概念202,2,2024/8/9,3,开篇案例:数据挖掘在定类变量相关性分析中的应用,数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。,相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有着广泛的应用。,数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。,在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。,2023/8/213开篇案例:数据挖掘在定类变量相关性分析中,3,于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。,该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。,统计软件,SPSS,没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,,2,个变量就需要分析,2,次、,3,个变量之间的关系就需要分析,6,次,,4,个变量则需要分析,12,次才能得出哪两个变量之间的相关性最强。,2024/8/9,4,2023/8/214,4,在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分析是使用一种支持度的概念来支持某件商品值不值得分析。,比如假设商品,A,共出现,N,(,A,)次、同时商品,B,共出现,N,(,B,)次,对于,N,(,A and B,)是用来表示,A,和,B,两种物品同时出现的次数,那么,A,和,B,的支持度即为:,N,(,A and B,),/MIN,(,N,(,A,),,N,(,B,),这样一种支持度的优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。,2024/8/9,5,2023/8/215,5,相关分析和回归分析概述,相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。,两者还是存在一些差异。,发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。,回归分析则希望明确建立一个方程关系式,借助一个或多个变量,(,自变量,),来推测另一个变量,(,因变量,),的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要通过实验加以确定和限制。,2024/8/9,6,相关分析和回归分析概述相关分析和回归分析都是用于研究变量之间,6,市场营销调研(第二版)14相关分析和回归分析课件,7,市场营销调研(第二版)14相关分析和回归分析课件,8,2024/8/9,9,y,0,x,正相关,y,0,x,负相关,y,0,x,不相关,y,0,x,曲线相关,2023/8/219y0 x正相关y0 x负相关y0 x不相关y0,9,2024/8/9,10,相关系数,现假定观测到,n,个变量,x,,,y,的组合值,分别为(,x1,y1,)(,x2,y2,),(,xn,yn,)。,容易得到,x,,,y,的平均数 ,。,如果把坐标移到(,),则新坐标为:。,在新坐标的第一、第三象限里,,xy,的乘积为,正值;在第二、第四象限晨,它们的乘积,xy,均为负值。,当,x,、,y,为正相关时,也就是绝大多数点落于,一、三象限时,为正;,若,x,y,为负相关,即绝大多数点落于二、四象,限时,为负;,若,x,、,y,对应的点散布于四个象限,则上值接近于,0,。,(,),2023/8/2110相关系数 现假定观测到n个变量x,y的,10,2024/8/9,11,相关系数,变量的相关可以用 来表示。,-,变量,x,的标准差;,-,变量,y,的标准差,;,r,-,变量的相关系数,2023/8/2111相关系数变量的相关可以用,11,2024/8/9,12,相关系数,为了简化公式,,r,的公式还了演变为:,r,的值在,-1,和,1,之间变化。,r=1,完全正相关,0,r,1,正相关,r=0,不相关,-1r0,负相关,r=-1,完全负相关,相关系数表,2023/8/2112相关系数为了简化公式,r的公式还了演变,12,2024/8/9,13,等级相关,无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;,有时候即使是精密的数据,也采用等级来测定它们之间的相互关系,其关系紧密程度的衡量指标就叫等级相关系数。,在这些等级相关系数中,以司庇而曼,(C,Spearman),的等级相关运用最为普遍。其公式为:,其中,,di,:各对数据的等级差异;,n,:样本的数据总数。,2023/8/2113等级相关 无法用精密数量确定事物大小,,13,2024/8/9,14,司庇而曼相关系数是针对两个序数变量的;,其中每个变量的数据已按一定标准划分成,1,至,n,个等级;,如果,d2i,的和为,0,,那么,rs=1,。也就是说,此时两个变量的等级是等价的;,rs,值由,+1(,完全正相关,),变化到一,1(,完全负相关,),,其中若,rs=O,意味着彼此不相关。,2023/8/2114司庇而曼相关系数是针对两个序数变量的;,14,2024/8/9,15,样本相关系数的分布和测验,在假定两变量,(x,y),的组合总体适合于正态分布,(,三度空间的立体正态曲面,),的条件下,,z,与,y,的相关系数,r,的抽样分布是随着两个因素,样本单位数,n,与总体相关系数,p,的不同而变化着。,不过总的说来,,r,分布的形态是属于各种各样的。,如把总体相关系数,p,分成三类:,p=0,,,p=0.50,以及,p=0.90,,在不同的,n,条下,,r,的分布形态见下图。,2023/8/2115样本相关系数的分布和测验 在假定两变量,15,2024/8/9,16,2023/8/2116,16,2024/8/9,17,样本相关系数的分布和测验,由于,r,分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计学家埃,爱,费煦为了补救这种复杂计算的缺陷,用变量,E,代替,r,,替代公式为:,其中,ln,表示以,e,为底的自然对数,对,E,的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了,r,与,E,间的变换表格,所以计算就大大地简化了。,2023/8/2117样本相关系数的分布和测验由于r分布的偏,17,2024/8/9,18,相关系数,r,的虚无假设的测验以及可信任界限的计算举例,样本为,35,对数据时,求出,r,为,0.80,,试用,5,的显著标准来作出总体相关系数,p=0.90,的虚无假设测验。先假定以虚无假设出发,,r=0.80,可能从总体,p=0.90,中抽出,如果概率超过,5,,就接受这个假设,否则,就推翻这个假设。,从附表我们查出,,r=0.80,时,,z=1.099,,并从同一附表中,找出,P=0.90,时,,mz=1.472,,我们知道:,2023/8/2118相关系数r的虚无假设的测验以及可信任界,18,2024/8/9,19,由,t,分布近似于正态分布,可以利用正态分布。,可以利用正态面积表求出在,t=,一,2.11,左边的概率面积是:,A=0.0174,;,由于这是两侧测验,所以概率是,p=2*(0.0174)=0.0348,,这是小于,5,的显著水准,所以,拒绝这个假设,也就是,r=0.80,不可能从总体相关系数,p=O.90,的总体中抽取出来的,也可以说,,P=0.90,与,r=0.80,是有显著差异的。,2023/8/2119由t分布近似于正态分布,可以利用正态分,19,2024/8/9,20,简单回归分析,回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。,如果这个模型是线性的就称为线性回归分析。,线性回归中最简单的就是两个变量,或者称为简单线性回归。,2023/8/2120简单回归分析 回归分析:在由一个或一组,20,2024/8/9,21,在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:,第,f,个地区的销售额水平;,第,f,个地区的电视广告时数;,与第,i,个观察值相关的误差。,误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。,可能性模型在给定 、值情况下,,yi,与,xi,不是一一对应的关系;所能确定的只是某种情况下,yi,分布的平均值,而真实值则围绕自己分布的平均值上下波动。,2023/8/2121在对社会现象进行调查时,不可能存在等于,21,2024/8/9,22,最小二乘法,我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。,最常见的方法是最小二乘法,而该方法又是以随机误差符合一定假设为前提的,这些假设条件具体如下:,的均值或期望值为,0,;,的方差是一个常数而且的方差与各个自变量无关;,彼此之间是相互独立的;,彼此之间是相互独立的。,2023/8/2122最小二乘法我们最终确定的回归方程是一种,22,2024/8/9,23,回归方程求出的理论估计值记为 。,与真实值,yi,存在离差,记为:,最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,即 最小。,,为从样本估出的方程系数值。,,为总体系数值。,2023/8/2123回归方程求出的理论估计值记为,23,2024/8/9,24,结果,其中,2023/8/2124结果其中,24,估计标准差,对右图观察发现,尽管直线拟合数据合得很好,但仍在若干点对于直线的偏离;,这些偏差的大小代表了回归方程直线拟合的优劣,成为判断方程好坏的一个指标,。,2024/8/9,25,y,x,1,估计标准差对右图观察发现,尽管直线拟合数据合得很好,但仍在若,25,2024/8/9,26,直线 是对于真实回归方程 的一种估计。,假设绕直线上下波动的随机变量 的方差为 或 ,在总体离差 不知道的情况下,通过样本可得推出其的一个无偏估计。,类似的,用 作为 的无偏估计,则公式如下:,2023/8/2126直线,26,2024/8/9,27,有关斜率系数的分析,斜率系数 值是否源于偶然性,是否具有意义,需要对其进行显著性检验。,经过论证如果 为正态分布,那 也同样呈正态分布。,其中 的方差满足公式:,因为总体方差 并不知晓,同样为未知数并要求做最佳估计,则可用样本来代替。,2023/8/2127有关斜率系数的分析 斜率系数,27,2024/8/9,28,在变量为正态分布、总体参数未知的情况下,通常用,t-,来检验样本参数的显著性。,现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性关系。即:,统计检验为 ,其中的自由度个数为,n,一,2,。,2023/8/2128在变量为正态分布、总体参数未知的情况下,28,2024/8/9,29,对,y,值的预测,如果所求出的回归方程并非为偶然联系,那么我们就可以利用它来对给定,x,下的,y,进行预测。,2023/8/2129对y值的预测如果所求出的回归方程并非为,29,2024/8/9,30,相关系数,在回归分析中,除了已介绍的相关系数,更常用的是相关系数的另外一种形式,可决系数,r2,,相关系数的平方。,一般进行的市场调研由于经费、时间等因素的影响,往往只是抽样调查,而非涉及全面的普查。这就涉及到由样本结果推断总体结论的准确度的问题。,可决系数不区分自变量和因变量,我们对于研究变量最好的估计是它的均值。,2023/8/2130相关系数在回归分析中,除了已介绍的相关,30,2024/8/9,31,可决系数一般与回归分析联合使用,用以解释回归方程在多大程度上说明因变量的差异,即:,2023/8/2131可决系数一般与回归分析联合使用,用以解,31,2024/8/9,32,对,r,的显著性作假设检验,假设,p,表示相应未知的总体相关系数,我们计算以下的,t,一统计量:,r,的标准误差为:,因此,对零假设,p=0,的检验统计量简化为:该统计量服从自由度为,n-2,的,t,分布。,2023/8/2132对r的显著性作假设检验 假设p表示相应,32,2024/8/9,33,多元回归分析,回归模型和回归方程,复相关与偏相关,整体解释力的统计显著性,虚拟变量,曲线相关,使用回归分析需要注意的事项,2023/8/2133多元回归分析 回归模型和回归方程,33,2024/8/9,34,回归模型和回归方程,描述应变量,y,如何依赖于自变量,x1,x2,,,,,xn,和误差项的方程称为,回归模型,;,在多元回归模型中参数含义与简单回归模型中的有一些不同。,以二元回归模型为例:,为 的简化。,小数点左边的二位数字为直接关系的变量。第一位代表因变量,第二位表示该系数所代表的自变量;小数右边的是表示不变的变量,称为次级变量。当然随着自变量的增多,小数点右边的数字可以到,k-1,个(,k,为自变量个数)。,2023/8/2134回归模型和回归方程 描述应变量y如何依,34,2024/8/9,35,例如,系数 (简化为 )的意义如下:在所有其他解释变量(如,X2,)保持不系时,,x1,每变动一个单位所导致的,y,的相应变化。,通过这种方法,我们能够把每个解释变量对,y,的影响分离出来,不受其他解释变量的干扰和影响。所以,和 的值称为局部回归系数。,2023/8/2135例如,系数 (简化为 ),35,2024/8/9,36,复相关与偏相关,n,个变量影响一个变量的相关称为复相关,求出的系数,称为复相关系数。,当两个独立变量,z1,、,z2,影响一个因变量时,,相关系数的计算式是:,Ry.12,即为复相关系数,(multiple correlation coefficient),,为复关可决系数。,2023/8/2136复相关与偏相关 n个变量影响一个变量的,36,2024/8/9,37,复相关与偏相关,所谓偏相关,(partial correlation),是在测定,n,个独立变量对一个因变量的响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数,(net correlation coefficient,),。,不能解释的部分可以用估计标准离差 来表示,总差异可以用因变量,y,的方差来说明,即:。,2023/8/2137复相关与偏相关所谓偏相关(partia,37,2024/8/9,38,于是,:,公式中的最后一项表明,在考虑了自变量,x,影响时,因变量,y,中仍然不能被说明的变化差异与,y,变动的绝对变化差异之间的比值。,这个比值度量着这两个变量之间的关联度在多大程度上可用于解释因变量,y,。,2023/8/2138于是:,38,2024/8/9,39,整体解释力的统计显著性,F,统计量:被解释的变化与未被解释的变化之比。,解释变量的方差 可以被分解为两部分,部分通过回归值 来解释。一部分通过残差,来解释。,被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度,(,分别是,n-k-1),。,2023/8/2139整体解释力的统计显著性F统计量:被解,39,2024/8/9,40,(,一,)F,检验,F,检验的统计显著性检验程序:,事先说明假设检验;,把计算好的,F,一统计值与临界值相比,临界值取自在一给定概率水平下,F,一概率分布的,F,一统计表。,假设可以表述为:,如果我们拒绝,H0,,我们就可以断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看是显著的。,在只有一个解释变量时的简单回归分析的情形下,整体解释力的,F,一检验必然相当于单个回归系数 的,t-,检验。这时,可以看到,,F=tl,。,2023/8/2140(一)F检验F检验的统计显著性检验,40,(,二,)F,一统计表和,F,一分布,F,一分布的形状如右图。,该分布是不对称的;,F,值不可能为负。,分布的实际形状取决于与,F,一统计量的表达式相应的分子和分母的自由度,(,分别是,K,和,n-k-1),。,F,一统计表中概率值,(a),有,0.05,和,0.01,两种,对应于相应的自由度,分子和分母分别用,v1,和,V2,表示,从,1,到。,如:可以查到,在,V1=9,和,V2=12,时,,F,一统计量的临界值,(,用,Fa,表示,),在,0.05,的显著水平下等于,2.80,,在,0.01,的显著水平下等于,4.39,;也就是说,只有,5,的可能性得到一个大于,2.80,的,F,一统计值,只有,1,的可能性超过,4.39,。,如果计算的,F,一统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。,2024/8/9,41,概率(,a,),(二)F一统计表和F一分布F一分布的形状如右图。2023/8,41,2024/8/9,42,虚拟变量,看下面一个例子:,纯净过滤水股份公司对于水过滤系统提供维修保养服务。当顾客的水过滤系统出现故障时,公司对他们的水过滤系统进行维修。,为了估计服务时间和服务成本,纯净公司的管理人员希望对顾客的每一次维修请求预测必要的维修时间。,管理人员认为,维修时间依赖两个方面:从最后一次维修服务至今已经使用的月数和需要维修的故障类型,(,机械的或电子的,),。,2023/8/2142虚拟变量看下面一个例子:,42,虚拟变量,2024/8/9,43,y,表示按小时计算的维修时间,,x1,表示从最后一次维修服务至今的月数,仅仅利用,x1,进行预测的回归模型是:,利用有关软件,得到估计的回归方程如下:,与该方程,t(,或,F),检验对应的实测显著水平为,0.016,,小于置信度,0.05,。这就表明维修时问显著地依赖于从最后一次维修服务至今的月数。,r2=53.4,,表明,x1,仅仅解释了维修时变异性的,53.4,。,虚拟变量2023/8/2143y表示按小时计算的维修时间,x,43,虚拟变量,2024/8/9,44,为了将故障的维修类型引入回归模型,我们定义下面的变量:,在回归分析中,,x2,称为,虚拟变量,或指标变量。,多元回归模型如下:,最后得到方程:,经检验,两个变量在统计上都是显著的。,虚拟变量2023/8/2144为了将故障的维修类型引入回归模,44,曲线相关,2024/8/9,45,如果变量之间呈现非线性关系,我们可以借助变量转换,将复杂难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。,考虑模型:,令:,得到模型,(2),:,模型,(2),为一线性回归,因而我们很容易地利用最小二乘法估计出方程中的各个参数。,曲线相关2023/8/2145如果变量之间呈现非线性关系,我,45,2024/8/9,46,使用回归分析需要注意的事项,简单回归的缺陷:,回归分析局限于揭示变量之间的线值关系;,通过了显著性检验或拥有较高,R2,值的回归方程并不一定保证解释变量与被解释变量之间的因果关系;,回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的“外推预测”可信度不高;,建立在小规模样本上的回归方程是不可靠的;,自变量和因变量的数据变化范围能够影响回归方程的可用性,如果要令得出的回归方程具有实用性,自变量和因变量的数据范围就应该宽泛。,2023/8/2146使用回归分析需要注意的事项简单回归的缺,46,2024/8/9,47,使用回归分析需要注意的事项,此外,在使用多元回归中,还容易忽略一下几个问题:,(1),估计的回归方程选择了不恰当的方程形式,(,即线性或非线性关系,),,被称为方程形式的错误识别;,(2),两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不可能,这个问题被称为多重共线性;,(3),不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这影响到局部回归系数显著性检验的可靠性;,(4),预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性检验的可靠性;,(5),在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误差,这将导致回归系数的估计不是无偏的和一致的。,2023/8/2147使用回归分析需要注意的事项此外,在使用,47,2024/8/9,48,本章小结,在这章里,我们主要说明了如何运用相关分析和回归分析由一个或多个自变量,x,来推断一个因变量,y,的变动。,尽管相关分析和回归分析有一定的差异,但两者常常一起使用,并被视为一体。因此,在相关系数一节只介绍了简单相关和等级相关,复相关以及偏相关赦在了回归分析的相关章节里。,在简单线性回归情形中,回归模型是 ,我们利用最小二乘法求出估计的回归方程 ;接着对回归模型的系数和误差项进行了讨论,说明了如何利用估计的回归方程求出,y,的平均值的置信区间估计和,y,的个别值的预测区间估计的方法;作为估计方程拟合优度的一个量度。我们最后介绍了可决系数。相关系数的平方。它是因变量中的变异能力被估计的回归方程解释的部分所占的比例。,2023/8/2148本章小结在这章里,我们主要说明了如何运,48,2024/8/9,49,作为简单线性回归的推广,我们引进了多元回归分析。,多元回归分析能够使我们了解一个因变量是如何依赖两个或两个以上自变量的。,多元回归方程系数同样是借助最小二乘法求出。其复杂的运算过程已被有关的计算软件大大简化。因此,学会使用统计软件包是十分必要的。在详细解释了方程系数的含义之后,我们说明了虚拟变量以及曲线相关的实际运用,最后以回归分析应注意的问题作为本章的结束。,2023/8/2149作为简单线性回归的推广,我们引进了多元,49,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!