第八章相关与回归分析Correlation and Regression Analysis

上传人:ra****d 文档编号:252711620 上传时间:2024-11-19 格式:PPT 页数:53 大小:655KB
返回 下载 相关 举报
第八章相关与回归分析Correlation and Regression Analysis_第1页
第1页 / 共53页
第八章相关与回归分析Correlation and Regression Analysis_第2页
第2页 / 共53页
第八章相关与回归分析Correlation and Regression Analysis_第3页
第3页 / 共53页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Chap 08-,*,第四节 相关分析和回归分析,客观世界是普遍联系的统一整体,事物之间存在着相互依存、相互制约、相互影响的关系。市场活动中的许多现象也不例外,也都有其产生的原因,都要受一定因素的制约,都是一定原因的必然结果。通过不同事物“量的变化可以观察并测量出事物之间的相互关系、密切程度、因果关系、交互效应等。在市场调查中,量表分析应用模式主要指通过对不同因子之间的开展变化而揭示出因子之间关系结果的方式。量表分析主要包括以下几种分析:回归分析、聚类分析、判别分析、因子分析、相关分析、可靠性分析等。,1,本节学习目标,通过本节的学习,你应该能够:,理解和掌握相关分析和回归分析的原理,估计一元线性回归模型,并对模型进行检验,利用计算机软件估计多元线性回归模型,并对模型进行检验,了解几种常见的非线性函数,并对它们进行线性化变换;,计算样本相关系数,并能对相关系数进行显著性检验,2,1 相关与回归的根本概念,1.1 变量间的相互关系,1.2 相关关系的类型,1.3,相关分析与回归分析,3,变量间的相互关系,确定性的函数关系:,当一个或者几个变量取一定的值时,另一个变量有确定值与之相对应;例如销售收入与销售量之间的关系、路程与速度之间的关系;,不确定性的相关关系:,当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按照某种规律在一定的范围内变化;,变量之间的函数关系和相关关系在一定条件下可以相互转化。,客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。,4,相关关系的类型,从相关关系涉及的变量数量看:单相关和复相关,一个变量对另一变量的相关关系,称为单相关;,一个变量对两个以上变量的相关关系时,称为复相关;,从变量相关关系的表现形式看:线性相关和非线性相关,从变量相关关系变化的方向看:正相关和负相关,从变量相关的程度看:完全相关函数关系、不完全相关、不相关,5,相关分析与回归分析,联系:有共同的研究对象,在具体应用时,常常必须互相补充;,区别:研究目的和方法上有明显区别;,局限性:定性分析与定量分析相结合;,相关分析是用一个指标(相关系数r)来说明现象间依存关系的密切程度。,回归分析是用数学模型近似表达变量间的平均变化关系。,6,相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量都是随机变量。,回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。,相关分析和回归分析有共同的研究对象,常常必须互相补充。相关分析需要依靠回归分析来说明现象数量相关的具体形式,而回归分析那么需要依靠相关分析来说明现象数量变化的密切程度。只有当变量之间存在着高度相关时,进行回归分析才有意义。,相关分析与回归分析,7,2,简单线性相关与回归分析,2.1 简单线性相关系数及检验,2.2 总体回归函数与样本回归函数,2.3 回归系数的估计,2.4 简单线性回归模型的检验,2.,5,简单线性回归模型预测,8,相关系数,总体相关系数 population correlation coefficient 是反映两变量之间线性相关程度的一种特征值,表现为一个常数。,样本相关系数 sample correlation coefficient r 是 总体相关系数的一致估计量,是根据样本观测值计算的,反映样本观测值线性相关程度的指标。,9,样本相关系数,其中:,r =,样本相关系数,n =,样本容量,样本相关系数:,或:,10,样本相关系数计算的例子,树的,高度,树干的,直径,y,x,xy,y,2,x,2,35,8,280,1225,64,49,9,441,2401,81,27,7,189,729,49,33,6,198,1089,36,60,13,780,3600,169,21,7,147,441,49,45,11,495,2025,121,51,12,612,2601,144,y=321,x=73,xy=3142,y,2,=14111,x,2,=713,11,树干的直径,x,树的高度,y,样本相关系数计算的例子,r = 0.886 说明 x 和 y 具有高度线性相关关系。,12,Excel,输出结果,Excel,相关分析的输出结果,工具 / 数据分析 / 相关系数,树的高度与树干的直径,的相关系数,13,相关系数的特点,r的取值在-1与1之间;,当时,与的样本观测值之间没有线性关系;,在大多数情况下,即与的样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。,如果,那么说明与完全线性相关,当时,称为完全正相关,而时,称为完全负相关。,是对变量之间线性相关关系的度量。只是说明两个变量之间不存在线性关系,但它并不意味着与之间不存在其他类型的关系。,14,r = +0.3,r = +1,相关系数的图示,y,x,y,x,y,x,y,x,y,x,r = -1,r = -0.6,r = 0,15,单相关系数的显著性检验,假设,H0: = 0 (无线性相关关系),H1: 0 (确实存在线性相关关系),检验统计量,(自由度为 n 2 ,16,单相关系数的显著性检验,是否可以根据5的显著性水平认为树的高度与树干的直径之间存在一定程度的线性相关关系?,H,0,:,= 0 (,无线性相关关系),H,1,:, 0 (,确实存在线性相关关系),=0.05 , df,=,8 - 2 = 6,17,回归分析,Regression Analysis,回归分析,研究一个变量如何随着其他变量的变化而变化;,用一个称为回归模型的数学方程来描述因变量与自变量之间的变化关系,再通过控制或给定自变量的数值来估计或预测因变量可能的数值。,被解释变量、因变量Dependent variable:被视为随着自变量而变化的变量,是我们想要加以解释的变量。,解释变量、自变量Independent variable:被视为主动变化的变量 ,用于解释被解释变量。,18,一元简单线性回归模型,只有,一个自变量, X,X,和,Y,的关系用线性函数来描述,Y,的变化被认为是由于,X,的变化引起的,19,样本回归直线是根据样本数据拟合的,是总体回归线的一个估计。,样本回归线和样本回归模型,回归截距的估计值,回归斜率的估计值,估计的 (或拟合的),y,值,自变量,样本回归线,样本回归方程,样本回归函数,样本回归模型,残差,20,总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。,总体回归模型中的,1,和,2,是未知的参数,表现为常数。而样本回归函数中 的和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。,总体回归模型中的,u,t,是,y,t,与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的,t,是,y,t,与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出,t,的具体数值。,样本回归函数和总体回归函数的区别,21,误差项的标准假定,假定1:误差项的期望值等于0,即对所有的,t,总有,E(u,t,)=0,假定2:误差项的方差为常数,即对所有的,t,总有,Var(u,t,)=E(u,t,2,)=,假定3:误差项之间不存在序列相关关系,其协方差为零;,假定4:自变量是给定的变量,与随机误差项线性无关;,假定5:随机误差项服从正态分布;,22,最小二乘估计,在根据样本数据确定样本回归方程时,总是希望,y,的估计值 尽可能地接近其实际观测值,即残差,e,t,的总量越小越好。由于,e,t,有正有负,简单的代数和会相互抵消,因此为了数学上便于处理,我们采用残差平方和作为衡量总偏差的尺度。,所谓最小二乘法,就是根据这一思路,通过使残差平方和最小来估计回归系数的方法。,23,最小二乘估计量,求解正规方程组,可得:,以上就是总体回归系数的最小二乘估计量。,24,最小二乘估计量的性质,最小二乘估计量是随着样本的不同而不同的随机变量;,在满足标准假定的情况下,回归参数的最小二乘估计量是无偏的,即,最小二乘估计量是因变量 Y 的线性组合;,数学上还可以证明,在所有的线性无偏估计中,回归系数的最小二乘估计量的方差最小,同时随着样本容量的增大,其方差会不断缩小;,综上所述,在标准的假定条件下,最小二乘估计量是最正确线性无偏估计量和一致估计量。,25,是当,x,等于 0 时,y,的平均估计值;,是,x,每变化一个单位,因变量,y,平均变化的量。,最小二乘估计量的解释,26,一元线性回归模型的例子,一家房地产公司的经理想知道该公司住房的售价和住房面积单位:平方尺 之间的关系。,为此他抽取了一个包含10套住房的随机样本。,因变量 (y) = 住房的售价 单位:$1000,自变量 (x) = 住房的面积 单位:平方尺,27,回归系数的估计,28,Excel,输出结果,回归统计,Multiple R,0.76211,R Square,0.58082,Adjusted R Square,0.52842,标准误差,41.33032,观测值,10,方差分析,df,SS,MS,F,Significance F,回归分析,1,18934.9348,18934.9348,11.0848,0.01039,残差,8,13665.5652,1708.1957,总计,9,32600.5000,Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,98.24833,58.03348,1.69296,0.12892,-35.57720,232.07386,住房的面积,0.10977,0.03297,3.32938,0.01039,0.03374,0.18580,样本回归方程是:,29,是当,x,等于 0 时,y,的平均估计值,在这个例子中,没有房子的面积会等于0,所以98.24833仅仅意味着在所观测的样本范围内,住房售价中有,$98,248.33,不能用住房的面积来加以解释。,回归截距估计值的解释,30,回归斜率估计值的解释,是,x,每变化一个单位,因变量,y,平均变化的量。,这里0.10977表示住房面积每增加一平方尺,住房的售价平均增加0.10977 $1000,= $109.77,。,31,总体随机误差项方差的估计,标准的一元线性回归模型除了,1,和,2,以外,还有一个未知参数,就是总体随机误差项的方差,2,。,由于随机误差项,u,t,不可直接观测,所以需要用最小二乘残差,e,t,来估计,2,。,数学上可以证明,,S,2,是,2,的无偏估计。,32,总体随机误差项方差的估计,分母,n2,是自由度,因为残差必须满足两个约束条件:,S2 的正平方根称为回归估计的标准误差。,S越小说明实际观测点与所拟合的样本回归线的离差程度越小,即样本回归线具有较强的代表性,反之,S越大说明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性越差。,33,回归模型检验的种类,理论意义检验:主要考察参数估计值的符号和取值是否与实质性科学的理论以及人们的实践经验相符。如果不符,原因可能是样本容量太小,或者不满足标准假定条件。,一级检验统计学检验:利用统计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度评价和显著性检验。这是所有现象进行回归分析时都必须通过的检验。,二级检验经济计量学检验:是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等等。这是经济计量学研究的内容。,34,拟合程度的评价,所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。,判断回归模型拟合程度优劣的指标是可决系数决定系数,该指标是建立在对总离差平方和进行分解的根底之上的。,总离差因变量的实际观测值与样本均值的离差,可解释离差因变量的拟合值与样本均值的离差,可以看作能够由回归直线解释的局部,残差因变量的实际观测值与拟合值的离差,可以看作不能由回归直线解释的局部,35,X,i,y,x,y,i,TSS,=,(,y,i,-,y,),2,RSS,=,(,y,i,-,y,i,),2,ESS =,(,y,i,-,y,),2,_,_,_,总离差平方和的分解,y,y,y,_,y,36,可决系数coefficient of determination是回归平方和占总离差平方和的比例,可决系数越大,说明模型拟合程度越高。,可决系数也称为R平方R-squared,用 R2 表示。,可决系数,R,2,37,相关系数与可决系数,R,2,注意:,一元线性回归模型的可决系数就是因变量,Y,和自变量,X,的相关系数的平方。,其中:,R,2,=,一元线性回归模型的可决系数,r =,简单相关系数,区别:可决系数是就回归模型而言的,具有非负性;,而相关系数是就两个变量而言的,可正可负;,38,R,2,= 1,可决系数,R,2,y,x,y,x,R,2,= 1,R,2,= 1,所有的观测值都位于回归直线上,,RSS = 0,,说明总离差可以完全由所估计的样本回归直线来解释。,39,可决系数,R,2,y,x,y,x,0 ,R,2, 0,有局部总离差不能由样本回归直线来解释。,40,可决系数,R,2,R,2,= 0,回归直线没有解释任何离差,即模型中解释变量,X,与因变量,Y,完全无关,,Y,的总离差全部归于残差平方和,即,RSS = TSS 。,y,x,R,2,= 0,41,Excel,输出结果,回归统计,Multiple R,0.76211,R Square,0.58082,Adjusted R Square,0.52842,标准误差,41.33032,观测值,10,方差分析,df,SS,MS,F,Significance F,回归分析,1,18934.9348,18934.9348,11.0848,0.01039,残差,8,13665.5652,1708.1957,总计,9,32600.5000,Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,98.24833,58.03348,1.69296,0.12892,-35.57720,232.07386,住房的面积,0.10977,0.03297,3.32938,0.01039,0.03374,0.18580,住房售价的58.08%离差可以用住房的面积变化来解释。,42,回归系数的显著性检验,t,检验,回归斜率的显著性检验,t,检验,X,和,Y,是否确实存在线性关系?,零假设和备择假设,H,0,:,2,= 0(,无线性相关关系),H,1,:,2,0(,线性相关关系确实存在),检验统计量,其中:,=,回归斜率的估计值,2,=,假设的斜率,=,标准差的估计值,43,其中:,=,最小二乘斜率的标准差的估计值,=,回归估计的标准误差,回归系数的显著性检验,t,检验,44,Excel,输出结果,回归统计,Multiple R,0.76211,R Square,0.58082,Adjusted R Square,0.52842,标准误差,41.33032,观测值,10,方差分析,df,SS,MS,F,Significance F,回归分析,1,18934.9348,18934.9348,11.0848,0.01039,残差,8,13665.5652,1708.1957,总计,9,32600.5000,Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,98.24833,58.03348,1.69296,0.12892,-35.57720,232.07386,住房的面积,0.10977,0.03297,3.32938,0.01039,0.03374,0.18580,45,住房的售价,$1000,(y),住房的面积,(x),245,1400,312,1600,279,1700,308,1875,199,1100,219,1550,405,2350,324,2450,319,1425,255,1700,估计的样本回归方程为:,模型中斜率等于 0.10977;,请问住房的面积对住房的售价是否具有显著的影响?,回归系数显著性检验的例子,46,回归系数的置信区间估计,斜率的置信区间估计的公式为:,Excel,的输出结果:,以95的置信水平认为, 斜率的置信区间为,(0.0337, 0.1858),Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,98.24833,58.03348,1.69296,0.12892,-35.57720,232.07386,住房的面积,0.10977,0.03297,3.32938,0.01039,0.03374,0.18580,d.f. = n - 2,47,回归系数的置信区间估计,因为住房的售价是以,$1000,为单位的, 我们可以以95的置信度认为住房面积每增加一平方尺对住房售价的平均影响在,$33.70,到 $185.80 之间。,Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,98.24833,58.03348,1.69296,0.12892,-35.57720,232.07386,住房的面积,0.10977,0.03297,3.32938,0.01039,0.03374,0.18580,这个 95% 的置信区间,不包含 0,.,结论:,以0.05的显著性水平认为住房的面积对住房的售价有 显著的影响。,48,简单线性回归模型预测,回归预测的根本公式:,发生预测误差的原因有:,模型本身中的误差因素所造成的误差总体回归函数未将所有影响Y的因素都纳入模型,可以用随机扰动项的方差来评价,由于回归系数的估计值同其真值不一致所造成的误差,由于X的设定值同实际值不同引起的误差,由于未来时期总体回归系数发生变化造成的误差,49,一元线性回归模型区间预测,区间预测的公式:,50,一元线性回归模型预测的例子,请预测面积为2000平方尺住房的售价?,住房的售价,$1000,(y),住房的面积,(x),245,1400,312,1600,279,1700,308,1875,199,1100,219,1550,405,2350,324,2450,319,1425,255,1700,估计的样本回归方程为:,51,一元线性回归模型预测的例子,预测面积为2000平方尺住房的售价为:,预计面积为2000平方尺的住房的售价为,317.85$1,000 = $317,850,52,一元线性回归模型预测的例子,计算置信度为 95% 的住房面积为2000平方尺售价的预测区间。,置信度为95的住房售价的预测区间为 215.57 - 420.13, 或者,$215,570 - $420,130。,53,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!