资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,7 -,123,统计学,STATISTICS,第七章 相关与回归分析,制作时间:20042005,内容提要,1、相关关系的概念与种类,2、 相关分析,3、,一元线性回归分析,4、,多元线性回归分析,5、 曲线回归分析,学习目标,1.,理解相关关系的概念,掌握线性回归的基本原理和参数的最小二乘估计,掌握回归直线的拟合优度,掌握回归方程的显著性检验,利用回归方程进行估计和预测,用,Excel,进行回归分析,第一节相关关系概述,一、变量间的关系,(一)函数关系,是一一,对应的确定关系,设,有两个变量,x,和,y,,,变量,y,随变量,x,一起变化,并完全依赖于,x,,,当变量,x,取某个数值时,,y,依确定的关系取相应的值,则称,y,是,x,的函数,记为,y,=,f,(,x,),,,其中,x,称为自变量,,y,称为因变量,各,观测点落在一条线上,x,y,函数关系,(,几个例子,),函数关系的例子,某种商品的销售额,y,与销售量,x,之间的关系可表示为,y,=,px,(,p,为单价,),圆的面积,S,与半径之间的关系可表示为,S,=,R,2,企业的原材料消耗额,y,与产量,x,1,、,单位产量消耗,x,2,、,原材料价格,x,3,之间的关系可表示为,y,=,x,1,x,2,x,3,(二)相关关系,(,correlation,),变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量,x,取某个值时,变量,y,的取值可能有几个,各观测,点分布在直线周围,x,y,相关关系,(,几个例子,),相关关系的例子,父亲身高,y,与子女身高,x,之间的关系,收入水平,y,与受教育程度,x,之间的关系,粮食亩产量,y,与施肥量,x,1,、,降雨量,x,2,、,温度,x,3,之间的关系,商品的消费量,y,与居民收入,x,之间的关系,商品销售额,y,与广告费支出,x,之间的关系,二、相关关系的种类,相关关系的种类,单项关,1,、按相关的形式分为:,线性相关,非线性相关,2,、按所研究的变量多少分为:,复相关,3,、按相关的方向分为:,正相关,负相关,4,、按相关的程度分为:,完全相关,不完全相关,不相关,偏相关,散点图,(,scatter diagram),不相关,负线性相关,正线性相关,非线性相关,完全负线性相关,完全正线性相关,三、相关关系分析的方法,(一)相关分析,1,、相关分析主要用于测定具有相关关系的变量之间相互关系的密切程度。,2,、是回归分析的基础。,3,、分析方法主要有:绘制散点图、编制相关表、计算项关系数等。,(二)回归分析,(,Regression),研究具有相关关系的变量值之间一般的数量变动关系,即自变量发生变化时,因变量平均会发生多大的变化。,通过建立回归方程来完成分析。,回归方程除可用于研究相关变量之间的一般数量变动关系外,还常用于进行预测,即根据一个或几个变量的取值来预测或控制另一个相关变量的取值,并给出这种预测或控制的精确程度,回归模型的类型,(三)回归分析与相关分析的区别,相,关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 之间的一般数量变动关系,还可以由回归方程进行预测和控制 。,相关,分析中,变量,x,变量,y,处于平等的地位;回归分析中,变量,y,称为因变量,处在被解释的地位,,x,称为自变量,用于预测因变量的变化,相,关分析中所涉及的变量,x,和,y,都是随机变量;回归分析中,因变量,y,是随机变量,自变量,x,可以是随机变量,也可以是非随机的确定变量,第二节相关分析,一、相关表和相关图,相关表与相关图,(概念要点),1,、,相关表和相关图是研究相关关系的直观工具。,一般在进行详细的定量分析之前,可以利用它们对现象之间存在的相关关系的方向、形式和密切程度做大致的判断。,2,、,相关表,是一种反映变量之间相关关系的统计表。它是将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。,3,、,相关图又称散点图,。它是以直角坐标系的横轴代表变量,X,,纵轴代表,Y,,将两个变量间相应的变量值用坐标点的形式描绘出来,用来反应量变量之间相关关系的图形,。,相关表,(举例分析),家庭编号,1,2,3,4,5,6,7,8,9,10,可支配收入,25,18,60,45,62,88,92,99,75,98,可支配收入,18,25,45,60,62,75,88,92,98,99,居民收入和消费的原始资料,计量单位:百元,居民消费和收入相关表,计量单位:百元,消费支出,20,15,40,30,42,60,65,70,53,78,消费支出,15,20,30,40,42,53,60,65,78,70,散点图,(,例题分析,),【例】,一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的,25,家分行,2002,年的有关业务数据,散点图,(,例题分析,),散点图,(,例题分析,),二、相关系数及其检验,相关系数,(,correlation coefficient),对变量之间关系密切程度的测度值(指标),对,两个变量,之间线性相关程度的度量称为,单相关系数,若相关系数,是根据总体全部数据计算的,称为总体相关系数,记为,,,若,是根据样本数据计算的,则称为样本相关系数,记为,r,相关系数,(,计算公式,),样本相关系数的计算公式,或,化简为,相关系数,(,取值及其意义,),r,的取值范围,是,-1,1,|,r,|=,1,,为完全相关,r,=,1,,,为,完全正相关,r,=,-1,,,为完全负正相关,r,= 0,,不存在,线性,相关,关系,-1,r,0,,,为,负相关,0,t,,,拒绝,H,0,若,t,t,(25-2)=2.0687,,拒绝,H,0,,,不良贷款与贷款余额之间存在着显著的正线性相关关系,相关系数的显著性检验,(,例题分析,),各相关系数检验的统计量,第三节 一元线性回归,一、一元线性回归与函数模型,一元线性回归函数,一元线性回归模型,总体,样本,(一)一元线性回归函数与,模型的数学表达式,0,是回归直线在,y,轴上的截距,是当,x,=0,时,y,的期望值。,1,是直线的斜率,称为回归系数,表示当,x,每变动一个单位时,,y,的平均变动值。,X,Y,X,1,X,2,X,3,X,4,(,二)一元线性回归函数与,模型意义的图形解释,(三)一元线性回归模型的,基本假定,1.误差,项,u,是一个期望值为,0,的,正态分布随机变量,即,2.对,于所有的,x,值,,u,的方差,2,都相同,即,3.,对于一个特定的,x,值,它所对应的,u,与其他,x,值所对应的,u,不相关。即,4.对于一个特定的,x,值,它所对应的,y,值与其他,x,所对应的,y,值也不相关,X,Y,X,1,X,2,X,3,X,4,回归模型基本假定的图形解释,(四)样本回归方程与总体回归方程的联系与区别,联系:,样本回归,方程,与总体,回归,方程具有相同的,形式,,,且样本回归模型是作为总体回归模型的估计而存在的,。,区别:,1,、总体回归线是未知的,并且只有一条。而样本回归线则是根据样本数据拟合的,每抽取一个样本,便可以拟合一条回归线。,2,、总体回归方程中的参数是未知的,但它是确定的。而样本回归方程中的参数是随机变量,随样本的不同而不同。,3,、总体回归模型中的,u,i,是(因变量实际观测值),Y,i,与总体回归线之间的纵向距离,它是不可直接观测的。而样本回归模型中,e,i,是,Y,i,与样本回归线之间的纵向距离,当根据样本数据拟合出样本回归线之后,可以计算出,e,i,的具体数值。,二、模型参数的估计,(一)回归系数的估计 ,最小二乘估计,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表,x,与,y,之间,的关系与实际数据的误差比其他任何直线都小,最小二乘估计,(,图示,),x,y,(,x,n,y,n,),(,x,1,y,1,),(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,最小二乘法,(,和 的计算公式,),根据最小二乘法的要求,可得求解,和 的公式如下,最小二乘法,(,例题分析,),【例】,求不良贷款对贷款余额的回归(方程)函数,回归方程为:,y =,-,0.8295,+,0.037895,x,回归系数,=0.037895,表示,贷款余额每增加,1,亿元,不良贷款平均增加,0.037895,亿元,最小二乘法,(,例题分析,),不良贷款对贷款余额回归方程的图示,(,二)总体方差的估计,此外,,S,2,的正平方根有叫做回归,估计的标准差,。,S,越小,回归线的代表性越强,否则相反。,除了,1,和,2,,,一元线性回归模型还包括另外一个未知参数,那就是总体随机误差项的方差,2,。,2,可以反映理论模型误差的大小,它是检验模型时,必须利用的一个重要参数。由于,2,本身不能直接观测,因而需要用,e,t,2,(,最小二乘残差)来估计,2,。,可以证明,2,的无偏估计为:,用,Excel,进行回归分析,第1,步:,选择“,工具,”下拉菜单,第,2,步:,选择“,数据分析,”选项,第,3,步:,在分析工具中选择“,回归,”,然后选择“,确定,”,第,4,步:,当对话框出现时,在“,Y,值输入区域,”设置框内键入,Y,的数据区域,在“,X,值输入区域,”设置框内键入,X,的数据区域,在“,置信度,”选项中给出所需的数值,在“,输出选项,”中选择输出区域,在“,残差,”分析选项中选择所需的选项,用,Excel,进行回归分析,三、回归模型的检验,1,、经济理论检验,经济理论检验主要涉及估计值的符号和取值区间。,如果它们与实质性科学的理论以及人们的实践经验不相符合,就说明模型不能很好的解释现实现象。,其原因可能是样本偏小,不能代表总体或不能满足标准回归分析所要求的假定条件。,2,、统计检验(一级检验),统计检验是利用统计学中的抽样理论检验样本回归方程的可靠性,包括拟合优度检验和显著性检验。,统计检验是所有现象进行回归分析时都必须进行的检验。,3,、计量经济学检验(二级检验),计量经济学检验是对标准回归方程的假定条件能否得到满足进行检验。,(一)模型检验的内容,(,二)模型拟合优度检验,拟合优度检,验是检验样本回归方程对,样本观测值代表性大小。衡量这一问题的指标称为可决系数(决定系数),其数学表达式为:,(,Regression Sum of Square,),(,Residual Sum of Square,),(,Total Deviation Sum of Square,),1、概念及公式,离差平方和的分解,(,变差),因变量,y,的取值是不同的,,y,取值的这种波动称为,变差,。变差来源于两个方面,由于自变量,x,的取值不同造成的,除,x,以外的其他因素,(如,x,对,y,的非线性影响、测量误差等,),的影响,对一个,具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,变差的分解,(,图示,),x,y,y,离差平方和的分解,(,三个平方和的关系,),SST,=,SSR,+,SSE,总平方和,(,SST,),回归平方和,(,SSR,),残差平方和,(,SSE,),离差平方和的分解,(,三个平方和的意义,),总平方和,(,SST,),反映因变量的,n,个观察值与其均值的总离差,回归平方和,(,SSR,),反映自变量,x,的变化对因变量,y,取值变化的影响,或者说,是由于,x,与,y,之间的线性关系引起的,y,的取值变化,也称为可解释的平方和,残差平方和,(,SSE,),反映除,x,以外的其他因素对,y,取值的影响,也称为不可解释的平方和或剩余平方和,2、可决系数,r,2,的特性,(,1,)具有非负性,(2),r,2,的值越接近,1,,,SSR,越接近,SST,即,说明回归方程对实际观测值的拟合程度愈好,否则相反。,(,3,)可决系数是样本观测值的函数,它也是一个随机变量。,(4)可决系数的平方根为相关系数,用公式表示为:,可决系数,r,2,(,例题分析,),【例】,计算不良贷款对贷款余额回归的判定系数,并解释其意义,判定系数的实际意义是:,在不良贷款取值的变差中,有,71.16%,可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有,71.16%,是由贷款余额所决定的。也就是说,不良贷款取值的差异有,2/3,以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系,(,三),显著性检验,显著性检验,(,概念要点),回归分析中的显著性检验包括两方面的内容:,一是对各,回归系数,的显著性检验;对于回归系数的显著性检验通常采用,t,检验,,二是对,整个回归方程,的显著性检验。对回归方程的显著性检验则是在方差分析的基础上采用,F,检验。在一元线性回归模型中,由于只有一个自变量,X,,,对,=0,的,t,检验与整个方程的,F,检验是等价的。所以这里只介绍回归系数的显著性检验,关于回归方程的显著性检验将在多元统计分析中介绍。,(,三)回归系数的检验,回归系数的检验,(概念要点),2.检验,x,与,y,之间是否具有线性关系,或者说,检验自变量,x,对因变量,y,的影响是否显著,3.理论基础是回归系数,的抽样分布,1.就是根据样本估计的结果对总体回归系数的是否为0进行假设检验。,回归系数的检验,(,样本统计量 的分布,),是根据最小二乘法求出的样本统计量,它是一个随机变量,有自己的分布,的,分布具有如下性质,分布形式:正态分布,数学期望:,标准差:,由于,未知,需用其估计量,s,y,来代替得到 的估计的标准差,回归系数的检验,(,检验步骤,),提出假设,H,0,:,b,1,= 0 (,没有线性关系,),H,1,:,b,1,0 (,有线性关系,),计算检验的统计量,确定显著性水平,,并进行决策,t,t,,,拒绝,H,0,;,t,t,=2.201,,拒绝,H,0,,,表明,不良贷款与贷款余额之间有线性关系,回归系数的检验,(,例题分析,),P,值的应用,P,=0.000000,F,,,拒绝,H,0,Excel,输出结果的分析,(三)回归系数检验和推断,回归系数的检验,线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验,究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定,对回归系数检验的个数进行限制,以避免犯过多的第一类错误,(,弃真错误,),对每一个自变量都要单独进行检验,应用,t,检验统计量,回归系数的检验,(,步骤,),提出假设,H,0,:,b,i,= 0 (,自变量,x,i,与,因变量,y,没有线性关系,),H,1,:,b,i,0 (,自变量,x,i,与,因变量,y,有线性关系,),计算检验的统计,量,t,确定显著性水平,,并进行决策,t,t,,,拒绝,H,0,; ,t,t,,,不能拒绝,H,0,Excel,输出结果的分析,回归系数的推断,(,置信区间,),回归系数在,1-,置信水平下的置信区间为,回归系数的抽样标准差,Excel,输出结果的分析,第五节 曲线回归,非线性回归,1.,因变量,y,与,x,之间不是线性关系,2.可,通过变量代换转换成线性关系,用最小二乘法求出参数的估计值,并非所有的非线性模型都可以化为线性模型,曲线回归模型的种类,双曲线, 0,基本形式:,线性化方法,令:,y,= 1/,y,,,x,= 1/,x,则有,y,=,+,x,图像,幂函数曲线,基本形式:,线性,化方法,两端取对数得:,l,g,y,=,lg,+,lg,x,令:,y,=,lg,y,,,x,=,lg,x,,,则,y,=,lg,+, x,图像,0, 1,1,= 1,-1,0,-1,=-1,对数曲线,基本形式:,线性化方法,x,=,ln,x,则有,y,=,+,x,图像,0,0,指数曲线,基本形式:,线性化方法,两端取对数得:,ln,y,=,ln,+,x,令:,y,=,ln,y,,,则有,y,=,ln,+,x,图像, , ,S,型曲线,基本形式:,线性化方法,令:,y,= 1/,y,,,x,= e,-,x,则有,y,=,+, x,图像,非线性回归,(,例题分析,),【例】,一种商品的需求量与其价格有一定的关系。现对一定时期内的商品价格,x,与需求量,y,进行观察,取得的样本数据如表,11.16,。试判断商品价格与需求量之间回归函数的类型,并求需求量对价格的回归方程,废品率与生产率的关系,价格,(,元,),x,1,2,3,4,5,6,7,8,9,10,需求量,(,千克,),y,58,50,44,38,34,30,29,26,25,24,非线性回归,(,例题分析,),价格与需求量的散点图,非线性回归,(,例题分析,),用双曲线模型:,按线性回归的方法求解,和,,得,非线性回归,(,例题分析,),价格与需求量的散点图,本章小结,变量间关系的度量,回归模型、回归方程与估计的回归方程,回归直线的拟合优度,回归分析中的显著性检验,估计和预测,用,Excel,进行回归分析,End of Chapter 9,
展开阅读全文