第10章回归相关分析

资源描述

单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第10章一元线性相关与回归分析,PowerPoint,统计学,主要内容：,一、,相关与回归概述,二、线性相关分析,三、一元线性回归分析,四、,Excel,的应用,10.1,相关分析,变量间的关系,相关关系的种类,相关分析与回归分析概述,相关关系的描述与测度,相关系数的显著性检验,10.1.1 变量间的关系,在生产和经营活动中，人们经常要对变量之间的关系进行分析，以揭示变量之间的关系及其关联程度，探索出内在的数量规律性，进行科学的预测。,比如在企业生产中，我们要对影响生产成本的各种因素进行分析，以达到控制成本的目的；在农业生产中，我们需要研究农作物产量与施肥量之间的关系，以便分析施肥量对产量的影响，进而确定合理的施肥量；在商业活动中，我们需要研究广告费支出与销售量之间的关系，进而通过广告费支出来预测销售量等。,变量之间的关系可以分为两种类型,函数关系,相关关系,函数关系,是一一,对应的确定关系,设,有两个变量,x,和,y,，,变量,y,随变量,x,一起变化，并完全依赖于,x,，,当变量,x,取某个数值时，,y,依确定的关系取相应的值，则称,y,是,x,的函数，记为,y,=,f,(,x,),，,其中,x,称为自变量，,y,称为因变量,各,观测点落在一条线上,x,y,函数关系的例子,某种商品的销售额(,y,),与销售量(,x,),之间的关系可表示为,y,=,px,(,p,为单价),圆的面积(,S),与半径之间的关系可表示为,S,=,R,2,企业的原材料消耗额,(,y,),与产量,(,x,1,),、,单位产量消耗,(,x,2,),、,原材料价格,(,x,3,),之间的关系可表示为,y,=,x,1,x,2,x,3,相关关系,变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量,x,取某个值时，变量,y,的取值可能有几个,各观测,点分布在直线周围,x,y,相关关系的例子,父亲身高(,y,),与子女身高(,x,),之间的关系,收入水平,(,y,),与受教育程度,(,x,),之间的关系,粮食亩产量(,y,),与施肥量(,x,1,) 、,降雨量(,x,2,) 、,温度(,x,3,),之间的关系,商品的消费量(,y,),与居民收入(,x,),之间的关系,商品销售额(,y,),与广告费支出(,x,),之间的关系,1.1.2 相关关系的种类,按相关程度分为：完全相关、不完全相关、不相关。,按相关性质分为：正相关、负相关。,按相关形式分为：线性相关、非线性相关。,按相关关系涉及的变量的多少分为：单相关、复相关。,10.1.3 相关分析与回归分析概述,分析内容,相关分析,：,1.确定现象间或变量间有无关系以及相关关系呈现的形态或类型；,2.确定相关关系的密切程度（,r）。,回归分析：,1.确定变量间的数量依存关系（回归方程）；,2.根据回归方程进行预测和控制。,变量间的关系,相关分析：,变量,x,变量,y,处于平等的地位；,变量,x,和,y,都是随机变量回归分析中。,回归分析：,变量,y,称为因变量，处在被解释的地位，,x,称为自变量，用于预测因变量的变化；,因变量,y,是随机变量，自变量,x,可以是随机变量，也可以是非随机的确定变量,特别提醒,运用相关回归等定量分析方法，必须以定性分析为前提。,10.1.4 相关关系的描述与测度,1）散点图,不相关,负线性相关,正线性相关,非线性相关,完全负线性相关,完全正线性相关,例,一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的提高，这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因，希望利用银行业务的有关数据做些定量分析，以便找出控制不良贷款的办法。,下面是该银行所属的25家分行2002年的有关业务数据。,25家分行2002年的有关业务数据,散点图,2）相关系数,对变量之间关系密切程度的度量,对两个变量之间线性相关程度的度量称为简单相关系数,若相关系数,是根据总体全部数据计算的，称为总体相关系数，记为,若,是根据样本数据计算的，则称为样本相关系数，记为,r,或,样本相关系数的计算公式,相关系数的计算,相关系数取值范围及意义,r,的取值范围,是 -1,1,|,r,|=,1，,为完全相关,r,=,1,，,为完全正相关,r,=,-1,，,为完全负正相关,r,= 0，,无关，或不存在,线性,相关,关系,r,取值为负数,，,为负相关,r,取值为正数,，,为正相关,|,r,|,越趋于,1表示,关系越密切；,|,r,|,越趋于,0,表示关系越不密切,相关系数,取值的意义,-1.0,+1.0,0,-0.5,+0.5,完全负相关,无线性相关,完全正相关,负相关程度增加,r,正相关程度增加,相关系数,取值的意义,相关系数,r,的绝对值,大于或等于0.8，高度相关,0.50.8 ，中度相关,0.30.5，低度相关,0.3以下，可视为不相关,但这种解释必须建立在对相关系数进行显著性检验的基础之上。,10.1.5 相关系数的显著性检验,检验：能否根据样本相关系数说明总体的相关程度，即考察样本相关系数的可靠性。,通常采用,t,分布检验,该检验可以用于小样本，也可以用于大样本。,相关系数显著性检验,的步骤,1.提出假设：假设样本是从不相关的总体中抽出的,H,0,：, ；,H,1,：, 0,2.,计算检验的统计量,3.确定显著性水平，查表得临界值,t,4.统计决策,若,t,t,，,拒绝,H,0,若,t,t,0.05,(25-2)=2.0687，,拒绝,H,0,，,即不良贷款与各项贷款余额之间存在着显著的正线性相关关系,10.2 一元线性回归分析,一元线性回归模型,参数的最小二乘估计,回归直线的拟合优度,显著性检验,10.2.1 什么是回归分析？,从一组样本数据出发，确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著,利用所求的关系式，根据一个或几个变量的取值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确程度,回归分析与相关分析的区别,分析内容,相关分析,：,1.确定现象间或变量间有无关系以及相关关系呈现的形态或类型；,2.确定相关关系的密切程度（,r）。,回归分析：,1.确定变量间的数量依存关系（回归方程）；,2.根据回归方程进行预测和控制。,变量间的关系,相关分析：,变量,x,变量,y,处于平等的地位；,变量,x,和,y,都是随机变量回归分析中。,回归分析：,变量,y,称为因变量，处在被解释的地位，,x,称为自变量，用于预测因变量的变化；,因变量,y,是随机变量，自变量,x,可以是随机变量，也可以是非随机的确定变量,10.2.2 一元线性回归,一元线性回归,只涉及一个自变量的回归,因,变量,y,与自变量,x,之间为线性关系,被预测或被解释的变量称为因变量,，,用,y,表示,用来预测或用来解释因变量的一个或多个变量称为自变量,，,用,x,表示,因变量与自变量之间的关系用,一个线性方程来表示,一元线性回归模型,一元线性,回归模型可表示为,y,=,b,0,+,b,1,x,+,e,0,和,1,称为模型的参数,y,是,x,的线性函数(部分)加上误差项,线性部分反映了由于,x,的变化而引起的,y,的变化,误差项,是随机变量,反映了除,x,和,y,之间的线性关系之外的随机因素对,y,的影响,是不能由,x,和,y,之间的线性关系所解释的变异性,一元线性回归模型的,基本假定,误差,项,是一个期望值为0的随机变量，即,E,(,)=0,。,对于一个给定的,x,值，,y,的期望值为,E,(,y,) =,0,+,1,x,误差,项,是一个服从正态分布的随机变量，且相互独立。即,N,( 0 ,2,),独立性意味着对于一个特定的,x,值，它所对应的,与其他,x,值所对应的,不相关,对于一个特定的,x,值，它所对应的,y,值与其他,x,所对应的,y,值也不相关,回归方程,描,述,y,的平均值或期望值如何依赖于,x,的方程称为,回归方程,一元,线性回归方程的形式如下,E,(,y,) =,0,+,1,x,方程的图示是一条直线，也称为直线回归方程,0,是回归直线在,y,轴上的截距，是当,x,=0,时,y,的期望值,1,是直线的斜率，称为回归系数，表示当,x,每变动一个单位时，,y,的平均变动值,估计的回归方程,一元线性回归中估计的回归方程为,用,样本统计量和代替回归方程中的未知参数和，就得到了,估计的回归方程,总体,回归参数和,是未知的，必需利用样本数据去估计,其中：是估计的回归直线在,y,轴上的截距，是直线的斜率，它表示,x,每变动一个单位时，的平均变动值,10.2.3 参数的最小二乘估计,什么是最小二乘估计,使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即,用最小二乘法拟合的直线来代表,x,与,y,之间,的关系与实际数据的误差比其他任何直线都小,最小二乘估计的,图示,x,y,(,x,n,y,n,),(,x,1,y,1,),(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,待定参数,的求解公式,例题分析,求不良贷款对贷款余额的回归方程,回归方程为：,y =,-0.8295,+,0.037895,x,回归系数,=0.037895 表示，贷款余额每增加1亿元，不良贷款平均增加0.037895亿元,不良贷款对贷款余额回归方程的图示,用,Excel,进行回归分析,1.分别将,x,变量和,y,变量的具体数值输入,Excel,的相邻两列,2.点击“工具”“数据分析”“回归”,2.填写对话框,3.确定,10.2.4,一元,线性回归方程,的拟合优度,回归直线与各观察点的接近程度称为回归直线对数据的拟合优度。,若各观察点紧密围绕直线，说明直线对数据的拟合优度好，反之则较差。,拟合优度好，用回归方程得出的估计值或预测值精度高。,说明拟合优度的度量是判定系数、,估计标准误差,。,1）变差,因变量,y,的取值是不同的，,y,取值的这种波动称为,变差,。变差来源于两个方面,由于自变量,x,的取值不同造成的,其他因素的影响造成的,对一个,具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差来表示,变差分解的,图示,x,y,y,2）离差平方和的分解及,关系,SST,=,SSR,+,SSE,总平方和,(,SST,),回归平方和,(,SSR,),残差平方和,(,SSE,),三个平方和的意义,总平方和(,SST,),反映因变量的,n,个观察值与其均值的总离差,回归平方和(,SSR,),反映自变量,x,的变化对因变量,y,取值变化的影响，或者说，是由于,x,与,y,之间的线性关系引起的,y,的取值变化，也称为可解释的平方和,残差平方和(,SSE,),反映除,x,以外的其他因素对,y,取值的影响，也称为不可解释的平方、剩余平方和或残差平方和,3）判定系数,R,2,回归直线拟合优度的度量,回归平方和,占总离差平方和的比例,取值范围在 0 , 1 之间,反映回归直线的拟合程度,R,2,1,，,说明回归方程拟合得越好；,R,2,0,，,说明回归方程拟合得越差,判定,系数等于相关系数的平方，即,R,2,(,r,),2,判定系数,R,2,的,例题分析,【例】,计算不良贷款对贷款余额回归的判定系数，并解释其意义,判定系数的实际意义是：,在不良贷款取值的变差中，有71.16%可以由不良贷款与贷款余额之间的线性关系来解释，或者说，在不良贷款取值的变动中，有71.16%是由贷款余额所决定的。可见不良贷款与贷款余额之间有较强的线性关系,4）估计标准误差,回归直线拟合优度的度量,是在排除了,x,对,y,的线性影响后，,y,随机波动大小的一个估计量,反,映用估计的回归方程预测,y,时预测误差的大小,计算公式为,注：例题的,Excel,计算结果为,1.9799,10.2.5 显著性检验,回归方程是根据样本数据得出的，它是否真实的反映了变量,x,和,y,之间的关系，需要进行显著性检验。,显著性检验的内容：,线性关系的检验,自变量,x,对因变量,y,的影响显著与否,1）线性关系的检验,检验自变量与因变量之间的,线性关系是否显著,将回归均方(,MSR,),同残差均方(,MSE,),加以比较，用,F,检验来分析二者之间的差别是否显著,回归均方：回归平方和,SSR,除以相应的自由度(自变量的个数,p,),残差均方：残差平方和,SSE,除以相应的自由度,(,n,-,p,-1),线性关系检验,的步骤,提出,假设,H,0,：,1,=0 x,与,y,的,线性关系不显著,H,1,：,1,0 x,与,y,的,线性关系显著,计算,检验统计量,F,确定,显著性水平,，并根据分子自由度,1,和分母自由度,n,-2,查出,临界值,F,统计,决策：若,F,F,拒绝,H,0；,若,F,F,故拒绝,H,0,，,不良贷款与贷款余额之间的,线性关系显著,线性关系的检验,(,Excel,的方差分析表),2）回归系数的检验,回归系数的检验,检验,自变量,x,对因变量,y,的影响是否显著,理论基础是回归系数,的抽样分布,样本统计量的分布,是根据最小二乘法求出的样本统计量，它有自己的分布,的,分布具有如下性质,分布形式：正态分布,数学期望：,标准差：,由于,未知，需用其估计量,s,y,来代替得到的估计的标准差,这样，我们就可以构造检验回归系数的统计检验量,该统计量服从自由度为,n-2,的,t,分布。,如果原假设成立，则,b,1,= 0 ，,检验统计量为,回归系数,1,检验的,步骤,提出假设,H,0,:,b,1,= 0,自变量,x,对因变量,y,的影响不显著,H,1,:,b,1,0,自变量,x,对因变量,y,的影响显著,计算检验的统计量,确定显著性水平,，并进行统计决策,t,t,，,拒绝,H,0,；,t,t,，,故拒绝,H,0,，,表明贷款余额对不良贷款的影响显著,用,P,值对,回归系数的检验,P,=0.000000,=0.05，,拒绝原假设，,表明贷款余额对不良贷款的影响显著。,Excel,输出的部分回归结果的意义,小结,一元线性回归,主要内容,一元线性回归模型,参数的最小二乘估计,回归直线的拟合优度：,R,2、,S,y,显著性检验,线性,关系检验：,回归系数（关系显著与否）检验：,t、P,10.3 利用回归方程进行估计和预测,根据自变量,x,的取值估计或预测因变量,y,的取值,估计或预测的方法,点估计,y,的平均值的点估计,y,的个别值的点估计,区间估计,y,的平均值的,置信区间,估计,y,的个别值的,预测区间,估计,10.3.1 点估计,2. 点估计值有,y,的,平均值,的点估计,y,的,个别值,的点估计,在点估计条件下，平均值的点估计和个别值的的点估计是一样的，但在区间估计中则不同,对于,自变量,x,的一个给定值,x,0,，,根据回归方程得到因变量,y,的一个估计值,y,的平均值的点估计,利用估计,的回归方程，对于自变量,x,的一个给定值,x,0,，,求出因变量,y,的平均值的一个估计值,E,(,y,0,) ，,就是平均值的点估计,在前面的例子中，假如我们要估计贷款余额为100亿元时，所有分行不良贷款的平均值，就是平均值的点估计。根据估计的回归方程得,y,的个别值的点估计,利用估计的回归方程，对于自变量,x,的一个给定值,x,0,，,求出因变量,y,的一个个别值的估计值,y,0,，就是个别值的点估计,比如，如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少，则属于个别值的点估计。根据估计的回归方程得,10.3.2 区间估计,点估计不能给出估计的精度，点估计值与实际值之间是有误差的，因此需要进行区间估计,对于自变量,x,的一个给定值,x,0,，,根据回归方程得到因变量,y,的一个估计区间,区间估计有两种类型,置信区间估计,预测区间估计,置信区间估计,（对平均值的估计）,利用,估计的回归方程，对于自变量,x,的一个给定值,x,0,，,求出因变量,y,的平均值的估计区间，这一估计区间称为,置信区间,(,confidence interval,),E,(,y,0,),在,1-,置信,水平下的置信区间为,式中：,s,y,为估计标准误差,例题分析,【例】,求出贷款余额为100亿元时，不良贷款的置信区间（置信水平95%）,解：,根据前面的计算结果，已知,n,=25，,s,y,=,1.9799，y= -0.8295+0.037895x,当贷款余额=100亿元时，不良贷款的点估计值,E（y,0,）= -0.8295+0.037895*100=,2.96,亿元,查,t,分布表得临界值：,t,(25-2)=2.0687，,置信区间为,当贷款余额为100亿元时，不良贷款的平均值在,2.1141,亿元到,3.8059,亿元之间,预测区间估计,（对个别值估计）,利用估计,的回归方程，对于自变量,x,的一个给定值,x,0,，,求出因变量,y,的一个个别值的估计区间，这一区间称为,预测区间,(,prediction,interval,),y,0,在1-,置信水平下的预测区间为,注意！,预测区间估计的,例题分析,【例】,求出贷款余额为72.8亿元时，不良贷款的置信区间（置信水平95% ）,解：,根据前面的计算结果，已知,n,=25，,s,y,=,1.9799， y= -0.8295+0.037895x,查,t,分布表得临界值：,t,(25-2)=2.0687，,当贷款余额=72.8亿元时，不良贷款的点估计值,E（y,0,）= -0.8295+0.037895*72.8=,1.93,亿元,置信区间为,贷款余额为72.8亿元的分行，其不良贷款的预测区间在,-2.2766,亿元到,6.1366,亿元之间,影响区间宽度的因素,置信水平 (1 -,),区间,宽度随置信水平的增大而增大,数据,的离散程度 (,s,),区间宽度随离散程度的增大而增大,3.样本容量,区间宽度随样本容量的增大而减小,4.用于,预测的,x,0,与,x,的差异程度,区间宽度随,x,0,与,x,的差异程度的增大而增大,置信区间,、,预测区间,、,回归方程,x,0,y,x,x,预测上限,置信上限,预测下限,置信下限,或者是这二者组合而形成的观测值，,主要内容,相关系数的计算及意义,回归方程的拟合,回归直线的拟合优度,回归方程的显著性检验,用,Excel,进行相关回归分析,结束,

展开阅读全文

第10章 回归相关分析

最新文档

第10章回归相关分析