资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第10章一元线性相关与回归分析,PowerPoint,统计学,主要内容:,一、,相关与回归概述,二、线性相关分析,三、一元线性回归分析,四、,Excel,的应用,10.1,相关分析,变量间的关系,相关关系的种类,相关分析与回归分析概述,相关关系的描述与测度,相关系数的显著性检验,10.1.1 变量间的关系,在生产和经营活动中,人们经常要对变量之间的关系进行分析,以揭示变量之间的关系及其关联程度,探索出内在的数量规律性,进行科学的预测。,比如在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量之间的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;在商业活动中,我们需要研究广告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等。,变量之间的关系可以分为两种类型,函数关系,相关关系,函数关系,是一一,对应的确定关系,设,有两个变量,x,和,y,,,变量,y,随变量,x,一起变化,并完全依赖于,x,,,当变量,x,取某个数值时,,y,依确定的关系取相应的值,则称,y,是,x,的函数,记为,y,=,f,(,x,),,,其中,x,称为自变量,,y,称为因变量,各,观测点落在一条线上,x,y,函数关系的例子,某种商品的销售额(,y,),与销售量(,x,),之间的关系可表示为,y,=,px,(,p,为单价),圆的面积(,S),与半径之间的关系可表示为,S,=,R,2,企业的原材料消耗额,(,y,),与产量,(,x,1,),、,单位产量消耗,(,x,2,),、,原材料价格,(,x,3,),之间的关系可表示为,y,=,x,1,x,2,x,3,相关关系,变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量,x,取某个值时,变量,y,的取值可能有几个,各观测,点分布在直线周围,x,y,相关关系的例子,父亲身高(,y,),与子女身高(,x,),之间的关系,收入水平,(,y,),与受教育程度,(,x,),之间的关系,粮食亩产量(,y,),与施肥量(,x,1,) 、,降雨量(,x,2,) 、,温度(,x,3,),之间的关系,商品的消费量(,y,),与居民收入(,x,),之间的关系,商品销售额(,y,),与广告费支出(,x,),之间的关系,1.1.2 相关关系的种类,按相关程度分为:完全相关、不完全相关、不相关。,按相关性质分为:正相关、负相关。,按相关形式分为:线性相关、非线性相关。,按相关关系涉及的变量的多少分为:单相关、复相关。,10.1.3 相关分析与回归分析概述,分析内容,相关分析,:,1.确定现象间或变量间有无关系以及相关关系呈现的形态或类型;,2.确定相关关系的密切程度(,r)。,回归分析:,1.确定变量间的数量依存关系(回归方程);,2.根据回归方程进行预测和控制。,变量间的关系,相关分析:,变量,x,变量,y,处于平等的地位;,变量,x,和,y,都是随机变量回归分析中。,回归分析:,变量,y,称为因变量,处在被解释的地位,,x,称为自变量,用于预测因变量的变化;,因变量,y,是随机变量,自变量,x,可以是随机变量,也可以是非随机的确定变量,特别提醒,运用相关回归等定量分析方法,必须以定性分析为前提。,10.1.4 相关关系的描述与测度,1)散点图,不相关,负线性相关,正线性相关,非线性相关,完全负线性相关,完全正线性相关,例,一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。,下面是该银行所属的25家分行2002年的有关业务数据。,25家分行2002年的有关业务数据,散点图,2)相关系数,对变量之间关系密切程度的度量,对两个变量之间线性相关程度的度量称为简单相关系数,若相关系数,是根据总体全部数据计算的,称为总体相关系数,记为,若,是根据样本数据计算的,则称为样本相关系数,记为,r,或,样本相关系数的计算公式,相关系数的计算,相关系数取值范围及意义,r,的取值范围,是 -1,1,|,r,|=,1,,为完全相关,r,=,1,,,为完全正相关,r,=,-1,,,为完全负正相关,r,= 0,,无关,或不存在,线性,相关,关系,r,取值为负数,,,为负相关,r,取值为正数,,,为正相关,|,r,|,越趋于,1表示,关系越密切;,|,r,|,越趋于,0,表示关系越不密切,相关系数,取值的意义,-1.0,+1.0,0,-0.5,+0.5,完全负相关,无线性相关,完全正相关,负相关程度增加,r,正相关程度增加,相关系数,取值的意义,相关系数,r,的绝对值,大于或等于0.8,高度相关,0.50.8 , 中度相关,0.30.5, 低度相关,0.3以下, 可视为不相关,但这种解释必须建立在对相关系数进行显著性检验的基础之上。,10.1.5 相关系数的显著性检验,检验:能否根据样本相关系数说明总体的相关程度,即考察样本相关系数的可靠性。,通常采用,t,分布检验,该检验可以用于小样本,也可以用于大样本。,相关系数显著性检验,的步骤,1.提出假设:假设样本是从不相关的总体中抽出的,H,0,:, ;,H,1,:, 0,2.,计算检验的统计量,3.确定显著性水平,查表得临界值,t,4.统计决策,若,t,t,,,拒绝,H,0,若,t,t,0.05,(25-2)=2.0687,,拒绝,H,0,,,即不良贷款与各项贷款余额之间存在着显著的正线性相关关系,10.2 一元线性回归分析,一元线性回归模型,参数的最小二乘估计,回归直线的拟合优度,显著性检验,10.2.1 什么是回归分析?,从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著,利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,分析内容,相关分析,:,1.确定现象间或变量间有无关系以及相关关系呈现的形态或类型;,2.确定相关关系的密切程度(,r)。,回归分析:,1.确定变量间的数量依存关系(回归方程);,2.根据回归方程进行预测和控制。,变量间的关系,相关分析:,变量,x,变量,y,处于平等的地位;,变量,x,和,y,都是随机变量回归分析中。,回归分析:,变量,y,称为因变量,处在被解释的地位,,x,称为自变量,用于预测因变量的变化;,因变量,y,是随机变量,自变量,x,可以是随机变量,也可以是非随机的确定变量,10.2.2 一元线性回归,一元线性回归,只涉及一个自变量的回归,因,变量,y,与自变量,x,之间为线性关系,被预测或被解释的变量称为因变量,,,用,y,表示,用来预测或用来解释因变量的一个或多个变量称为自变量,,,用,x,表示,因变量与自变量之间的关系用,一个线性方程来表示,一元线性回归模型,一元线性,回归模型可表示为,y,=,b,0,+,b,1,x,+,e,0,和,1,称为模型的参数,y,是,x,的线性函数(部分)加上误差项,线性部分反映了由于,x,的变化而引起的,y,的变化,误差项,是随机变量,反映了除,x,和,y,之间的线性关系之外的随机因素对,y,的影响,是不能由,x,和,y,之间的线性关系所解释的变异性,一元线性回归模型的,基本假定,误差,项,是一个期望值为0的随机变量,即,E,(,)=0,。,对于一个给定的,x,值,,y,的期望值为,E,(,y,) =,0,+,1,x,误差,项,是一个服从正态分布的随机变量,且相互独立。即,N,( 0 ,2,),独立性意味着对于一个特定的,x,值,它所对应的,与其他,x,值所对应的,不相关,对于一个特定的,x,值,它所对应的,y,值与其他,x,所对应的,y,值也不相关,回归方程,描,述,y,的平均值或期望值如何依赖于,x,的方程称为,回归方程,一元,线性回归方程的形式如下,E,(,y,) =,0,+,1,x,方程的图示是一条直线,也称为直线回归方程,0,是回归直线在,y,轴上的截距,是当,x,=0,时,y,的期望值,1,是直线的斜率,称为回归系数,表示当,x,每变动一个单位时,,y,的平均变动值,估计的回归方程,一元线性回归中估计的回归方程为,用,样本统计量 和 代替回归方程中的未知参数 和 ,就得到了,估计的回归方程,总体,回归参数 和,是未知的,必需利用样本数据去估计,其中: 是估计的回归直线在,y,轴上的截距, 是直线的斜率,它表示,x,每变动一个单位时, 的平均变动值,10.2.3 参数的最小二乘估计,什么是最小二乘估计,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表,x,与,y,之间,的关系与实际数据的误差比其他任何直线都小,最小二乘估计的,图示,x,y,(,x,n,y,n,),(,x,1,y,1,),(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,待定参数,的求解公式,例题分析,求不良贷款对贷款余额的回归方程,回归方程为:,y =,-0.8295,+,0.037895,x,回归系数,=0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元,不良贷款对贷款余额回归方程的图示,用,Excel,进行回归分析,1.分别将,x,变量和,y,变量的具体数值输入,Excel,的相邻两列,2.点击“工具”“数据分析”“回归”,2.填写对话框,3.确定,10.2.4,一元,线性回归方程,的拟合优度,回归直线与各观察点的接近程度称为回归直线对数据的拟合优度。,若各观察点紧密围绕直线,说明直线对数据的拟合优度好,反之则较差。,拟合优度好,用回归方程得出的估计值或预测值精度高。,说明拟合优度的度量是判定系数、,估计标准误差,。,1)变差,因变量,y,的取值是不同的,,y,取值的这种波动称为,变差,。变差来源于两个方面,由于自变量,x,的取值不同造成的,其他因素的影响造成的,对一个,具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,变差分解的,图示,x,y,y,2)离差平方和的分解及,关系,SST,=,SSR,+,SSE,总平方和,(,SST,),回归平方和,(,SSR,),残差平方和,(,SSE,),三个平方和的意义,总平方和(,SST,),反映因变量的,n,个观察值与其均值的总离差,回归平方和(,SSR,),反映自变量,x,的变化对因变量,y,取值变化的影响,或者说,是由于,x,与,y,之间的线性关系引起的,y,的取值变化,也称为可解释的平方和,残差平方和(,SSE,),反映除,x,以外的其他因素对,y,取值的影响,也称为不可解释的平方、剩余平方和或残差平方和,3)判定系数,R,2,回归直线拟合优度的度量,回归平方和,占总离差平方和的比例,取值范围在 0 , 1 之间,反映回归直线的拟合程度,R,2,1,,,说明回归方程拟合得 越好;,R,2,0,,,说明回归方程拟合得越差,判定,系数等于相关系数的平方,即,R,2,(,r,),2,判定系数,R,2,的,例题分析,【例】,计算不良贷款对贷款余额回归的判定系数,并解释其意义,判定系数的实际意义是:,在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。可见不良贷款与贷款余额之间有较强的线性关系,4)估计标准误差,回归直线拟合优度的度量,是在排除了,x,对,y,的线性影响后,,y,随机波动大小的一个估计量,反,映用估计的回归方程预测,y,时预测误差的大小,计算公式为,注:例题的,Excel,计算结果为,1.9799,10.2.5 显著性检验,回归方程是根据样本数据得出的,它是否真实的反映了变量,x,和,y,之间的关系,需要进行显著性检验。,显著性检验的内容:,线性关系的检验,自变量,x,对因变量,y,的影响显著与否,1)线性关系的检验,检验自变量与因变量之间的,线性关系是否显著,将回归均方(,MSR,),同残差均方(,MSE,),加以比较,用,F,检验来分析二者之间的差别是否显著,回归均方:回归平方和,SSR,除以相应的自由度(自变量的个数,p,),残差均方:残差平方和,SSE,除以相应的自由度,(,n,-,p,-1),线性关系检验,的步骤,提出,假设,H,0,:,1,=0 x,与,y,的,线性关系不显著,H,1,:,1,0 x,与,y,的,线性关系显著,计算,检验统计量,F,确定,显著性水平,,并根据分子自由度,1,和分母自由度,n,-2,查出,临界值,F,统计,决策:若,F,F,拒绝,H,0;,若,F,F,故拒绝,H,0,,,不良贷款与贷款余额之间的,线性关系显著,线性关系的检验,(,Excel,的方差分析表),2)回归系数的检验,回归系数的检验,检验,自变量,x,对因变量,y,的影响是否显著,理论基础是回归系数,的抽样分布,样本统计量 的分布,是根据最小二乘法求出的样本统计量,它有自己的分布,的,分布具有如下性质,分布形式:正态分布,数学期望:,标准差:,由于,未知,需用其估计量,s,y,来代替得到 的估计的标准差,这样,我们就可以构造检验回归系数的统计检验量,该统计量服从自由度为,n-2,的,t,分布。,如果原假设成立,则,b,1,= 0 ,,检验统计量为,回归系数,1,检验的,步骤,提出假设,H,0,:,b,1,= 0,自变量,x,对因变量,y,的影响不显著,H,1,:,b,1,0,自变量,x,对因变量,y,的影响显著,计算检验的统计量,确定显著性水平,,并进行统计决策,t,t,,,拒绝,H,0,;,t,t,,,故拒绝,H,0,,,表明贷款余额对不良贷款的影响显著,用,P,值对,回归系数的检验,P,=0.000000,=0.05,,拒绝原假设,,表明贷款余额对不良贷款的影响显著。,Excel,输出的部分回归结果的意义,小结,一元线性回归,主要内容,一元线性回归模型,参数的最小二乘估计,回归直线的拟合优度:,R,2、,S,y,显著性检验,线性,关系检验:,回归系数(关系显著与否)检验:,t、P,10.3 利用回归方程进行估计和预测,根据自变量,x,的取值估计或预测因变量,y,的取值,估计或预测的方法,点估计,y,的平均值的点估计,y,的个别值的点估计,区间估计,y,的平均值的,置信区间,估计,y,的个别值的,预测区间,估计,10.3.1 点估计,2. 点估计值有,y,的,平均值,的点估计,y,的,个别值,的点估计,在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于,自变量,x,的一个给定值,x,0,,,根据回归方程得到因变量,y,的一个估计值,y,的平均值的点估计,利用估计,的回归方程,对于自变量,x,的一个给定值,x,0,,,求出因变量,y,的平均值的一个估计值,E,(,y,0,) ,,就是平均值的点估计,在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计 。根据估计的回归方程得,y,的个别值的点估计,利用估计的回归方程,对于自变量,x,的一个给定值,x,0,,,求出因变量,y,的一个个别值的估计值,y,0,,就是个别值的点估计,比如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计 。根据估计的回归方程得,10.3.2 区间估计,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计,对于自变量,x,的一个给定值,x,0,,,根据回归方程得到因变量,y,的一个估计区间,区间估计有两种类型,置信区间估计,预测区间估计,置信区间估计,(对平均值的估计),利用,估计的回归方程,对于自变量,x,的一个给定值,x,0,,,求出因变量,y,的平均值的估计区间 ,这一估计区间称为,置信区间,(,confidence interval,),E,(,y,0,),在,1-,置信,水平下的置信区间为,式中:,s,y,为估计标准误差,例题分析,【例】,求出贷款余额为100亿元时,不良贷款的置信区间(置信水平95%),解:,根据前面的计算结果,已知,n,=25,,s,y,=,1.9799,y= -0.8295+0.037895x,当贷款余额=100亿元时,不良贷款的点估计值,E(y,0,)= -0.8295+0.037895*100=,2.96,亿元,查,t,分布表得临界值:,t,(25-2)=2.0687,,置信区间为,当贷款余额为100亿元时,不良贷款的平均值在,2.1141,亿元到,3.8059,亿元之间,预测区间估计,(对个别值估计),利用估计,的回归方程,对于自变量,x,的一个给定值,x,0,,,求出因变量,y,的一个个别值的估计区间,这一区间称为,预测区间,(,prediction,interval,),y,0,在1-,置信水平下的预测区间为,注意!,预测区间估计的,例题分析,【例】,求出贷款余额为72.8亿元时,不良贷款的置信区间(置信水平95% ),解:,根据前面的计算结果,已知,n,=25,,s,y,=,1.9799, y= -0.8295+0.037895x,查,t,分布表得临界值:,t,(25-2)=2.0687,,当贷款余额=72.8亿元时, 不良贷款的点估计值,E(y,0,)= -0.8295+0.037895*72.8=,1.93,亿元,置信区间为,贷款余额为72.8亿元的分行,其不良贷款的预测区间在,-2.2766,亿元到,6.1366,亿元之间,影响区间宽度的因素,置信水平 (1 -,),区间,宽度随置信水平的增大而增大,数据,的离散程度 (,s,),区间宽度随离散程度的增大而增大,3.样本容量,区间宽度随样本容量的增大而减小,4.用于,预测的,x,0,与,x,的差异程度,区间宽度随,x,0,与,x,的差异程度的增大而增大,置信区间,、,预测区间,、,回归方程,x,0,y,x,x,预测上限,置信上限,预测下限,置信下限,或者是这二者组合而形成的观测值,,主要内容,相关系数的计算及意义,回归方程的拟合,回归直线的拟合优度,回归方程的显著性检验,用,Excel,进行相关回归分析,结 束,
展开阅读全文