资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九章相关与回归分析,第一节 相关分析概述,一、相关关系的概念,变量之间的依存关系有两种不同的类型:,函数关系,相关关系,函数关系,是指变量之间存在着严格的数量依存关系。,在这种关系中,当一个或几个变量取一定的,值时,另一个变量有确定值与之相对应,并且这,种关系可以用一个数学表达式反映出来。,相关关系,是指变量之间存在的不确定的依存关系。,在这种关系中,当一个或几个相互联系的,变量取一定的值时,与之相对应的变量会有多,个数值,表现出不确定,然而它仍按某种规律,在一定的范围内变化。,在相关关系中,变量之间的联系有两种情况:,一种是变量之间存在着一定的因果关系。,另一种是两个变量之间只存在相互联系而,不存在明显的因果关系。, 函数关系与相关关系的区别和联系, 区别:,函数关系是变量之间数量上严格的依存关系,,现象中变量关系不是对等的;,相关关系是变量之间数量上不严格的依存,关系,现象中变量关系是完全对等的。, 联系:,由于存在观察或实验中出现的误差等原因,,关系值不能绝对确定,函数关系有时通过相关,关系反映出来;,而当对现象之间的内在联系和规律性了解得,很清楚的时候,相关关系又常常借助于函数关系,的形式近似地将它表现出来。,二、相关关系的种类,(一)按相关关系涉及的因素多少可分为, 单相关:,是涉及两个变量之间的相关关系, 复相关:,涉及三个或三个以上变量之间的相关关系, 偏相关:,在一个变量与多个变量相关时, 假定其他,变量不变,只研究其中两个变量之间的相关关系。,(二)按相关关系的表现形态可分为, 直线相关:,是指当一个变量发生变动时,另一个变量,大致沿着一个方向(增加或减少)发生均等的,变动,在坐标图上近似表现为直线。, 曲线相关:,是指两种相关变量之间不表现为直线的,关系,而是近似于某种曲线的关系。,(三)按相关变量的变化方向分为:, 正相关:,是指一个变量的数值增加(减少)时,,另一个变量的数值也相应的增加(减少)。, 负相关:,是指一个变量的数值增加(减少)时,,另一个变量的数值相应地减少(增加)。,(四)按相关关系的程度分为:,完全相关:,两个变量之间有确定的函数关系,不相关:,两个变量之间各自独立、不存在依存关系,不完全相关:,两个有联系的变量,当一个变量变化时另一,变量也随之发生变化,但两者不存在严格的函数关系。,(五)按相关性质分为:,真实相关:,是指两个变量之间的相关关系确实并具有,内在的联系。,虚假相关:,是指两个变量之间的相关只是表面存在,,实质上并没有内在联系。,三、相关分析的概念及内容,概念:,相关分析是研究两个或两个以上变量之间,相关方向和相关密切程度的统计分析方法。,在相关分析,中不必确定变量中哪个是自变量,哪个是因变量。其所涉及的变量都是随机,变量,是对等关系。, 相关分析的主要内容有:,(一)确定变量之间有无相关关系以及相关,关系的表现形式,(二)确定变量之间相关的密切程度,(三)建立合适的数学模型,(四)测定变量估计值的可靠程度,第二节 线性相关的测定,一、相关表与相关图,相关表:,就是用表格形式反映变量之间,相关关系的统计表。根据数据资料是否进行,分组,可为简单相关表和分组相关表。,相关图:,又称散点图,它是以直角坐标系,的横轴代表变量,x,,纵轴代表变量,y,,将两变量,间相对应的变量值用坐标点的形式描绘出来,,用于反映两变量之间相关关系的图形。,(一)简单相关表与相关图,简单相关表是资料未经分组,将某一变量按其变量值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列所形成的表。,(二)分组相关表与相关图,分组相关表就是将原始数据进行分组而编制的相关表。根据分组的情况不同,可以分为单变量分组相关表和双变量分组相关表。, 单变量分组相关表:,是对有相关关系的两个变量中,只根据一个,变量进行分组并计算次数,而另一个变量不进行,分组,只计算平均数。, 双变量分组相关表:,是对两个变量都进行分组而编制的相关表,二、相关系数,相关系数:,是反映变量之间相关关系密切,程度的统计分析指标。,根据线性相关变量的多少、分析问题的角度不同,相关系数可分为,:,简单相关系数,偏相关系数,复相关系数,(一)相关系数的计算,1,、积差法,式中:,r,相关系数;,x,与,y,变量数列的协方差;,x,变量数列的标准差;,y,变量数列的标准差。,因此相关系数也可写成:,2,、简捷法,:,其中:,3,、分组相关表相关系数的计算,对于单变量分组相关表计算相关系数,,其计算公式为:,简捷法计算公式为:,式中:,f,为分组变量的频数,对于双变量分组相关表计算相关系数,,其计算公式为:,式中:,f,x,x,组的频数;,f,y,y,组的频数;,f,xy,x,与,y,交错,组的频数。,(二)相关系数的密切程度,相关系数的取值范围,:,表明两个变量为负相关,表明两个变量为正相关,表明两个变量完全线性相关,表明两个变量之间无线性相关,第三节 一元线性回归分析,一、回归分析的概念,回归,一词,是英国统计学家高尔顿(,Francis,Galton,),1889,年在研究祖先与后代的身高之间的,相互关系,发表关于遗传论文时首先应用的名词,,高尔顿研究出,当父母亲特别高或特别矮时,其,子女的身高则是趋向于他家族人(祖父,叔父,,伯父,)身高的平均数,即儿女身高有返归于,家族高度的趋势,也就是回归于一般平均高度。,高尔顿称这种趋势为回归原理。这是回归在遗传,上的含义。,回归分析:,就是对具有相关关系的变量之间数量变化的,一般关系进行测定,确定一个合适的回归方程,,据以进行估计或预测的统计方法。,回归分析根据回归模型的形式分为:,线性回归分析,非线性回归分析,根据所研究变量的多少分为:,一元回归分析,多元回归分析,一元线性回归分析的特点如下:,1,、回归分析中,两个变量之间的关系是不对等,的,因此必须根据研究目的,具体确定自变量与,因变量。,2,、回归分析中的两个变量,自变量是给定的,确定性变量,因变量是随机变量。,3,、在两个变量互为因果关系的情况下,可以有,两个回归方程:,y,倚,x,变化的回归方程和,x,倚,y,变化,的回归方程。,但不同方程所说明的问题是不一样的。,二、一元线性回归模型与回归方程,一元线性回归模型:,是用于分析一个自变量,x,与一个变量,y,之间线性,关系的数学方程。,一元线性回归的,数学模型为,:,(,i,= 1,,,2,,,,,n,),式中:,0,、,1,待估参数;,随机误差,是服从正态分布,N,(0,2,),的随机变量,且独立。,线性回归方程,:,式中:,因变量的估计值;,x,自变量;,b,0,回归直线的截距,,0,的估计值;,b,1,回归直线的斜率,为回归系数,它表示当,x,变动一个单位时,,y,的平均变动量。,1,的估计值。,根据最小二乘法:,解此方程组,则得参数,0,、,1,的估计值,b,0,、,b,1,:,三、一元线性回归方程的检验,(一)离差平方和的分解,总的离差平方和的分解公式为:,即:,总离差平方和回归平方和剩余平方和,也即:,一元线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,1,剩余,n,2,总,n,1,(二),r,检验,定义可决系数为:,可决系数,用来表示因变量受自变量影响的,程度,即,度量回归方程对观察值的拟合优度。,可决系数的取值范围:,可决系数与相关系数有如下关系:,r,检验的步骤如下:,1,、,根据公式计算相关系数,r,;,2,、,根据给的的显著性水平,,查相关系数检验,表,得临界值 ;,3,、,判别:若 ,表明,x,与,y,线性相关,关系显著,检验通过;反之,表明,x,与,y,线性,相关关系不显著。,(三)估计标准误差,剩余方差的平方根为估计标准误差,即:,简化为:,(四),F,检验,F,检验的目的是检验已建立的回归方程是否,具有显著性,即检验假设 是否成立。,F,统计量为:,F,检验的步骤是:,1,、,提出假设 , ;,2,、,计算,F,值;,3,、,根据给定的显著性水平 ,查,F,分布表,得临界,值 ;,4,、,判别:若 ,则拒绝假设 ,,认为,x,与,y,之间存在着显著的线性关系,即回归方程,显著;反之,接受 ,则认为,x,与,y,之间不存,在线性关系,即回归方程不显著。,(五),t,检验,t,检验是检验自变量对因变量是否具有显著的,线性关系,即检验假设 , ,是否成立。,在小样本时,可运用,t,检验,,t,统计量为:,(,j = 0,,,1,),t,检验的步骤为:,1,、,提出假设 , ;,2,、,计算,t,值;,3,、,根据给定的显著性水平 ,查,t,分布表,,得临界值 ;,4,、,比较:若 ,拒绝,H,0,假设,说明,x,与,y,之间存在着线性关系;反之,接受,H,0,则认为,x,与,y,之间不存在着线性关系。,如果回归方程上述检验没有通过,其原因,可能有以下几种,要进一步查清,加以处理。,1,、影响,变量,y,的除变量,x,外还有其他的,不可忽略的因素。,2,、变量,y,与变量,x,的关系不是线性的,,即可能是曲线关系。,3,、变量,y,与变量,x,没有关系。,四、一元线性回归方程的预测,对一元线性回归方程的检验通过后,说明其回归,方程是可信的,那就要利用回归方程进行预测。,当为小样本时,,故 的置信度为的置信区间为:,当为大样本时,故 的置信度为的置信区间为:,当,n,相当大且,x,0,又离 较近时,回归线两侧的,为直线,因此 的,95.45,置信区间可近似为:,第四节 多元线性回归分析,多元回归分析,是指在线性相关条件下,,研究两个或两个以上的自变量与因变量之间,的数量变化关系。,多元线性回归分析的基本原理与一元线性,回归分析相同,只是涉及的变量多一些,计算,复杂些。,一、二元线性回归分析,(一)二元线性回归模型与回归方程,二元线性回归模型是用于分析两个自变量,与一个自变量之间线性关系的数学方程。,其数学模型为:,二元线性回归方程:,因变量的估计值;,x,1, x,2,自变量,;,b,0,常数项,,0,的估计值;,b,1,y,对,x,1,的回归系数,表示当,x,2,固定时,,x,1,变,动一个单位,引起,y,的平均变动量,,1,的估计值;,b,2,y,对,x,2,的回归系数,表示当,x,1,固定时,,x,2,变,动一个单位,引起,y,的平均变动量,,2,的估计值。,根据最小二乘法,有,:,通过整理,为了表述的方便,我们令:,则有:,由此方程组可得估计值的计算公式:,(二)二元线性回归方程的检验,m,元,线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,m,剩余,n,m,1,总,n,1,1,、,r,检验,复可决系数为:,修正的复可决系数为:,复可决系数的平方根,r,为复相关系数,,其计算公式为:,复相关系数的取值范围为:,2,、估计标准误差,剩余方差的平方根为估计标准误差,即:,经过代数变换,可得其简化公式:,3,、,F,检验,F,检验是用来检验假设,H,0,:,1,=,2,=0,是否,成立,,F,统计量为:,按给定的显著性水平 查,F,分布表,,若 ,拒绝,H,0,假设,,,认为自变量,x,1,、,x,2,与因变量,y,的线性统计关系显著;反之,则接受,H,0,假设,说明两个自变量与因变量线性统计关系不显著。,4,、,t,检验,t,检验是建立假设:,。,t,统计量为:,(j =1,,,2,,,,,m),对于二元线性回归方程:,(三)二元线性回归方程的预测,与一元线性回归分析法类似,只是预测区间公式较为复杂,在实际中通常用简化的公式估计预测对象,y,0,的置信度为,1, 的置信区间:,二、,m,元线性回归分析,(,一),m,元线性回归模型和回归方程,假定因变量,y,i,与自变量,x,i1,,,x,i2,,,,,x,im,之间,存在着某种线性关系,:,当给定一组自变量和因变量的观察值时,多元线性回归的,数学模型为 :,其中: , , ,,, 是,m,1,个待估计的参数;,x,1,,,x,2,,,x,3,,,,,x,m,,,是可以测量或控制的,m,个自变量;,, ,,, 是,n,个相互独立且服从同一,正态,分布 的随机误差。,数学模型用矩阵表示为:,式中:,式中:,Y,为因变量向量;,X,为,自变量矩阵;,B,为待估,参数向量;,U,为随机误差向量。,由最小二乘法矩阵形式的多元线性回归方程为:,我们知道剩余平方和为:,根据微分的极值原理,要使 最小,对,求偏导,并令其等于零:,则得一标准矩阵方程:,因为 可逆,所以有:,(二),m,元线性回归方程的检验,m,元线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,m,剩余,n-m,-1,总,n,1,1,、,r,检验,复可决系数为:,复相关系数为:,2,、,估计标准误差,是剩余方差的平方根,用,S,表示。,其计算公式为:,3,、,F,检验,F,检验用来假设,是否成立,矩阵形式的,F,统计量,为:,4,、,t,检验,t,检验检验假设,,(,j,=1,,,2,,,,,m,),,t,为统计量:,(,j,=1,,,2,,,,,m,),式中,,C,jj,为矩阵 主对角线上的第,j,个元素。,(,三)因变量的预测及预测区间估计,对于,m,元线性回归的因变量预测公式的,矩阵形式为:,式中:,m,元线性回归方程的因变量预测区间用,公式表示为:,第五节 非线性回归分析,在实际问题中,有些回归方程的因变量与,自变量之间并不是线性关系,而是某种曲线关,系,因此就需要配合适当的曲线方程,这种为,实际观察值拟合曲线回归方程所进行的分析为,非线性回归分析。非线性回归分析按自变量的,个数也可分为一元非线性回归分析和多元非线,性回归分析。, 非线性回归分析一般分两个步骤进行:,确定非线性函数变量之间关系的类型。,确定非线性回归函数中的未知参数。首先要,通过一些变量把非线性函数关系转换成线性关系,,然后利用最小二乘法确定方程中的参数,并对建立,的线性回归方程进行显著性检验和区间估计。,曲线拟合的优度通过计算相关指数,R,来加以,选择。相关指数的计算公式为:,相关指数,R,的取值范围:,R,越接近于,1,,说明所配曲线与实际观察值,吻合程度越高,反之越低。,
展开阅读全文