统计学第三版孙静娟09

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九章相关与回归分析,第一节相关分析概述,一、相关关系的概念,变量之间的依存关系有两种不同的类型：,函数关系,相关关系,函数关系,是指变量之间存在着严格的数量依存关系。,在这种关系中，当一个或几个变量取一定的,值时，另一个变量有确定值与之相对应，并且这,种关系可以用一个数学表达式反映出来。,相关关系,是指变量之间存在的不确定的依存关系。,在这种关系中，当一个或几个相互联系的,变量取一定的值时，与之相对应的变量会有多,个数值，表现出不确定，然而它仍按某种规律,在一定的范围内变化。,在相关关系中，变量之间的联系有两种情况：,一种是变量之间存在着一定的因果关系。,另一种是两个变量之间只存在相互联系而,不存在明显的因果关系。, 函数关系与相关关系的区别和联系, 区别：,函数关系是变量之间数量上严格的依存关系，,现象中变量关系不是对等的；,相关关系是变量之间数量上不严格的依存,关系，现象中变量关系是完全对等的。, 联系：,由于存在观察或实验中出现的误差等原因，,关系值不能绝对确定，函数关系有时通过相关,关系反映出来；,而当对现象之间的内在联系和规律性了解得,很清楚的时候，相关关系又常常借助于函数关系,的形式近似地将它表现出来。,二、相关关系的种类,（一）按相关关系涉及的因素多少可分为, 单相关：,是涉及两个变量之间的相关关系, 复相关：,涉及三个或三个以上变量之间的相关关系, 偏相关：,在一个变量与多个变量相关时，假定其他,变量不变，只研究其中两个变量之间的相关关系。,（二）按相关关系的表现形态可分为, 直线相关：,是指当一个变量发生变动时，另一个变量,大致沿着一个方向（增加或减少）发生均等的,变动，在坐标图上近似表现为直线。, 曲线相关：,是指两种相关变量之间不表现为直线的,关系，而是近似于某种曲线的关系。,（三）按相关变量的变化方向分为：, 正相关：,是指一个变量的数值增加（减少）时，,另一个变量的数值也相应的增加（减少）。, 负相关：,是指一个变量的数值增加（减少）时，,另一个变量的数值相应地减少（增加）。,（四）按相关关系的程度分为：,完全相关：,两个变量之间有确定的函数关系,不相关：,两个变量之间各自独立、不存在依存关系,不完全相关：,两个有联系的变量，当一个变量变化时另一,变量也随之发生变化，但两者不存在严格的函数关系。,（五）按相关性质分为：,真实相关：,是指两个变量之间的相关关系确实并具有,内在的联系。,虚假相关：,是指两个变量之间的相关只是表面存在，,实质上并没有内在联系。,三、相关分析的概念及内容,概念：,相关分析是研究两个或两个以上变量之间,相关方向和相关密切程度的统计分析方法。,在相关分析,中不必确定变量中哪个是自变量，哪个是因变量。其所涉及的变量都是随机,变量，是对等关系。, 相关分析的主要内容有：,（一）确定变量之间有无相关关系以及相关,关系的表现形式,（二）确定变量之间相关的密切程度,（三）建立合适的数学模型,（四）测定变量估计值的可靠程度,第二节线性相关的测定,一、相关表与相关图,相关表：,就是用表格形式反映变量之间,相关关系的统计表。根据数据资料是否进行,分组，可为简单相关表和分组相关表。,相关图：,又称散点图，它是以直角坐标系,的横轴代表变量,x,，纵轴代表变量,y,，将两变量,间相对应的变量值用坐标点的形式描绘出来，,用于反映两变量之间相关关系的图形。,（一）简单相关表与相关图,简单相关表是资料未经分组，将某一变量按其变量值的大小顺序排列，然后再将与其相关的另一变量的对应值平行排列所形成的表。,（二）分组相关表与相关图,分组相关表就是将原始数据进行分组而编制的相关表。根据分组的情况不同，可以分为单变量分组相关表和双变量分组相关表。, 单变量分组相关表：,是对有相关关系的两个变量中，只根据一个,变量进行分组并计算次数，而另一个变量不进行,分组，只计算平均数。, 双变量分组相关表：,是对两个变量都进行分组而编制的相关表,二、相关系数,相关系数：,是反映变量之间相关关系密切,程度的统计分析指标。,根据线性相关变量的多少、分析问题的角度不同，相关系数可分为,:,简单相关系数,偏相关系数,复相关系数,（一）相关系数的计算,1,、积差法,式中：,r,相关系数；,x,与,y,变量数列的协方差；,x,变量数列的标准差；,y,变量数列的标准差。,因此相关系数也可写成：,2,、简捷法,：,其中：,3,、分组相关表相关系数的计算,对于单变量分组相关表计算相关系数，,其计算公式为：,简捷法计算公式为：,式中：,f,为分组变量的频数,对于双变量分组相关表计算相关系数，,其计算公式为：,式中：,f,x,x,组的频数；,f,y,y,组的频数；,f,xy,x,与,y,交错,组的频数。,（二）相关系数的密切程度,相关系数的取值范围,:,表明两个变量为负相关,表明两个变量为正相关,表明两个变量完全线性相关,表明两个变量之间无线性相关,第三节一元线性回归分析,一、回归分析的概念,回归,一词，是英国统计学家高尔顿（,Francis,Galton,）,1889,年在研究祖先与后代的身高之间的,相互关系，发表关于遗传论文时首先应用的名词，,高尔顿研究出，当父母亲特别高或特别矮时，其,子女的身高则是趋向于他家族人（祖父，叔父，,伯父,）身高的平均数，即儿女身高有返归于,家族高度的趋势，也就是回归于一般平均高度。,高尔顿称这种趋势为回归原理。这是回归在遗传,上的含义。,回归分析：,就是对具有相关关系的变量之间数量变化的,一般关系进行测定，确定一个合适的回归方程，,据以进行估计或预测的统计方法。,回归分析根据回归模型的形式分为：,线性回归分析,非线性回归分析,根据所研究变量的多少分为：,一元回归分析,多元回归分析,一元线性回归分析的特点如下：,1,、回归分析中，两个变量之间的关系是不对等,的，因此必须根据研究目的，具体确定自变量与,因变量。,2,、回归分析中的两个变量，自变量是给定的,确定性变量，因变量是随机变量。,3,、在两个变量互为因果关系的情况下，可以有,两个回归方程：,y,倚,x,变化的回归方程和,x,倚,y,变化,的回归方程。,但不同方程所说明的问题是不一样的。,二、一元线性回归模型与回归方程,一元线性回归模型：,是用于分析一个自变量,x,与一个变量,y,之间线性,关系的数学方程。,一元线性回归的,数学模型为,：,（,i,= 1,，,2,，,，,n,）,式中：,0,、,1,待估参数；,随机误差，是服从正态分布,N,(0,2,),的随机变量，且独立。,线性回归方程,:,式中：,因变量的估计值；,x,自变量；,b,0,回归直线的截距，,0,的估计值；,b,1,回归直线的斜率，为回归系数，它表示当,x,变动一个单位时，,y,的平均变动量。,1,的估计值。,根据最小二乘法：,解此方程组，则得参数,0,、,1,的估计值,b,0,、,b,1,：,三、一元线性回归方程的检验,（一）离差平方和的分解,总的离差平方和的分解公式为：,即：,总离差平方和回归平方和剩余平方和,也即：,一元线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,1,剩余,n,2,总,n,1,（二）,r,检验,定义可决系数为：,可决系数,用来表示因变量受自变量影响的,程度，即,度量回归方程对观察值的拟合优度。,可决系数的取值范围：,可决系数与相关系数有如下关系：,r,检验的步骤如下：,1,、,根据公式计算相关系数,r,；,2,、,根据给的的显著性水平,，查相关系数检验,表，得临界值；,3,、,判别：若，表明,x,与,y,线性相关,关系显著，检验通过；反之，表明,x,与,y,线性,相关关系不显著。,（三）估计标准误差,剩余方差的平方根为估计标准误差，即：,简化为：,（四）,F,检验,F,检验的目的是检验已建立的回归方程是否,具有显著性，即检验假设是否成立。,F,统计量为：,F,检验的步骤是：,1,、,提出假设，；,2,、,计算,F,值；,3,、,根据给定的显著性水平，查,F,分布表，得临界,值；,4,、,判别：若，则拒绝假设，,认为,x,与,y,之间存在着显著的线性关系，即回归方程,显著；反之，接受，则认为,x,与,y,之间不存,在线性关系，即回归方程不显著。,（五）,t,检验,t,检验是检验自变量对因变量是否具有显著的,线性关系，即检验假设，，是否成立。,在小样本时，可运用,t,检验，,t,统计量为：,（,j = 0,，,1,）,t,检验的步骤为：,1,、,提出假设，；,2,、,计算,t,值；,3,、,根据给定的显著性水平，查,t,分布表，,得临界值；,4,、,比较：若，拒绝,H,0,假设，说明,x,与,y,之间存在着线性关系；反之，接受,H,0,则认为,x,与,y,之间不存在着线性关系。,如果回归方程上述检验没有通过，其原因,可能有以下几种，要进一步查清，加以处理。,1,、影响,变量,y,的除变量,x,外还有其他的,不可忽略的因素。,2,、变量,y,与变量,x,的关系不是线性的，,即可能是曲线关系。,3,、变量,y,与变量,x,没有关系。,四、一元线性回归方程的预测,对一元线性回归方程的检验通过后，说明其回归,方程是可信的，那就要利用回归方程进行预测。,当为小样本时，,故的置信度为的置信区间为：,当为大样本时，故的置信度为的置信区间为：,当,n,相当大且,x,0,又离较近时，回归线两侧的,为直线，因此的,95.45,置信区间可近似为：,第四节多元线性回归分析,多元回归分析，是指在线性相关条件下，,研究两个或两个以上的自变量与因变量之间,的数量变化关系。,多元线性回归分析的基本原理与一元线性,回归分析相同，只是涉及的变量多一些，计算,复杂些。,一、二元线性回归分析,（一）二元线性回归模型与回归方程,二元线性回归模型是用于分析两个自变量,与一个自变量之间线性关系的数学方程。,其数学模型为：,二元线性回归方程：,因变量的估计值；,x,1, x,2,自变量,;,b,0,常数项，,0,的估计值；,b,1,y,对,x,1,的回归系数，表示当,x,2,固定时，,x,1,变,动一个单位，引起,y,的平均变动量，,1,的估计值；,b,2,y,对,x,2,的回归系数，表示当,x,1,固定时，,x,2,变,动一个单位，引起,y,的平均变动量，,2,的估计值。,根据最小二乘法，有,:,通过整理，为了表述的方便，我们令：,则有：,由此方程组可得估计值的计算公式：,（二）二元线性回归方程的检验,m,元,线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,m,剩余,n,m,1,总,n,1,1,、,r,检验,复可决系数为：,修正的复可决系数为：,复可决系数的平方根,r,为复相关系数，,其计算公式为：,复相关系数的取值范围为：,2,、估计标准误差,剩余方差的平方根为估计标准误差，即：,经过代数变换，可得其简化公式：,3,、,F,检验,F,检验是用来检验假设,H,0,:,1,=,2,=0,是否,成立，,F,统计量为：,按给定的显著性水平查,F,分布表，,若，拒绝,H,0,假设,，,认为自变量,x,1,、,x,2,与因变量,y,的线性统计关系显著；反之，则接受,H,0,假设，说明两个自变量与因变量线性统计关系不显著。,4,、,t,检验,t,检验是建立假设：,。,t,统计量为：,(j =1,，,2,，,，,m),对于二元线性回归方程：,（三）二元线性回归方程的预测,与一元线性回归分析法类似，只是预测区间公式较为复杂，在实际中通常用简化的公式估计预测对象,y,0,的置信度为,1, 的置信区间：,二、,m,元线性回归分析,（,一）,m,元线性回归模型和回归方程,假定因变量,y,i,与自变量,x,i1,，,x,i2,，,，,x,im,之间,存在着某种线性关系,：,当给定一组自变量和因变量的观察值时，多元线性回归的,数学模型为：,其中：，，，,，是,m,1,个待估计的参数；,x,1,，,x,2,，,x,3,，,，,x,m,，,是可以测量或控制的,m,个自变量；,，，,，是,n,个相互独立且服从同一,正态,分布的随机误差。,数学模型用矩阵表示为：,式中：,式中：,Y,为因变量向量；,X,为,自变量矩阵；,B,为待估,参数向量；,U,为随机误差向量。,由最小二乘法矩阵形式的多元线性回归方程为：,我们知道剩余平方和为：,根据微分的极值原理，要使最小，对,求偏导，并令其等于零：,则得一标准矩阵方程：,因为可逆，所以有：,（二）,m,元线性回归方程的检验,m,元线性回归方差分析表,离差来源,离差平方和,自由度,方差,回归,m,剩余,n-m,-1,总,n,1,1,、,r,检验,复可决系数为：,复相关系数为：,2,、,估计标准误差,是剩余方差的平方根，用,S,表示。,其计算公式为：,3,、,F,检验,F,检验用来假设,是否成立，矩阵形式的,F,统计量,为：,4,、,t,检验,t,检验检验假设,，（,j,=1,，,2,，,，,m,），,t,为统计量：,（,j,=1,，,2,，,，,m,）,式中，,C,jj,为矩阵主对角线上的第,j,个元素。,（,三）因变量的预测及预测区间估计,对于,m,元线性回归的因变量预测公式的,矩阵形式为：,式中：,m,元线性回归方程的因变量预测区间用,公式表示为：,第五节非线性回归分析,在实际问题中，有些回归方程的因变量与,自变量之间并不是线性关系，而是某种曲线关,系，因此就需要配合适当的曲线方程，这种为,实际观察值拟合曲线回归方程所进行的分析为,非线性回归分析。非线性回归分析按自变量的,个数也可分为一元非线性回归分析和多元非线,性回归分析。, 非线性回归分析一般分两个步骤进行：,确定非线性函数变量之间关系的类型。,确定非线性回归函数中的未知参数。首先要,通过一些变量把非线性函数关系转换成线性关系，,然后利用最小二乘法确定方程中的参数，并对建立,的线性回归方程进行显著性检验和区间估计。,曲线拟合的优度通过计算相关指数,R,来加以,选择。相关指数的计算公式为：,相关指数,R,的取值范围：,R,越接近于,1,，说明所配曲线与实际观察值,吻合程度越高，反之越低。,

展开阅读全文

统计学第三版孙静娟09

最新文档