资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第十章,回归分析,第一节 回归分析的概述,第二节 参数估计,第三节 假设检验,第四节 预测与控制,第五节 非线性回归的线性化处理,第一节 回归分析的概述,一个过程中多个变量之间的关系分为两类:,确定性关系,也就是通常所说的函数关系;,非确定性关系,即所谓的相关关系。,确定性关系是指当一些变量的值确定以后另一些变量的值也随之完全确定的关系。,相关关系是指变量之间有一定的依赖关系,但当一些变量的值确定以后,另一些变量的值虽随之变化却并不能完全确定,这时变量间的关系不能精确地用函数来表示。,上一页,下一页,返回,(1),给出建立具有相关关系的变量之间的数学关系式(通常称为经验公式)的一般方法;,(2),判别所建立的经验公式是否有效;判别哪些预报变量对响应变量的影响是显著的,哪些是不显著的;,(3),利用所得到的经验公式进行预测和控制。,回归分析(,regression analysis,),是数理统计中研究一个响应变量与若干个预报变量之间相关关系的一种有效方法;其中只有一个预报变量的回归分析称为一元回归分析,多于一个预报变量的回归分析称为,多元回归分析。,回归分析的任务主要有三个:,上一页,下一页,返回,一元回归分析与最小二乘法,取定,x,时随机变量,y,的数学期望,E(y|x),作为,x,时随机变量,y,的估计值,即,显然,当,x,变化时,E(Y|X=x),是,x,的函数,记作,可以用一个确定的函数关系式,大致地描述,y,与,x,之间的相关关系。,函数,称为,y,关于,x,的回归函数,简称,回归,;,称为,y,关于,x,的回归方程。,上一页,下一页,返回,回归方程反映了,y,的数学期望,E(y),随,x,的变化而变化的规律性。,y,与,x,的相关关系表示为,是随机误差,它是均值为零的随机变量,,通常假定,是不依赖于,X,的未知参数。,的大小在一定程度上反映了在,x,处随机变量,y,的观测值的大小,如能找到,就能在一定条件下解决如下两个问题:,1.,在给定的置信度下,估计当,x,取某一定值时,y,的取值情况,这就是所谓的,预测问题,;,2.,在给定的置信度下,控制,X,的取值范围以使,y,在给定的范围内取值,这就是所谓的,控制问题,。,上一页,下一页,返回,通常先限制 为某一类型的函数。函数,的类型可以由与被研究问题的本质有关的物理假设来确定;若没有任何理由可以确定函数,的类型,则只能根据在试验结果中得到的散点图来确定。,在确定了函数 的类型后,就可以设,其中,a,1,a,2,a,k,为未知参数。,寻找合适的回归函数,的问题就归结为:如何根据试验数据合理地选择参数,a,1,a,2,a,k,的估计值,上一页,下一页,返回,这些估计值使得方程,在一定的,意义下“最佳地”表现变量,Y,与,X,之间的相关关系。,选取 中参数,使得观测值,y,i,与相应的函数值,(,i=1,2n,),的偏差平方和为最小,这就是所谓的,最小二乘法,。,最小二乘法的概率意义,:设当可控变量,X,取任意实数,x,时,随机变量,Y,服从正态分布 ,即,Y,的概率密度为,其中 ,而 是不依赖于,x,的常数。,上一页,下一页,返回,在,n,次独立试验中得到观测值(,x,1,y,1,),(,x,2,y,2,),(,x,n,y,n,),,利用极大似然估计法估计未知参数,a,1,a,2,,,a,k,时,有似然函数,似然函数,L,取得极大值,上式指数中的平方和,取最小值。,即为了使观测值(,x,i,y,i,),(,i=1,2,n,),出现的可能性最大,应当选择参数,a,1,a,2,a,k,,,使得观测值,y,i,与相应的函数值,的偏差平方和最小。这就是最小二乘法 的概率意义。,上一页,下一页,返回,解方程组求出参数,a,1,a,2,a,k,的估计值(这样求出的参数,a,1,a,2,a,k,的估计,称为,最小二乘估计,(,least squares estimation,简称,LSE,),再求回归方程的估计式(称为,经验回归方程,)。,分别求,S,对,a,1,a,2,a,k,的偏导数,并令它们等于零,就得到,上一页,下一页,返回,1,、一元线性回归,回归方程为,方程的图形称为回归直线。,x,y,的相关关系可表示为,其中,a,b,2,为不依赖于,x,的未知参数,上式称为一元线性回归模型,简称一元线性模型。当,y,与,x,间满足这种关系时,,y,与,x,间有线性相关关系。,考虑回归函数 是线性函数,即 ,这就是所谓的一元线性回归分析。,回归方程为,第二节 参数估计,上一页,下一页,返回,用最小二乘法确定未知参数,a,及,b,。,考虑试验点关于回,归直线的偏差平方和,分别求,Q,对,a,及,b,的偏导数,令它们等于零,得方程组,上一页,下一页,返回,线性回归方程为,称为经验回归系数(也称回归系数),对应的直线称为经验回归直线(简称回归直线)。,亦可表示为,上一页,下一页,返回,上一页,下一页,返回,例,1,Pearson,测量了,10,对父子的身高,所得数据如下,(单位:英寸),父亲身高,60,62,64,66,67,68,70,72,74,儿子身高,63.6,65.2,66,66.9,67.1,67.4,68.3,70.1,70,求儿子身高,y,关于父亲身高,x,的回归方程。,上一页,下一页,返回,可知,当父亲身高高于或低于父代身高的平均值时,儿子的身高有向子代的平均身高靠近的趋势,这就是“回归”。,上一页,下一页,返回,2,、多元线性回归,上一页,下一页,返回,正规方程,上一页,下一页,返回,上一页,下一页,返回,当且仅当,b0,时,变量,Y,与,X,之间存在线性相关关系,为了检验,Y,与,X,之间的线性相关的显著性,应当检验原假设,H,0,:,b=0,是否成立。,若拒绝,H,0,,,则认为,Y,与,X,之间存在线性关系,所求得得线性回归方程有意义;若接受,H,0,,,则认为,Y,与,X,得关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义。,第三节 假设检验,上一页,下一页,返回,1,、,方差分析法(,F,检验法),考察样本,y,1,y,2,y,n,的偏差平方和,或称总平方和,剩余平方和,反映了观测值偏离回归直线的程度,这种偏离是由于观测误差等随机因素引起的。,上一页,下一页,返回,回归平方和它反映回归值的分散度,这种分散是由于,Y,与,X,之间得线性相关关系引起的;,统计量,上一页,下一页,返回,例,1,在上例中,利用方差分析检验儿子的身高,Y,与父亲身高,X,之间的线性相关关系是否显著。,上一页,下一页,返回,方差来源,平方和,自由度,F,值,临界值,显著性,回归,剩余,37.035,1.494,1,8,198.313,F,0.01,(1,8)=11.26,*,总计,38.529,9,因为,F,F,0.01,(1,8),,,所以儿子的身高,Y,与父亲的身高,X,之间的线性相关关系特别显著。,上一页,下一页,返回,2.,相关系数检验法,(,r,检验法),考察相关系数,r,的大小,:,若相关系数,r,的绝对值很小,则表明,y,与,x,之间的线性相关关系不显著,或者根据不存在线性相关关系,若相关系数,r,的绝对值较大,(,接近于,1),时,才表明,y,与,x,之间的线性相关关系显著,上一页,下一页,返回,上一页,下一页,返回,r,检验法的步骤和法则为,:,由试验数据计算出相关系数,r,的值并与临界值比较,.,上一页,下一页,返回,3,、,t,检验法,上一页,下一页,返回,1,、预测,第四节 预测与控制,x,与,y,之间的关系不是确定的,所以对于任意给定,x,0,不可能精确地知道相应值,y,0,。将,x,=,x,0,代入线性回归方程只能得到,y,0,的估计值(回归值),对,y,0,进行区间估计,即给定的置信度,1-,,求出,y,0,的置信区间(称为预测区间),这就是所谓的预测问题。,上一页,下一页,返回,y,0,的置信水平为,1-,的预测区间为,上一页,下一页,返回,y,0,的置信水平为,1-,的预测区间近似为,上一页,下一页,返回,例如,置信度为,95%,预测区间是,置信度为,99%,预测区间是,若在回归直线,的上下两侧分别作与回归直线平行的直线,及,则可以预料,在所有可能出现的试验点(,x,i,y,i,),(,i=1,2,n,),中,大约有,95,的点在这两条直线之间的带型区域内。,上一页,下一页,返回,例,1:,在上例中,若父亲身高为,70,英寸,求其儿子的身高的置信度为,95%,的预测区间。,当,x,0,70,时,有,已经计算得,Q,剩,1.494,,,解:已经求得线性回归方程为,所求得置信度为,95,的预测区间是,(,68.499,1.960.432,,,68.499,1.960.432,),即(,67.656,,,69.346,)英寸,上一页,下一页,返回,2,、控制,上一页,下一页,返回,上一页,下一页,返回,第五节 非线性回归的线性化处理,对于复杂的非线性回归问题,一般采用变量代换法将非线性模型线性化,在按照线性回归方法进行处理,.,上一页,下一页,返回,上一页,下一页,返回,例,1:,在彩色显象中,根据以往的经验知道,形成染料光学密度,y,与析出银的光学密度,x,之间有下面类型的关系式,:,现对,y,及,x,同时作,11,次观察,测得试验数据如下,x,i,y,i,x,i,y,i,x,i,y,i,0.05,0.10,0.14,0.59,0.38,1.19,0.06,0.14,0.20,0.79,0.43,1.25,0.07,0.23,0.25,1.00,0.47,1.29,0.10,0.37,0.31,1.12,求,y,关于,x,的回归方程,.,上一页,下一页,返回,解:这是非线性回归问题。由已知的经验公式,两边取对数,得,作变量替换,并设,a,=,ln,A,则有,(,u,i,v,i,),(,i,=1,2,11),的数据如下表,上一页,下一页,返回,由此计算,计算样本相关系数,查附录表,10,得,当,n,-2=11-2=9,时,,上一页,下一页,返回,上一页,下一页,返回,上一页,下一页,返回,
展开阅读全文