第五章回归分析-统计计算及方法课件

上传人:94****0 文档编号:242636704 上传时间:2024-08-30 格式:PPT 页数:113 大小:1.53MB
返回 下载 相关 举报
第五章回归分析-统计计算及方法课件_第1页
第1页 / 共113页
第五章回归分析-统计计算及方法课件_第2页
第2页 / 共113页
第五章回归分析-统计计算及方法课件_第3页
第3页 / 共113页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章 回归分析,回归分析,一元线性回归,多元线性回归,非线性回归,第五章 回归分析,2,5.0,引言,回归名称的由来,回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计学中应用最广泛的分支之一,.,25.0 引言回归名称的由来回归分析是研究变量之间相互依赖,3,回归分析的基本思想以及 “回归”名称的由来最初是由,英国生物学家兼统计学家高尔顿,提出来的,.,他从一千多对父母身高与其子女身高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象,.,3 回归分析的基本思想以及 “回归”名称的由来最初是,4,正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现象叫,回归,,这就是“回归”一词的最初含义,.,现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。,4 正是因为儿子的身高有回到同龄人平均身高的这种趋势,,在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:,(1),确定性关系,-,函数关系,(2),非确定性关系,-,相关关系,:变量之间有一定的依赖关系,但这种关系并不完全确定。,可控变量:可以在某范围内随意地取指定数值,-,自变量,不可控变量,:,可以观测但不可控制,(,随机变量,)-,因变量,在现实问题中处于同一个过程中的一些变量往往是相,6,例,2,人的血压,y,与年龄,x,之间的关,系,不可能由一个人的年龄完全确定,他的血压,.,一般说人的年龄越大血压,越高,但年龄相同者,血压未必相同,.,例,1,人的体重,y,与身高,x,之间的关系,一般来说,身高高一些,体重也要重,一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同,.,6 例2 人的血压y与年龄x之间的关 例1 人的体重y与,7,这几个例子中的两个变量之间都有,一定的关系,且是一种,非确定性,的关系,称这类关系为,相关关系,.,例,3,水稻亩产量,y,与其施肥量,x,1,、播种量,x,2,、种子,x,3,有关系,但,x,1,、,x,2,、,x,3,取相同的一组数值时,亩产量,y,可取不同数值,.,7 这几个例子中的两个变量之间都有 例3 水稻亩产量y,8,上述例子中身高,x,,,年龄,x,,,施肥量,x,1,、,播种量,x,2,、,种子,x,3,都是可以在一定范围内随意的取指定数值,,,是可控变量称之为,自变量,,,而体重,y,血压,y,,,亩产量,y,都是不可控变量称为,因变量,.,研究一个变量与一个,(,或几个,),可控变量之间,相关关系,的统计分析方法称为,回归分析,.,8 上述例子中身高x,年龄x,施肥量 x1、 研究一个变量,回归分析:,研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做,一元回归分析,;多于一个自变量的回归分析叫做,多元回归分析,。,回归分析主要内容,:,提供建立有相关关系的变量之间的数学关系式,(,经验公式,),的一般方法,;,(2),判别所建立的经验公式是否有效,;,(3),利用所得到的经验公式进行预测和控制,.,回归分析:研究一个随机变量与一个(或几个)可控变量之间相关关,5.1,一元线性回归,(,一,),一元线性回归模型,设 与 有相关关系,当自变量 时,因,变量 并不取固定的值与其对应,.,如果要用函数关系近似 与 的相关关系,很自然想到,应该以 作为 与 相对应的数值,.,(,5,1,),5.1 一元线性回归(一) 一元线性回归模型设 与,其中 为常数,则称 与 之间存在线性相关关系,称(,5,1,)为一元正态线性回归模型,简称一元线性模型,其回归函数记为,称为 对 的线性回归, 称为回归常数,,称为回归系数。,由(,5,1,)得,,,可知 取,不同数值时,便得到不同的正态变量。,其中 为常数,则称 与 之间存在线性相关关,其中,为未知的常数。,其中为未知的常数。,由,独立知道,也相互独立,且,称为独立样本,的一个(或一组)样本观测,值,其中,为,取固定值,时,对,进行一次试验所得到的观测值。,由独立知道也相互独立,且称为独立样本的一个(或一组)样本观测,利用独立样本及其样本值可得,的估计量及,估计值,和,从而得到回归函数,的估计,称为 对 的经验回归方程或经验公式。,注:确定变量间相关关系数学关系式的三种方法,1.,经验公式。,2.,假设检验。,3.,散点图法。,把样本值,作为平面直角坐标系的 个点描出来,构成实验的,散点图。,利用独立样本及其样本值可得的估计量及估计值和从而得到回归函数,根据散点图,适当地选择一个函数,使得,在一定意义下最好地吻合,于观测结果,常用的是最小,二乘法,即,.,.,.,.,.,.,.,根据散点图,适当地选择一个函数使得在一定意义下最好地吻合于观,二、未知参数的估计,1.,正规方程组、回归系数的点估计,根据最小二乘法求线性回归函数,的估计,就是求使得,取得最小值的,即,二、未知参数的估计1. 正规方程组、回归系数的点估计根据最小,根据微分学中的二元函数极值的充分条件,将,分别对,求一阶偏导数并令其为零,经过整理后得到线性方程组,其中,正规方程组,根据微分学中的二元函数极值的充分条件,将分别对求一阶偏导数并,解此方程组即得使,取得最小值的,分别称为,的最小二乘估计值,.,于是,得到,对,的经验回归方程,注,:,用最小二乘法得到的经验回归直线通过已知,个数据点,的几何重心,解此方程组即得使取得最小值的分别称为的最小二乘估计值.于是,把估计值中的,分别用,来代替,就得到了参数,的估计量,.,为了方便,我们引进几个常用的记号,则,参数估计量,回归方程,把估计值中的分别用来代替,就得到了参数的估计量.为了方便,定理,1:,在一元线性回归模型中,和,相互,独立,.,证明,:,定理1: 在一元线性回归模型中, 和相互独立.证明:,即,与,不相关,.,但,与,都是独立正态变量,的线性组合,因此,与,的联合分布为正,态分布,.,对于正态随机向量来说不相关和相互独立是,等价的,.,证毕,定理,2:,在一元线性回归模型中,的最小二,乘估计量 的数学期望和方差为,即与不相关.但与都是独立正态变量的线性组合,因此, 与的联合,证明,:,证明:,证毕,.,由定理,2,可看出,当 时,取最小值,;,与,成反比,.,所以,为了提高 和 的估计精度,最,好选择 使,并且 应比较分散,.,注,:,的最小二乘估计量与极大似然估计量相等,.,证毕.由定理2可看出, 当 时, 取最小值 ;,24,实际上:,在,,,0,和,1,的最大似然估计为最小二乘估计,24实际上:,2.,参数 的点估计,当 的极大似然估计量 已得到后,的估计量可由似然方程,可得 的极大似然估计量为,记,即,是 的极大似然估计量,.,2. 参数 的点估计当 的极大似然估计量,定理,3:,在一元线性模型中,证明,:,定理3: 在一元线性模型中证明:,而,而,又,于是有,证毕,.,由定理,3,可得,是 的无偏估计,.,又于是有证毕.由定理3可得是 的无偏估计.,3.,估计量 和 的分布,定理,4:,在一元线性模型中,(1),(2),(3),(4),(5),相互独立,.,3. 估计量 和 的分布定理4: 在一元线性模,4.,未知参数 和 的区间估计,定理,5.,在一元线性模型中,证明,:,由定理,4,得,4. 未知参数 和 的区间估计定理5. 在一元线性,由定理,4,的,(5),可知,分别相互独立,再由,t,分布的定义,即得,证毕,由定理4的(5)可知, 分别相互独立,再由t分布的定义,即得,由定理,5,及,t,分布的分位数,得,即得 的 置信区间为,由定理5及t分布的分位数,得即得 的 置信区间为,类似,的 置信区间为,由,易得 的 置信区间为,类似, 的 置信区间为由易得 的,三、线性回归效果的显著性检验,我们在求,Y,对,x,的线性回归之前,必须判断,Y,与,x,的关系是否满足一元线性回归模型。理论上,讲,这要求检验,(,1,) 对,x,取任一固定值时,,Y,都服从正态分布,而且,方差相同;,(,2,),x,在某一范围取值时,,EY,是,x,的线性函数;,(,3,) 在,x,取各个不同值时,相应的,Y,是相互独立的。,但要检验这三条不仅需要大量的试验,还要进行大,量的计算,实际上很难办到。,三、线性回归效果的显著性检验 我们在求 Y 对 x,第五章回归分析-统计计算及方法课件,(,1,),x,对,Y,没有显著影响,应丢掉自变量,x,;,(,2,),x,对,Y,有显著影响,但不能用线性相关关系来,表示;,(,3,) 除,x,外还有其它不可忽略的变量对,Y,也有显著,影响,从而削弱了,x,对,Y,的影响,应考虑多元,线性回归。,1. F,检验法,考虑,(1) x对Y没有显著影响,应丢掉自变量x;(2) x对Y,令,计算后可得一元线性模型中的平方和分解公式:,总偏差平方和,回归平方和,残差平方和,令计算后可得一元线性模型中的平方和分解公式:总偏差平方和回归,总偏差(离差)平方和,回归平方和,因为,总偏差(离差)平方和回归平方和因为,第五章回归分析-统计计算及方法课件,剩余平方和(或残差平方和),平方和分解公式:,(,1,)由于,x,对,Y,的线性相关关系而引起的,Y,的分散性。,(,2,)剩余因素引起的,Y,的分散性。,剩余平方和(或残差平方和)平方和分解公式:(1)由于x对Y的,定理,6,:,证明:,定理6:证明:,对于检验,证毕,对于检验证毕,第五章回归分析-统计计算及方法课件,2. t,检验法,由定理,5,知,2. t检验法由定理5知,3. r,检验法,为了检验,Y,与,x,是否有线性相关性,也可用统计量,相关系数,进行检验,3. r检验法为了检验Y与x是否有线性相关性,也可用统计量,两边平方得,于是得到,两边平方得于是得到,即,这说明,Y,与,x,之间不存在线性相关关系。,即这说明Y与x之间不存在线性相关关系。,(2),(3),(2)(3),检验假设,r,检验法与,F,检验实质上是一回事,因为,F,检验法与,r,检验法的拒绝域是相同的。,检验假设r检验法与F检验实质上是一回事,因为F检验法与r检验,50,对于一元线性回归模型,上述,3,种检验的结果是完全一致的,.,4.,三种检验的关系,(1),由于,t,分布与,F,分布的关系,因此,t,检验与,F,检验完全一致,50对于一元线性回归模型,上述3种检验的结果是完全一致的.4,51,r,检验与,F,检验也一致,因此,等价于,51r检验与F检验也一致因此等价于,四、利用回归方程进行预测,预测:,对固定的,x,值预测它所对应的,Y,的取值。,考虑,(,1,)点预测,四、利用回归方程进行预测预测:对固定的x值预测它所对应的Y的,(,2,)区间预测,(2)区间预测,定理,7,:,由定理,7,知,定理7:由定理7知,即,其中,其中,即其中其中,56,当,x,0,越靠近,,,区间宽度越窄,预测就越精确,当,x,0,离 不太远且,n,较大时,, ,,而,于是,,,y,0,的,1,置信区间可近似表示为,56当 x0 越靠近 ,区间宽度越窄,预测就越精确,57,于是,,,y,0,的,95%,置信区间可近似表示为,于是,,,y,0,的,99%,置信区间可近似表示为,57于是,y0的95%置信区间可近似表示为于是,y0的99%,58,控制问题,对,x,的控制范围,当要求,y,在某个区间范围内变化时,如,如何求得,x,的相应控制范围,.,即要求以,1,的置信度求出相应的,使当 时,x,所对应的,y,落在,58控制问题对x的控制范围 当要求 y 在某个区间范围内变化,59,只考虑,n,较大情形,令,59 只考虑 n 较大情形,令,60,60,例,在钢线碳含量,x,对于电阻效应,y,的研究中,得到了以下数据,:,碳含量(,%,),0.10 0.30 0.40 0.55 0.70 0.80 0.95,电阻(微欧),15 18 19 21 22.6 23.8 26,假设对于给定的,x,y,为正态变量,且方差与,x,无关,.,如果,x,y,满足经验公式,求线性回归方程,解,设,现在,例 在钢线碳含量x对于电阻效应y的研究中,第五章回归分析-统计计算及方法课件,所求的线性回归方程为,所求的线性回归方程为,的无偏估计,.,由例得,的无偏估计.由例得,检验例中的线性回归是否显著,.,解,检验假设,拒绝域为,由例,2,得,=,拒绝,即认为线性回归显著,检验例中的线性回归是否显著. 解 检验假设 拒绝域为 由,例,求上例中当碳含量为,0.50,时,电阻的置信水平为,0.95,的置信区间,解,由例,1,和例,2,可得,例 求上例中当碳含量为0.50时,电阻的置信水平为0.95的,第五章回归分析-统计计算及方法课件,68,5.2,多元线性回归分析,一,.,多元线性回归模型,模型,1,模型,2,685.2 多元线性回归分析一.多元线性回归模型模型1模型2,69,69,70,在模型,1,下,有,在模型,2,下,有,70在模型1下,有在模型2下,有,71,71,72,称模型,3,和模型,4,为,y,关于,x,的,p,元样本线性回归模型,.,72称模型3和模型4为y关于x的p元样本线性回归模型.,73,对多元线性回归模型,需研究如下几个问题:,(2),对建立的关系式进行统计假设检验,(3),对变量,y,进行预测和对自变量,x,进行控制,73对多元线性回归模型,需研究如下几个问题:(2)对建立的关,74,n,p,1,,,记,74np1,记,75,模型,3,和模型,4,可表示为如下矩阵形式,其中,I,n,为,n,阶单位矩阵,矩阵,X,是,n,(,p,+1),矩阵称为设计矩阵,且秩,(,X,),=p+,1,75模型3和模型4可表示为如下矩阵形式其中In为 n 阶单位,76,二,.,未知参数的估计,1.,最小二乘估计,最小二乘法:求 使,误差平方和,76二.未知参数的估计1.最小二乘估计 最小二乘法:求,77,求 并令其都等于,0,,,整理后得到如下,正规方程组,:,77 求 并令其都等于,78,正规方程组的解,就是 的最小二乘估计,由于,78 正规方程组的解 由于,79,及,于是正规方程组用矩阵表示为,79及于是正规方程组用矩阵表示为,80,由于,Rank,(,X,),=p+,1,因此 必存在逆阵,解正规方程组得到 的估计为,称之为 的,最小二乘估计,.,于是线性回归方程为,80 由于Rank(X)=p+1,因此 必存在,81,2.,最大似然估计,多元线性回归系数的最大似然估计与一元线性回归时求最大似然估计的想法一样,812.最大似然估计 多元线性回归系数的最大似然估计与一元线,82,3.,参数估计的性质,性质,3,性质,1,估计量 是随机变量 的线性变换,性质,2,估计量 是 的无偏估计,在,模型,1,下有如下性质,823.参数估计的性质性质3性质1 估计量 是随,83,性质,4(2),性质,4(1),在,模型,2,下有如下性质,83性质4(2)性质4(1)在模型2下有如下性质,84,三,.,回归方程的显著性检验,检验问题:,考虑模型,2,因变量,y,的观测值 是不完全相同的,之所以不同,可能由于如下两个原因:一是随机因素引起的,如随机误差;另一个是由自变量的变化引起的变化,.,为此,考虑平方和分解,84三.回归方程的显著性检验检验问题:考虑模型2 因变,85,平方和分解,交叉项为,0,85平方和分解交叉项为0,86,称为总变差平方和,反映数据 的波动性,即这些数据的分散程度,越大表明,n,个观测值 的波动越大即之间越分散,,反之 越小表明 的数值波动越小即 之间越接近,.,86称为总变差平方和,反映数据,87,称为,残差平方和,.,S,e,反映了除掉由,对,y,的影响之,外的剩余因素对 分散程度的作用,即随机因素引起的波动,.,称为,回归平方和,反映了 的波动程度,87称为残差平方和.Se反映了除掉由,88,而,S,R,越小,,,S,e,越大,,,此时,x,对,y,的,线性影响,不显著,.,S,T,给定后,,,S,R,越大,,,S,e,越小,,,x,对,y,的线性影响,越显著,;,因此,,,F,=,S,R,/,S,e,的比值反映了,x,对,y,的线性影响的显著性,进而检验假设,.,88 而SR越小,Se越大,此时x 对y 的,89,定理:,在,p,元线性回归模型,2,下,有,89定理:在p元线性回归模型2下,有,90,根据定理构造,F,检验统计量,90根据定理构造F检验统计量,91,对于给定的显著性水平,当 时,拒绝 ,认为,线性回归效果显著,即,y,与,之间存在显著的线性相关关系,;,当 时,接受 ,认为,线性回归效果不显著,即,y,与,之间不存在显著的线性相关关系,;,91对于给定的显著性水平 当,92,上述分析方法通过下表来描述,n,-1,总变差,p,n,-,p,-1,回归,残差,F,均方和,自由度,平方和,方差,来源,92上述分析方法通过下表来描述n-1总变差回归 F均方和,93,四,.,回归系数的显著性检验,在多元线性回归分析中,回归方程的显著性并,不意味着每个自变量对因变量,y,的影响都是显,著的,实际上,某些回归系数仍有可能接近于,零,若某 接近于零,说明,的变化对,y,的影响很小,甚,至我们可以把 从回归方程中去,掉,从而得到更为简单的线性回归方程,.,因此在拒绝 之后,需要进,一步对每个自变量进行显著性检验,.,93四.回归系数的显著性检验在多元线性回归分析中,回归方程的,94,检验问题:,考虑模型,2,若接受 ,表明 对,y,的影响不显著;,若拒绝 ,表明 对,y,有一定的影响,94检验问题:考虑模型2 若接受 ,表明,95,根据性质,4,和定理,得到,由此构造,t,检验统计量,95根据性质4和定理,得到由此构造t检验统计量,96,对于给定的显著性水平,当 时,拒绝 ,认为,对,y,的线性影响显著;,当 时,接受 ,认为,对,y,的线性影响不显著;,96对于给定的显著性水平 当,97,5.3,非线性回归,在很多实际问题中,两个或者多个变量之间的关系不一定是线性关系,.,若此时建立线性回归方程,效果肯定不会好,.,而如果观测值的散点图大致呈某一曲线,又存在某种变换可将该曲线转换成直线,于是就可以选择该变换把问题转换成线性回归的问题,从而利用线性回归的一些结果解决问题,.,我们主要介绍非线性回归方法,.,975.3非线性回归在很多实际问题中,两个或者多个变量之间的,具体做法:,1,)根据样本数据,在直角坐标系中画出散点图,2,)根据散点图,推测出,Y,与,x,之间的函数关系,3,)选择适当的坐标变换,使之变成线性关系,4,)用线性回归方法求出线性回归方程,5,)返回到原来的函数关系,得到要求的回归方程,具体做法: 1)根据样本数据,在直角坐标系中画出散点图2)根,可线性化的一元非线性回归,1.,双曲线,:,2.,幂函数,:,可线性化的一元非线性回归1.双曲线: 2.幂函数:,3.,指数曲线,:,4.,倒指数曲线,:,取对数得,取对数得,5.,对数曲线,:,3.指数曲线: 4.倒指数曲线: 取对数得 取对数得 5.对,6,、,S,型(,Logistic,)曲线,令,变形,6、S型(Logistic)曲线 令 变形,102,7,、,多项式模型,任意连续函数都可由多项式逼近,1027、 多项式模型任意连续函数都可由多项式逼近,例,1,在彩色显影中,根据以往经验,形成染料光学密度,与析出银的光学密度之间呈倒指数曲线关系,:,已测得,11,对数据见下表,(,1,)求出经验回归曲线方程;,(,2,)对回归曲线的显著性进行检验,.,x,0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47,y,0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29,例1在彩色显影中,根据以往经验,形成染料光学密度与析出银的光,解,(,1,)由,令,经计算得,解 (1)由 令 经计算得,第五章回归分析-统计计算及方法课件,=,线性回归方程为,=,曲线回归方程为,=线性回归方程为 =曲线回归方程为,(2),检验假设,拒绝域为,现在,n,=11,,取,(2)检验假设 拒绝域为现在 n=11,取,(2),=,拒绝原假设,=,y,对,x,的回归方程是显著的,.,(2)=拒绝原假设 =y对x的回归方程是显著的.,例,2,测定某肉鸡的生长过程,每两周记录一次鸡的重量,,数据如下表,x/,周,2,4,6,8,10,12,14,y/kg,0.3,0.86,1.73,2.2,2.47,2.67,2.8,由经验知鸡的生长曲线为,Logistic,曲线,且极限生长量,为,k=2.827,,试求,y,对,x,的回归曲线方程。,解 由题设可建立鸡重,y,与时间,x,的相关关系为,例2 测定某肉鸡的生长过程,每两周记录一次鸡的重量,x/周,令,则有,列表计算,序号,x,y,y,X,2,y,2,xy,1,2,0.3,2.131,4,4.541,4.262,2,4,0.86,0.827,16,0.684,3.309,3,6,1.73,-0.456,36,0.208,-2.733,4,8,2.2,-1.255,64,1.576,-10.042,5,10,2.47,-1.934,100,3.741,-19.342,6,12,2.67,-2.834,144,8.029,-34.003,7,14,2.8,-4.642,196,21.544,-64.982,56,13.03,-8.162,560,40.323,-123.531,令 则有 列表计算 序号xyyX2y2xy120,所以,所以所求曲线方程为,所以 所以所求曲线方程为,112,需要指出一点的是新引进的自变量只能依赖于原始变量,而与未知参数无关,.,一般来说,变换的选择并不是一件容易的事,.,事实上,根据散点图选择一种变换只能近似反映,y,与,x,的关系,.,112需要指出一点的是新引进的自变量只能依赖于原始变量,而与,113,应该指出,对原始数据变换,把曲线回归转化为线性回归,利用线性回归的性质,即使对变换后的线性回归成立,也不能保证对原始数据的曲线回归成立,即线性回归性质经过变换后不一定能保持,.,对于非线性回归模型的深入讨论,可以参阅何晓群,刘文卿编,应用回归分析,.,113应该指出,对原始数据变换,把曲线回归转化为线性回归,利,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!