第八章一元线性回归分析

上传人:沈*** 文档编号:45629773 上传时间:2021-12-08 格式:DOC 页数:23 大小:1.58MB
返回 下载 相关 举报
第八章一元线性回归分析_第1页
第1页 / 共23页
第八章一元线性回归分析_第2页
第2页 / 共23页
第八章一元线性回归分析_第3页
第3页 / 共23页
点击查看更多>>
资源描述
3 一元线性回归分析 客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系前一类关系我们在数学分析中已进行了大量研究第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值又如,城市生活用电量y与气温X有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高相反,在春秋季节气温不高也不低,用电量就相对少但我们不能由气温这一个量准确地决定用电量Y回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.8.3.1回归分析的基本概念 回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为与之有关的另一些变量可记为,,称为自变量或预报变量由,可以部分地决定的值,但这种决定不很确切,这种关系就是所谓的“相关关系”我们可以设想的值由两部分组成:一部分是由,能够决定的部分,它是的函数,记为而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对的影响一起被称为随机误差,记之为于是得到如下模型: Y+这里是随机变量,一般要求满足某些假定,如0,函数称为理论回归函数,它描述了Y随自变量变化的平均擘况 Y称为回归方程这种确定的函数关系可用来近似代替复杂的相关关系回归分析的任务就在于根据和Y的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题回归分析所用方法在相当大的程度上取决于模型的假定(1)若回归函数的数学形式并无特殊假定,称为非参数回归(2)假定的数学形式已知,只是其中若干个参数未知,需要通过观测值去估计,称为参数回归应用上最重要、理论上发展得最完善的是 为线性函数的情形,即+, (8.3.1)称为“线性回归”若,则称为一元线性回归 若根据观测值已估计了,,设为,,称 + +为经验回归方程这里“经验”两字表示这个回归方程是由特定的观测值而得到的 回归分析的应用,简单地可归纳为以下几个方面: (1)估计回归函数如考虑亩产量Y与播种量和施肥量的相关关系,需求出Y对, 的回归函数,当给定播种量=,施肥量,则 就是平均亩产量的值 (2)预测当自变量X(,在取定的情况下,比如(,,,去预测因变量Y将取的值. Y的预测值往往就取回归函数在(, ,处的估计(,) (3)控制在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y(,)以调节,的值达到把输出值Y控制在给定的水平的目的最后简单介绍一下“回归”这一名称的由来这个术语是英国生物学家兼统计学家高尔顿(FGalton)在1886年左右提出来的他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据高尔顿以父母之平均身高X作为自变量,以成年儿子的身高作为因变量,将值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是增加时倾向于增加,这与人们的常识是一致的用他的数据可以计算出儿子身高与父母平均身高的经验关系 . (8.3.2)高尔顿算出1078个值的算术平均值为68英寸(1英寸2.54厘米),1078个Y值的算术平均值为69英寸,子代身高平均增加了1英寸按常理推想,当父母的平均身高为英寸,子代的平均身高也要增加1英寸,即变为英寸,但事实上不然按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+165(英寸)要多,与父母相比有增高的趋势这种现象不是个别的,它反映了一般规律高尔顿对这个结论的解释是:大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心” 正是通过这个例子,高尔顿引入了“回归”一词人们把(8.3.2)所表示的直线称为回归直线其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已8.3.2一元线性回归模型 考虑因变量y和一个自变量的一元线性回归,假设回归模型为 y+, , (8.3.3)其中为随机误差,其均值为,方差为,是随机变量,是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),和都是未知参数称为常数项或截距,称为回归系数(8.3.3)式称为理论模型. 现设对模型(8.3.3)中的变量,y进行了n次独立观察,得到样本值(,), (,),(,),从而 =十 + (i1,2,,n), (8.3.4)其中是第次观察随机误差所取之值,它是不能观察到的对 (1,2,,n)最常用的假定是: (1)误差项的均值为零,即= 0 (1,2,); (2)误差项具有等方差,即 (8.3.5) (3)误差项彼此不相关,即=0 ( 通常称假定(8.3.5)为Gauss-Markov假定在这三条假定中,(1)表明误差项不包含任何系统的影响因素,视测值在均值的上下波动完全是随机的(2)要求等方差,也即要求在不同次的观测中在其均值附近波动程度的大小是一样的(3)则等价于要求不同次的观测是不相关的统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(,)(1,2,n)的概率性质,并可以对理论模型(833)进行统计推断可见,理论模型(833) 只起了一个背景的作用 对的进一步假定是 (8.3.6)这是一个比GaussMarkov假设更强的假设,指明了误差项所服从的分布由(834)式有 ,且相互独立本章只讨论如下的一元线性回归模型 (9.3.7) 在多数应用问题中,我们选择与之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身将独立试验的几个观测值在直角坐标系中描出相应的一点,所得图形称为散点图,如图91所示散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映,y之间的相关关系才更精确些图91 观测数据的散点图考虑模型(837),如果由样本得到参数夕的估计,则称方程 为y关于的线性回归方程或回归方程,其图形称为回归直线 对于模型(837)将从下列各方面逐一研究1)未知参数的估计 (1) 的估计最小二乘法回归分析的主要任务就是要建立能够近似反映的相关关系的经验回归函数这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据由模型(837)去估计,怎样给出的估计才是合理的呢?我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好假若以作为的估计时,偏差的绝对值越小,说明用代替时误差越小考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响)记 (8.3.8)则反映了n次观察中总的偏差程度,称为残差平方和若,使Q(,)越小,则模型拟合数据越好,因此只需极小化Q(),以所得的作为的相应估计所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法这一重要方法一般归功于德国大数学家高斯在1799年1809年间的工作用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用 对于模型(837),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的因为的联合概率密度为 求使达到极大值的,只需极小化,这个和不是别的,正是我们上述的残差平方和.利用多元函数求极值的方法,分别求关于的偏导数,并令它们分别等于零:整理得 (8.3.9)其中=.方程组(8.3.9)称为正规方程组。由于一般要求不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式从而正规方程组(839)的唯一解为 (8.3.10)(8310)式中的,良分别称为,的最小二乘估计,于是所求的线性回归方程为 (8.3.11) 若将=式代入(9.3.11)式,则得线性回归方程 (8.3.12)可见,回归直线总通过点,)(,)称为样本数据的几何中心 根据模型(837)中的假定,很容易推出最小二乘估计和的一些性质 (i),和+的线性无偏估计 事实上,线性性显然由,得 .(ii),和的方差分别为根据的正态性和独立性,可得,及+的分布为 (8.3.13) (8.3.14) (8.3.15)这些分布性质在以后的检验和区间估计中有很重要的作用 另外,由的方差表示式中可以看出:随着的增大,的方差逐渐减小这意味着当的取值可以由我们选定时,在一定程度上应使诸的取值尽量散开些,以提高的估计精度数学上还可以进一步证明,在所有的线性无偏估计量,甚至所有的无偏估计量中,的最小二乘估计量的方差最小(此结论可由著名的GaussMarkov定理得到,我们不作介绍)还有,随着榉本容量的增大,的方差也会不断减小 (2)参数的估计设,是,的最小二乘估计,可用在处作为因变量y的实际观察值为,二者之差称为残差 称为残差平方和 我们不加证明的指出Q的性质如下; (8316) 三者相互独立 (8317) 利用(8316)及分布的性质,有 ; 从而有 若记 则是的一个无偏估计的正平方根S又称为回归估计的标准误差S越小,表明实际观测值与所拟合的经验回归直线的偏离程度越小,即回归直线具有较强的代表性;反之,则回归直线的代表性较差 在回归分析中残差具有重要作用首先,利用残差给出了的一个估计,需注意,对于模型(837),服从自由度为n一2的分布,其自由度n一2比样本容量n少2,可以这样理解:因为中有两个未知参数,需要估计,用掉了两个自由度另外,通过对残差进行分析可以考察我们假定的回归模型是否正确,称为回归诊断它已发展成为回归分析的一个分支当模型正确时,残差应是误差的一个反映,因误差,是独立同分布的;具有“杂乱无章”的性质,即不应呈现任何规律性,因此残差也应如此如果残差呈现出某种规律性,则可能是模型中某方面假定与事实不符的征兆,就可以怀疑模型假定有问题许多统计分析软件都可以作出残差图,残差图的分析是回归诊断的一个重要工具 例8 在动物学研究中,有时需要找出某种动物的体积与重量的关系,因为重量相对容易测量,而测量体积比较困难我们可以利用重量预测体积的值下面是某种动物的18个随机样本的体重(kg)与体积的数据 16.7 10.5 13.8 15.7 11.9 10.4 15.0 16.0 17.8 16.7 10.4 13.5 15.7 11.6 10.2 14.5 15.8 17.6 15.8 15.1 12.1 18.4 17.1 16.7 16.5 15.1 15.1 15.2 14.8 11.9 18.3 16.7 16.6 15.9 15.1 14.5求动物体积与体重的回归方程解 把的数据输入,建立SPSS数据文件,以为因变量,为自变量,调用线性回归分析过程,经计算得 ,所以与的回归方程为 +0.998这里回归方程反映了当动物体重为时,体积取值酌平均情况的系数0.998可解释为动物体重每增加1kg时,动物体积平均增加0.998;但是 =却显然不能解释为动物体重为0时动物的体积,因为此模型在0 附近可能早巳经不成立了因此在回归分析模型中系数意义的解释必须特别谨慎首先自变量之值必须处在一个合理的范围内,另外所作分析必须与实际问题紧密结合,否则就会得出错误结论 2)模型的检验 在回归分析中,当模型中的未知参数估计出来后,还必须利用抽样理论来检验所得回归方程的可靠性,具体可分为对回归方程拟合程度进行显著性检验和对回归系数进行显著性检验 在一元线性回归模型中,由于用最小二乘法求回归方程时,并不需要预先假定两个变量y与x一定存在线性关系,即使是平面上一些杂乱无章的散点()也可以用前面的公式给它配一条直线,但这也许毫无意义,所以检验y与x之间是否存枉线性关系是很必要的。 (1)回归方程拟合程度评价指标判定系数。所谓拟合程度,是指样本观测值聚集在回归直线周围的紧密程度判断回归模型拟合程度优劣的最常用的数 量指标是判定系数该指标是建立在对总离差平方和进行分解的单础之上的因变量的实际观测值与其样本均值的离差可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差,它可以看成是离差中能够由回归直线解释的部分,称为可解释离差; 另一部分是实际观测值与理论回归值的离差,它是不能由回归直线加以解释的残差.记:,由, 并利用, 得从而有 ,即 (8318)(8318)式中称为总的离差平方和;是可用回归直线解释的那一部分离差平方和,称为回归平方和;是用回归直线无法解释的离差平方和,称为剩余残差平方和,即残差平方和. 在(8318)式两边同除以,得 可见,各个样本观测值与样本回归直线靠得越紧,在中所占比例就越大。令称为判定系数判定系数是对回归模型拟合程度的综合度量,判定系数越大,模型拟合程度越高;判定系数越小,则模型对样本的拟合程度越差显然o1 1时,说明总离差完全由所估计的经验回归直线来解释;当时,经验回归直线没有解释任何离差,模型中自变量x与因变y完全无关,y的总离差全部归于残差平方和为了进一步理解判定系数的统计意义, 考察一元线性回归模型回归平方和 = =.于是 它是因变量y与自变量x之间的样本相关系数的平方因为相关系数是两个量之间线性相关程度的一种度量,因此愈大,就表示回归方程与样本数据拟合得愈好 (2)回归方程显著性检验F检验在一元回归分析中,整个回归方程是否合用,需要对y与x之间的线性关系进行检验.如果y与x联系很小或根本没有线性关系,则就会很小并接近于零,因此对回归方程进行检验即检验假设 , .本检验可以根据总离差平方和的分解来构造检验统计量,用方差分析的方法进行F检验 (8318)式中的三项, 是样本观测值总离差,反映了回归值对其平均值的离散程度,反映了观测值与回归直线的偏离程度,反映了扣除因素x的影响后其他因素包括随机因素在内对y的影响可以证明,当成立时, , .且与相互独立,其中是随机误差故当成立时, . 当x与y之间真正存在线性相关关系,y的离差平方和应该主要是由于自变量x的变化影响所致,回归平方和理应较大,F值倾向于取较大值相反,若x与y之间没有线性相关关系,x与y的真正关系实际上被纳入误差的范畴,则应该较大,从而比值F较小因此,对于给定显著性水平,若,则拒绝,认为y与x之间存在线性相关关系;否则,不拒绝这种检验称为F检验法或回归方程的方差分析 F检验的过程通常是用方差分析表来进行,如表87所示. (3)回归系数的显著性检验t检验回归分析中的显著性检验包括两个方面:一方面是对整个回归方程的显著性检验,可以用方差分析的思想方法予以解决它着眼于整个回归方程,特别对于多个自变量的情形看得更清楚,比如因变量y与自变量的回归方程 表8.7 回归分析的方差分析表 方差来源平方和 自由度 均方 F值显著性(P值)回归平方和剩余平方和总离差 1 n-2n-1 要考察整个方程是否合用,可用F检验法进行判别但整个方程检验合用并不意味着方程包含的各个自变量分别都对因变量有解释作用因此回归分析中另一个方面的显著性检验就是对回归方程中各回归系数的显著性检验; , 如果检验时被接受,则自变量实际上可以从方程中去掉;否则,可认为自变量确实对因变量y有解释作用可见,各回归系数的显著性检验有别于对整个回归方程的显著性检验,它通常采用t检验法来进行 在一元线性回归模型中,由于只有一个自变量,对的t检验与对整个方程的F检验两者是等价的对于多元线性回归模型中两个检验的不同作用就突显出来了 考虑模型(837),若自变量与因变量y之间不存在线性关系,则就很小 并接近于零因此检验y与之间是否具有线性相关关系也是检验假设, 由(9.3.14)式,并记 则在方差已知的情况下,课用前面所学的Z检验法对上述假设进行试验。一般情况下是未知的,要用无偏估计量代替。记则 (8.3.19)式(8.3.19)中,n为样本容量,n-2为t-分布的自由度。 当确定显著性水平后,根据样本观测值可计算出。当成立时,因,有 从而可确定的拒绝域为 .如果的绝对值大于临界值,就拒绝原假设,接受备择假设;反之,则接受原假设。在用统计软件进行计算时,在计算机输出结果中往往给出回归系数的t检验的伴随概率,即P值。当P值小于给定的显著性水平时,拒绝原假设,否则接受. 若经检验,接受原假设,则说明回归效果不明显,表明自变量X对因变量y线性影响程度不大,可能影响的因素除变量外,还有其他不可忽视的因素,因而选择一元回归根本不适合;或者y与x的关系根本不是线性的,需要作曲线回归;或者自变量x对因变量y根本无影响。总之,此时模型不适合用来作诸如内插(在自变量数据的范围之内使用回归方程)、外推(在建立回归方程时所用的自变量数据的范围之外去使用回归方程)等形式的统计推断。3)回归系数的置信区间由(9.3.19)式可以作的区间估计,的置信度为1-的置信区间为 其中,例9 (续例8)试对例8求得的回归方程及回归系数进行显著性检验。若显著时,求出的95%置信度的置信区间。解 由于一元回归分析中对回归方程的拟合检验与回归系数的显著性检验等价,因此给出F检验和t检验两种方法。用SPSS统计软件的回归方程,计算判定系数,可见此拟合程度较大,模型比较适合。回归方程的方差分析表如下。模型 平方和 自由度均方 F值显著性(P值)回归 残差 总和 94.100 0.651 94.751 1 16 17 94.100 0.041 2311.895 3654E-19 由上表知,反映显著性的P值远远小于0.05,故说明所求回归方程y=还是比较合适的。对作显著性检验 计算 . 应拒绝原假设,说明相对于误差而言,自变量x对因变量y的线性影响是重要的。求得的95%的置信区间为(0.944,1.032)。不包含0值,也能说明且取正值,可见随着体重的增加,动物的体积平均值也是逐渐增大的。由本例可以看出,从各个不同的方面进行统计分析得出的结论是一致的,回归方程较好地反映了y与x的线性相关关系。4)预测与控制回归分析的一个重要应用是用来进行预测和控制。如果所拟合的经验回归方程经过了检验,并且回归方程有较高的拟合程度,就可以利用其来预测已知x取值时y的取值范围(区间预测)或y的取值(点预测),或者是欲将y的取值限制在某个范围,确定应当如何控制x的取值。(1) 预测问题. 预测分点预测和区间预测。 点预测的简单回归预测的基本公式为 (8.3.20)其中是给定的自变量x的某一取值,是给定时因变量y的预测值,是用前述方法已估计出的回归系数值。当给出的属于样本内的数值时,由(8.3.20)式得出的点预测称为内插或事后预测;而当给出的在在样本之外时,利用(9.3.20)式计算出的称为外推或事前预测。实际上,这里y在处的预测值就取为回归函数在处的估计。但是预测问题与估计回归函数问题是有实质区别的,并且由下面计算的预测误差可以看出,预测的精度要比估计回归函数的精度差。 设给定时,y的真值为,则 =。 设为预测的残差,即其中。注意此处的并不是一个未知的参数,其本身也具有随机性,是一个随机变量,即被预测量是一个随机变量由于(xo,yo)是将要进行的一次独立试验,因此有理由假定是与前述模型(93。 7)中诸(i1,2,,n)独立同分布,即yo,相互独立同分布而是的线性组合,因此yo与独立于是 其中 由此可见估计与预测y。之区别 类似于点估计与区间估计的差别,为了能给出预测的精度及说明预测的把握程度,在应用上,有时因变量的、区间预Q0更为人们所关注所谓区间预测,就是找一个区间,使得被预测量的可能取值落在这个区间内的概率达到预先给定的值 同点预测中对的假定,易知 由于,是未知的,用其无偏估计来代替,则预测标准误差的估计值为利用抽样分布定理易证因而对给定的a,有 于是得到置信度为1一a的y。的预测区间为 、这里的区间预测是对一个随机变量而言的,它有别于前面未知参数的区间估计 的预测区间的长度 为 (9321) 由(9321)式可知: ; (i)对于给定的样本观测值和置信度,用回归方程来预测 时琪精度与x。有关当越靠近,预测区间的长度越短,预测的精度越高 图9-3 预测区间长度与关系 如图93所示,为由样本点配出的经验回归直线,分别是的预测区间 上、下端点随x。变化时画出的曲线在的附近平行于y轴的直线被 截得的线段较短,远离所作平行于y轴的直线被截得的线段较长,所夹区域呈中 间小两头大的喇叭型而所截线段的长度正是预测精度的常用衡量指标,这就清楚地说明了上述结论因此在用回归模型进行预测时,x。的取值不宜离开太远,否 则预测精度将会大大降低,使预测失效更重要的是利用线性回归方程进行预测, 若不在原来的试验范围内进行,随意扩大范围,线性模型本身的假定可能早巳不存 在了,从而这种预测已无任何意义了 。 (当样本容量很大时,若的附近,只要试验观测点,不过无论样本容量取多大, 的预测区间长度不小于 ,即区间预测的精度总有一个界限究其原因是因为预测问题中包含了一个无法克服的随机误差项 (2)控制问题预测问题的逆问题是控制问题,回归方程可以用来解决控制问题假定因变量y与自变量x之间的线性回归方程, 已经求得,现要求y的取值必须在范围内,这里,是变量y的上、下限问应控制J在什么范围内才能以概率1-a来保证这一要求的实现呢? 我们只考虑n充分大的简单情况令并分别求解出x来选作x的上、下限显然,为了实现控制,区间 的长度 必须大于 ,即 这一要求是合理的因为如同预测区间的精度总有一个界限一样,在控制问题中随机误差项的影响也是不可能消除的 在此值得提醒的是:回归方程不可逆转使用在自变量工和因变量)都是随机的场合,任取一个作为回归分析的因变量,就存在两个回归方程:y=a+bx,x=c+dy ,这两个方程并不一致,即由 y=a+bx 得: 并不一定就是第二个方程 X=c+dy 除非x y 之间的相关系数,即x y 有严格的线性关系时才成立在我们的控制问题中,自变量之值能由人选择时,x作为普通变量,不是随机变量,不存在作x对y的回归问。因此由y的取值控制x时用的并不是x对y的回归方程 例10 下表中的夕和工分别是15个居民家庭中的人均食品支出与人均月收入水平的数值(单位:元) 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x y102 96 97 102 91 158 54 83 123 106 129 138 81 92 64 97 26 25 28 27 36 19 26 31 31 34 38 27 28 20 203 (1)假定在商品价格不变的条件下,实际的食品支出与实际的收入水平之间 的关系可以用一元线性回归模型来反映,试求以x为自变量,x与y之间的回归方 程,并求出回归估计标准差 (2)假定某地居民家庭的人均月收入为200元,利用(1)中的结论,计算置信度 为95的月食品支出的预测区间 解 (1)将工和的数据输入计算机,调用SPSS软件的线性回归分析过程,计: 算得回归方程为 计算得判定系数R;o886对回归方程的拟合检验的方差分析表如下: 模型 平方和自由度 均方F值 P值 回归残差总和338.932 43.469382.400 1 13 338.932 3.344 101.364 9224E-7 由于P值9224E一7远远小于005,故所求回归方程)=9987+01802x较好地 拟合了给定的数据 。 计算输出回归估计标准差为 (2)将有关数据代人拟合好的样本回归方程,得 查t布表,得 (13)21604,因此当人均月收人为200元时,置信度为95的 月食品支出的预测区间为(4041,5157) 8.3 可化为一元线性回归的非线性回归问题 两个变量之间是否具有线性关系,往往可以借助某些理论或散点图来进行分 析如果两变量之间不是线性相关关系时,用线性回归模型强行作拟合,则效果会 很差,甚至没有意义对于某些非线性的回归函数,可以通过适当变量替换转化为 线性回归函数,然后再利用线性回归分析的方法进行估计和检验 下表98列出了几种特殊曲线的线性化变量代换方法 对于原曲线回归方程经过变量代换线性化以后,原始数据经过变换后作为样 本,即可对变换后的方程作回归分析,进行统计推断注意最后的变量要还原为原变量,得到的是曲线回归方程 在实际应用时要注意以下几个问题: (1)对于较复杂的非线性方程,常常要综合利用上述方法作变换,这些方法并 不是相互孤立的 (2)在作变量代换时,所有新变量中都不允许包含未知的参数,否则就不可能 根据原变量的样本观测值,对关于新变量的线性回归方程进行统计推断比如y 未知时所作变换就不可行。 (3)并非所有的非线性回归方程都可以通过变换得到与原方程完全等价的线性回归方程。 表98 非线性回归函数的线性化非线性方程 变换公式 变换后的线性方程其中已知 例11 下表是1957年美国旧轿车价格的调查资料。今用x表示轿车的使用年限,y表示相应的平局价格,求y关于x的回归方程。使用年限x 1 2 3 4 5 6 7 8 9 10平均价格y2651 1943 1494 1087 765 538 484 290 226 204解 先作散点图,如图9-4所示,可见点沿指数曲线变化,故可假定回归函数为 。两边取对数,令由原始数据得下表:由原始数据得下表; X 1 2 3 4 5 6 7 8 9 10 y7.88 7.57 7.31 6.99 6.64 6.29 6.18 5.67 5.42 5.32 调用SPSS回归分析过程,计算得回归直线方程此回归方程的方差分析表如下: 模型 平方和 自由度 均方 F值 P值回归残差总和 7.311 0.056 7.36618 9 7.311 0.007 1048.194 0.000 对常数项和回归系数作显著性t检验都高度显著,计算判定系数为0.992.说明此模型拟合较好,从而可得原变量y与x的回归方程为 4 多元线性回归模型简介 , 在许多实际问题中,还会遇到一个随机变量y与多个普通变量的相关关系问题在做回归分析时,人们根据问题本身的专业理论及有关经验,常常需要把各种与因变量有关或可能有关的自变量考虑并引进回归模型例如,一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关; 一种农作物的亩产量可能与播种量、施肥量、浇水量、管理工时数等有关这种情况下,仅仅考虑单个变量作自变量是不够的,它不能对因变量以恰当的描述,其他多个关键自变量也以不同的方式影响着因变量如果根据只含有一个自变量的回归模型来对因变量进行预测的话,就会发现所做预测粗糙得简直毫无用处采用包含其他自变量的更复杂的模型则可以提供足够精确的因变量的预测研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型多元线性回归分析是一元线性回归分析的推广,基本原理与一元线性回归分析相似,但计算上更为复杂,并且多元线性回归分析有其特有的研究问题,比如选择回归自变量的问题在某一研究中,与因变量夕有关的因素看来很多,而在回归方 程中却只宜选取部分与因变量关系最密切的因素,选多了貌似很全面,实则效果很差回归自变量的选择问题是多元回归分析中的一个重要课题,在应用回归分析解决实际问题时,往往需要从与因变量保持线性关系的自变量集合中选择一个“最优”的自变量子集再比如,如果若干个自变量之间存在着高度的线性关系,在统计上称为“复共线性”,复共线性的存在将影响并破坏多元回归分析的效果如何避免复共线性是多元回归分析特有的研究问题因此,多元线性回归分析内容更为丰富,是极有实用价值的统计分析方法 我们在此仅简单介绍多元线性回归分析的模型和回归参数的估计其他如假设检验、预测、区间估计、自变量的筛选、多元非线性回归转化为多元线性回归等更多深入问题请参阅有关文献1多元线性回归模型 类似于一元线性回归模型,下面仅考虑多元线性回归模型 . (9.4.1)这里为未知参数,y为随机变量,是与y有关的普通变量为随机误差,它反映了其他未考虑的因素及随机因素对y的影响2未知参数的估计最小二乘估计 设是一个样本,假定满足,且相互独立,则有 (942) 为了更为简单地给出多元线性回归模型的表达形式,引入如下的向量和矩阵则(942)式可改写为矩阵形式 (943)其中为n阶单位矩阵记号(或)表示向量(或矩阵)的转置 类似一元的情形,定义残差平方和 - 并关于 极小化 ,即作方程加以简单整理,可得如下所谓的正规方程组的矩阵形式 一一 一 一 (944)当 存在时,则(944)式的解为 207 (945)其中 (945)式称为未知参数向量p的最小二乘估计实际上也是未知参数向量p在模型(943)下的最大似然估计相应回归方程为 (946) 仍如一元回归一样,定义残差及残差平方和可以证明:是的一个无偏估计,且 服从自由度 n-p-1的分布这里有p+1个未知参数要估计,故自由度减少了p+1. 对于主要关心应用多元线性回归分析解决实际问题者来说,计算公式的推导过程就没有多大的实际意义有关未知参数的计算中所涉及的运算早巳编人统计软件包,运用SPSS、SAS等诸多统计软件都可以很容易得到计算结果最关键的问题是要能读懂输出结果,特别是要弄清这些结果的统计意义和、实际解释意义 例12 设已知统计资料如下表所示,试根据资料,以每个居民汾人均收入和A商品的价格为自变量,拟合A商品的线性需求函数 解 假定A商品的销售量取决于社会对该商品的需求,即销售量可以代表需求量调用SPSS统计软件多元线性回归分析过程,以销含量y为因变量,为自变量(即要求所有变量人选为自变量),除系统默认选项外,还要求输出回归系数置信区间和判定系数可得模型评价表、方差分析表、模型系数表分别如下: 模型评价模型 R 估计标准误 1 0.938 0.879 1.967 方差分析表模型平方和自由度均方F值显著性(P值回归残差总和197.321 27.079 224.400 2 7 9 98.660 3.868 25.504 0.001 模型系数表模型 未标准化系数t P值B95%置信区间下限 上限常数项 4.5581.868 1.800 1.820 6.930 2.455 0.111 0.000225 0.04381.371 1.2313.53310.546 2.5060.066 由模型系数表得到A商品需求函数的经验回归方程为 计算判定系数=0879,并且对模型拟合作方差分析F值25504,P值0001,远小于005,说明模型拟合较好,回归系数作t检验在显著性水平005下拒绝回归系数为零的假设,并且由模型系数表给出了回归系数的置信水平为95的置信区间
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!