资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,回归分析,山东建筑大学,贺长伟,引言,回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺优化等问题。它在工农业生产和科学研究各个领域中均有广泛的应用。,回归分析一般分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析的基本结论及其在Matlab中的相应命令。线性回归分析是两类回归分析中较简单的一类,也是应用较多的一类。,一 一元线性回归分析,针对一组(二维)数据 (其中 互不相同),其最简单的数据拟合形式为寻求直线 ,使 在最小二乘准则下与所有数据点最为接近。,但由于随机观测误差的存在,满足上述数据点的直线应该是,(1.1),其中,x,y,是准确的,是两个未知参数,是均值为零的随机观测误差,具有不可观测性,,可以合理地假设这种观测误差服从正态分布,。,于是我们得到一元线性回归模型为,(1.2),其中 未知,固定的未知参数 称为,回归,系数,,自变量,x,称为,回归变量,。,(1.1)式两边同时取期望得:称为,y,对,x,的回归直线方程。,在该模型下,第,i,个观测值可,以看作样本(这些样本相互独立但不同分布,i,=1,2,n,)的实际抽样值,即样本值。,一元线性回归分析的,主要任务,是:,a.用实验值(样本值)对 作点估计;,b.对回归系数 作假设检验;,c.在 处对,y,作预测,并对,y,作区间估计。,1、,回归参数 估计,假设有,n,组独立观测值:则,由(1.2)有,(1.3),其中 相互独立。记,称 为偏离真实直线的偏差平方和。由最小二乘法得到的估计 称为 的最小二乘估计,其中,(经验)回归方程为,(1.4),这样我们得到 的无偏估计 ,,其中 服从正态分布,2 模型的假设、预测、控制,1、,回归方程的显著性检验,在实际问题中,因变量,y,与自变量,x,之间是否有线性关系(1.1)只是一种假设,在求出回归方程之后,还必须对这种回归方程同实际观测数据拟合的效果进行检验。,由(1.1)可知,越大,,y,随,x,变化的趋势就,越明显;反之,越小,,y,随,x,变化的趋势就越不明显。特别当 =0时,则认为,y,与,x,之间不存在线性关系,当 时,则认为,y,与,x,之间有线性关系。因此,问题归结为对假设,进行检验。,假设:被拒绝,则回归显著,认为,y,与,x,之间存在线性关系,所求的线性回归方程有意义;否则回归不显著,,y,与,x,的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。此时,可能有如下几种情况:,(1),x对y没有显著影响,,此时应丢掉变量x;,(2),x对y 有显著影响,,但这种影响不能用线性关,系来表示,应该用非线性回归;,(3),除x之外,还有其他不可忽略的变量对y 有显,著影响,,从而削弱了x对y 的影响。此时应用,多元线性回归模型,。因此,在接受H0 的同,时,需要进一步查明原因以便分别处理。,检验方法:(a),F检验法,对样本方差 进行分解,有,上式中的 是由实际观测值没有落在回归直线上,引起的(否则为零),,U,是由回归直线引起的。因,此,,U,越大,就越小,表示,y,与,x,的线性关系就越,显著;否则,,U,越小,就越大,表示,y,与,x,的线性,关系就越不显著。这样我们就找到了一种判别回归,直线拟合程度好坏的方法:,如果,U,/s接近于1,即,U,/,较大时,则对拟合效果感到满意。,由F分布有,其中,r,称为相关系数。对给定的显著水平a,有置信,水平为1-a 的临界值 ,从而F检验法,的检验准则为:当 时,拒绝,;否则就接受,(b),t检验法,当成立时,由T分布的定义有,因此,对于给定的显著水平a,用T统计量检验 ,,有置信水平为1-a 的临界值,从而t检验法的检验准则为:,当 时,拒绝 ;否则就接受,2、预测与控制,当检验结果拒绝了:,接下来的问题是如,何利用回归方程,进行预测和控制。,预测,就是对固定的,x,值预测相应的,y,值,,控制,就是通,过控制,x,的值,以便把,y,的值控制在制定的范围内。,(a)预测,设,y,与,x,满足模型(1.2)。令,表示,x,的某个固,定值,且,假设 相互独立,则 的预测值和预,测区间如下。,y,的预测值为 的回归值 。它是,的无偏估计,即,给定显著水平 ,的置信水平为1-的预测区间,为 ,其中,由上式可知,剩余标准差 越小,预测区间越,小,预测值越精确;对于给定的样本观测值和置信,水平而言,越靠近 时,预测精度就越高。,(b)控制,若要 的值以1-的概率落在,指定区间(,c,d,)之内,变量,x,应控制在什么范围内,的问题就是所谓的控制问题。它是预测问题的反,问题。,只要控制,x,满足以下两不等式,这要求 若方程 分别有解,a,b,,则(,a,b,)就是所求的,x,的控制区间,。,二 可线性化的一元非线性回归(曲线回归),在工程技术中,自变量,x,与因变量,y,之间有时呈现出非线性(或曲线)关系,这是通常出现两种情况:,一种是呈现多项式的关系,,这种情况通过变量替换可化为多元线性回归问题给予解决;,另一种是呈现出其它非线性关系,,通过变量替换可化为一元线性回归问题给予解决。,若匹配曲线(经验公式)为含参量,a,b,的非线性曲线,采用的办法是通过,变量替换,把,非线性回归化为线性回归,。通常匹配的含参量,a,b,的非线性曲线有以下六类,具体的替换方法如下:,1 双曲线,作变量替换,得,2 幂函数曲线,两边取常用对数:,再作,代换,则幂函 数曲线方程就变成直线方程,注:,对于非线性回归问题的Matlab实现问题,一种方法是化为相应的线性模型实现,另种方法是直接应用Matlab中相应的命令,其结果是一致的。,三 多元线性回归分析,一般地,在实际问题中影响应变量,y,的自变量往,往不止一个,不妨设有,k,个为 。通,过观测得到一组(,k,+1维)相互独立的试验观测,数据 ,,其中,n,k,+1。假设变量,y,与变量,之间有线性关系:,(1.5),其中 是随机变量,一般假设,则观测数据满足,(1.6),其中 互不相关且均是与 同分布的随机变量。令,则(1.6)可简写为,其中,X,为已知的,n,*(,k,+1)矩阵,称为回归设计矩阵或资料矩阵,,Y,是,n,维观察值列向量,为,k,+1维未知的列向量,是满足,的,n,维随机列向量.,一般称,(1.7),为,k,线性回归模型(高斯马尔科夫线性模型),对(1.7)取数学期望得到,称为线性回归方程。,对线性模型所要考虑的主要问题是:,(i)用实验观测数据对未知参数,做点估计和假设检验,从而建立因变量,y,和自,变量 之间的线性关系;,(ii)在 处对,y,的值作预测和,控制,并对,y,作区间估计。本部分总是假设,n,k,+1。,(具体方法略),四、逐步线性回归分析,逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生的一种算法技巧,详可参阅相应的文献。,其基本思路为:从一个自变量开始,视自变量对,y,作用的显著程度,,从大到小依次逐个引入回归方程,。当引入的自变量由于后面自变量的引入而变得不显著时,要将其,剔除掉,。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步,都要进行,y,值检验,以确保每次引入新的显著性变量前回归方程中只包含对,y,作用显著的变量。,这个过程反复进行,直至即无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程止。,五 回归分析的Matlab实现,Matlab统计工具箱中提供了一些回归分析的命令,现介绍如下。,1、多元线性回归,多元线性回归的命令是,regress,,此命令也可用于,一元线性回归。其格式为:,(1)确定回归系数的点估计,用命令:,b=regress(Y,X)。,(2)求回归系数的点估计和区间估计,并检验回归,模型,用命令:,b,bint,r,rint,stats=regress(Y,X,alpha),。,(3)画出残差及其置信区间,用命令:,rcoplot(r,rint),。,在上述命令中,各符号的含义为:,(i),Y,X的定义同本部分前面所述。对一元线性回归,在 ,Y,X中取,k,=1即可;,(ii)alpha为显著性水平(缺省时为0.05);,(iii)bint为回归系数的区间估计;,(iv)r与rint分别为残差及其置信区间;,(v)stats是用于检验回归模型的统计量,有三个数值,第一个是 ,第二个是F值,第三个是与F对应的概率P。其中 与F定义同前,值越大,说明回归方程越显著,,P,a(0.01或0.05),时拒绝 ,回归模型成立。,例1 合金的强度,y,与其中的碳含量,x,有比较密切的关系,今从生产中收集了一批数据如下表。试先拟合一个函数,y,(,x,),再用回归分析对它进行检验。,x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18,y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0,解 先画出散点图:,x=0.10:0.01:0.18;,y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;,plot(x,y,+),可知y与x大致为线性关系,。,设回归模型为 ,用regress和rcoplot编程如下:,clc,clear,x1=0.10:0.01:0.18 ;,y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;,x=ones(9,1),x1;,b,bint,r,rint,stats=regress(y,x);,b,bint,stats,rcoplot(r,rint),得到b=27.4722 137.5000,bint=18.6851 36.2594,75.7755 199.2245,stats=0.7985 27.7469 0.0012,即 =27.4722,=137.5000,,的置信区18.6851,36.2594,,的置信区间是75.7755,199.2245;,R,2=0.7985,,F,=27.7469,,p,=0.0012。可知所设回归模型,成立。,观察命令rcoplot(r,rint)所画的残差分布,除第8个数据外,其余残差的置信区间均包含零点,第8个点应视为异常点,将其,剔除后重新计算,可得,b=30.7280 109.3985,bint=26.2805 35.2834,76.9014 141.8955,stats=0.9188 67.8534 0.0002,应该用修改后的这个结果,。,2、多元二项式回归,多元二项式回归可用命令:,rstool(x,y,model,alpha)。其中,输入数据x、y,分别为,n,m,矩阵和n维列向量;alpha为显著性水平,(缺省时为0.05);model由下列4个模型中选择1个,(用字符串输入,缺省时为线性模型):,linear(线性):,purequadratic(纯二次):,interaction(交叉):,quadratic(完全二次),:,3、非线性回归,非线性回归可用命令,nlinfit,nlintool,nlparci,nlpredci来实现。,命令格式如下:,回归:回归可用命令,beta,r,J=nlinfit(x,y,model,beta0),或者 nlintool(x,y,model,beta0,alpha)来实现。,其中命令beta,r,J=nlinfit(x,y,model,beta0)的作用,为确定回归系数;,而命令nlintool(x,y,model,beta0,alpha)产生一个交互,式的画面,画面中有拟合曲线和y的置信区间。通过左下,方的Export下拉式菜单,可以输出回归系数等。,这里的输入数据,x、y,分别为,nm,矩阵和
展开阅读全文