回归与拟合分析课件

上传人:494895****12427 文档编号:241115043 上传时间:2024-06-01 格式:PPT 页数:68 大小:886.18KB
返回 下载 相关 举报
回归与拟合分析课件_第1页
第1页 / 共68页
回归与拟合分析课件_第2页
第2页 / 共68页
回归与拟合分析课件_第3页
第3页 / 共68页
点击查看更多>>
资源描述
第二章 回归与拟合分析第二章 回归与拟合分析1提纲提纲 o1.线性回归分析o2.逐步回归分析o3.非线性回归分析o4.SCGM多点分析提纲 1.线性回归分析21.1 线性回归概念线性回归概念o经典的线性回归分析法仍广泛应用于变形测量数据处理中。o它是研究一个变量(因变量)与多个因子(自变量)之间非确定关系(相关关系)的最基本方法。该方法通过分析所观测的效应量(如变形)和原因(如荷载)之间的相关性,来建立数学模型。如:n因变量:水库大坝的变形;n自变量:水库水位、气温、降雨量等1.1 线性回归概念经典的线性回归分析法仍广泛应用于变形测量31.2 线性回归模型线性回归模型o线性回归模型 式中 为因变量,是为可观测的随机变量;是自变量,为可观测的已知变量;为不可观测的随机误差项,为未知参数 o如果进行了n 期观测,可写为1.2 线性回归模型线性回归模型41.2 线性回归模型线性回归模型o矩阵表达 式中 1.2 线性回归模型矩阵表达51.3 线性回归模型建立过程线性回归模型建立过程o回归分析模型建立的过程n根据实际研究问题设置目标变量n收集整理统计数据n构造回归模型n对模型参数进行估计n对回归方程和回归系数进行假设检验n回归模型的应用 1.3 线性回归模型建立过程回归分析模型建立的过程61.4 线性回归模型参数估计线性回归模型参数估计o模型参数估计n回归参数可通过样本数据(观测数据)来估计,误差方程可以写成:n按最小二乘准则n参数估值1.4 线性回归模型参数估计模型参数估计71.4 线性回归模型参数估计线性回归模型参数估计n 的最小二乘估值n多元回归模型的标准差(中误差)1.4 线性回归模型参数估计 的最小二乘估值81.5 线性回归模型的拟合优度线性回归模型的拟合优度o拟合优度:样本观测值聚集在样本回归线周围的紧密程度。常用指标是复相关系数o定义:n总离差平方和n回归平方和n残差平方和n三者关系1.5 线性回归模型的拟合优度拟合优度:样本观测值聚集在样本91.5 线性回归模型的拟合优度线性回归模型的拟合优度o复相关系数(可决系数)n在总离差平方和中回归平方和所占的比重越大,则回归效果越好,说明回归模型与样本观测值拟合得好;如果残差平方和所占比重大,则回归模型与样本观测值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数,或复相关系数1.5 线性回归模型的拟合优度复相关系数(可决系数)101.6 总体回归模型的显著性检验总体回归模型的显著性检验o实际问题中,事先并不能断定因变量 与自变量 之间是否确有线性关系。在求线性回归方程之前,线性回归模型只是一种假设。在求得线性回归方程后,还需要对回归方程进行统计检验,以给出肯定或者否定的结论。o统计检验n原假设:因变量与自变量之间不存在线性关系,则模型中的 为零向量,即n备选假设:不全为零1.6 总体回归模型的显著性检验实际问题中,事先并不能断定因111.6 总体回归模型的显著性检验总体回归模型的显著性检验n检验统计量n检验:选择显著性水平 后,可以用下式检验原假设:n若上式成立,即可认为在显著性水平 下,回归系数不全为0,即回归方程是显著的。1.6 总体回归模型的显著性检验检验统计量121.7 回归系数显著性检验回归系数显著性检验t检验检验o回归方程显著,并不意味着每个自变量 对因变量 的影响都显著,总想从回归方程中剔除那些可有可无的变量,重新建立更为简单的线性回归方程。这时可以采用回归系数显著性检验。o统计检验n原假设:如果某个变量 对 的作用不显著,则该变量的系数 就应该为零,即n 检验统计量:1.7 回归系数显著性检验t检验回归方程显著,并不意味着每131.7 回归系数显著性检验回归系数显著性检验t检验检验n检验:选择显著性水平 后,可以用下式检验原假设:n若上式成立,即可认为回归系数 在 置信水平下是显著的。1.7 回归系数显著性检验t检验检验:选择显著性水平 141.7 回归系数显著性检验回归系数显著性检验F检验检验o偏回归平方和:在回归分析中,去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自变量使回归平方和增加的部分。可以证明,其为:o统计检验n原假设:如果某个变量 对 的作用不显著,则该变量的系数 就应该为零,即n 检验统计量:1.7 回归系数显著性检验F检验偏回归平方和:在回归分析中151.7 回归系数显著性检验回归系数显著性检验F检验检验n检验:选择显著性水平 后,可以用下式检验原假设:n若上式成立,即可认为回归系数 在 置信水平下是显著的。1.7 回归系数显著性检验F检验检验:选择显著性水平 16o某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水位/m186.93 190.8187.5191195.36 197.53 190.43 193.48 188.65 192.98位移/mm 1.772.021.71.892.512.782.072.231.832.17某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水17o某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分析求回归方程序号坝段1温度/()坝段2温度/()水平位移/mm16.816.5715.4029.889.5313.2039.527.7915.2649.7012.3211.3356.529.8813.3265.348.2614.2679.507.5514.16某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分181.8 线性回归模型的预报线性回归模型的预报o线性回归模型的预报方程o预报就是给自变量一组特定的值(),对因变量的值 进行估计o自变量(如气温、水库水位、降雨量、大坝滑坡体的岩土力学参数)的值n可以通过实测得到,如滑坡体的岩土力学参数等n也可以用前几十年的资料进行预测得到,如气温、水库水位、降雨量等1.8 线性回归模型的预报线性回归模型的预报方程191.8 线性回归模型的预报线性回归模型的预报o预报误差 的估计值o 的期望和方差:o构造统计量:1.8 线性回归模型的预报预报误差 的估计值201.8 线性回归模型的预报线性回归模型的预报o预报的置信区间o控制:即要求因变量在 之间,自变量因素应该怎么控制1.8 线性回归模型的预报预报的置信区间21提纲提纲 o1.线性回归分析o2.逐步回归分析o3.非线性回归分析o4.SCGM多点分析提纲 1.线性回归分析222.1 最优回归方程的选择最优回归方程的选择o对于一个因变量可能存在多个影响因素,如何从诸多的影响因素中选择一些有效的变量作为自变量,建立“最优”回归方程十分重要n如果遗漏了重要的变量,回归分析的效果一定不会好;n如果变量过多,将会把对 y 影响不显著的变量也选入回归方程,这样就影响了回归方程的稳定性,效果也好不了。o在实际问题中,影响y的因素很多,而且这些因素之间有可能存在多重共线性,即个自变量之间也有一定的依赖性,这样会出现选择不同的自变量,得到不同的回归结果,对结果的解释也不一样。2.1 最优回归方程的选择对于一个因变量可能存在多个影响因素232.1 最优回归方程的选择最优回归方程的选择o建立最优回归方程的方法:逐步剔除、逐步引入、逐步回归法o“逐步剔除”回归分析n步骤:o首先采用全部自变量与因变量建立回归方程,对每一个因子作显著性检验,剔除不显著的变量中偏回归平方和最小的变量;o然后用剩余的自变量和因变量重建回归方程,再逐个检验回归系数,剔除不显著的变量中偏回归平方和最小的变量;o重复上述步骤,直到回归方程中所有的因子都显著。n缺点:一开始就要计算所有自变量的回归方程,如果原始自变量中有较多个不显著因素,计算量大;2.1 最优回归方程的选择建立最优回归方程的方法:逐步剔除、242.1 最优回归方程的选择最优回归方程的选择o“逐步引入”回归分析:从一个自变量开始,逐个地选入回归方程n步骤o第一步是在所有的自变量中选出一个,使它和y组成的一元回归方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;o第二步,在未入选的变量中选择一个自变量,使它与已入选的变量组成二元方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;o上述过程不断重复下去,直到选入的变量不显著n缺点:未考虑新变量的逐步引入,使得原有引入的变量有可能失去重要性;2.1 最优回归方程的选择“逐步引入”回归分析:从一个自变量252.1 最优回归方程的选择最优回归方程的选择o“逐步回归”分析方法:为了克服上述两种方法的缺点,发展出“有进有出”的回归分析方法,即逐步回归分析方法。n类似“逐步引入”方法,根据自变量对y作用的显著程度,逐个引入回归方程。不同之处在于,当原引入变量由于后面的变量引入不再显著时,将其剔除。2.1 最优回归方程的选择“逐步回归”分析方法:为了克服上述262.2 逐步回归分析逐步回归分析步骤步骤o一、确定F检验值n引入或剔除变量的标准。一般地,为使最终回归方程中包含较多的变量,F检验水平不宜过高,即显著水平不宜太小o二、逐步计算n如果已计算t步,且回归方程中已引入t个变量,则第t+1步为n(1)计算所有自变量的偏回归平方和;n(2)剔除自变量:在已引入的t个自变量中,检查是否有需要剔除的不显著变量。方法:在已引入的变量中选取具有最小偏回归平方和的一个并计算F值。如果FF,不需要剔除变量。计算转至步骤(3)。2.2 逐步回归分析步骤一、确定F检验值272.2 逐步回归分析逐步回归分析步骤步骤n(3)引入自变量:从未引入的变量中选出具有最大偏回归平方和的自变量,并计算F值,如果FF,则表示该变量显著,应引入回归方程,计算转至步骤(4)。如果FF,则表示已无变量可以选入,逐步回归计算结束。n(4)剔除或引入一个变量后,应该重新进行回归,第t+1步结束。重复(1)(4)进行计算。o三、其他计算n计算回归方程入选变量的系数、复相关系数和残差统计量等。2.2 逐步回归分析步骤(3)引入自变量:从未引入的变量中28提纲提纲 o1.线性回归分析o2.逐步回归分析o3.非线性回归分析o4.SCGM多点分析提纲 1.线性回归分析293.1 非线性回归模型概念非线性回归模型概念o自然界大量存在的相互作用是非线性的。n例如,边坡变形是一个复杂的非线性过程,它主要受到边坡地区地质构造、滑坡体及滑动面的力学性质、滑坡体及滑坡地区的水文气象条件(如气温、雨水等)的影响。o过程本质的非线性就决定了预报模型的非线性。所以,边坡预报从线性统计分析转向非线性分析,从而建立非线性统计预报方法,已逐渐得到较多关注。3.1 非线性回归模型概念自然界大量存在的相互作用是非线性的303.1 非线性回归模型概念非线性回归模型概念o应用非线性回归模型作边坡变形分析和变形预报n首先必须依据一定的样本数据所描述的散点图,结合对特定的边坡运动规律的定性分析,选择适当的回归模型。n模型确定以后就可以计算模型参数和进行模型评估和检验。n模型通过检验后,就可以对边坡的变形进行分析和预报。3.1 非线性回归模型概念应用非线性回归模型作边坡变形分析和312.2 非线性回归模型的类型非线性回归模型的类型o根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:直接换元型、间接代换型、非线性型o直接换元型n这类非线性回归模型通过简单的变量换元可直接化为线性回归模型 n(1)双曲线模型n(2)多项式模型n(3)对数模型n(4)三角函数模型2.2 非线性回归模型的类型根据非线性回归模型线性化的不同性322.2 非线性回归模型的类型非线性回归模型的类型o直接换元型n虽然包含有非线性变量,但因变量与待估计参数之间的关系却是线性的。n由于这类模型的因变量没有变形,所以可以直接采用最小二乘法估计回归系数并进行检验和预测 2.2 非线性回归模型的类型直接换元型332.2 非线性回归模型的类型非线性回归模型的类型o间接代换型n这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型 n(1)指数模型n(2)幂函数模型2.2 非线性回归模型的类型间接代换型(1)指数模型342.2 非线性回归模型的类型非线性回归模型的类型o间接代换型n因变量与待估计参数之间的关系也是非线性的,因此不能通过直接换元化为线性模型。n通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。n为使取对数后回归方程的形式更为简捷,不妨适当变换随机扰动项的形式,n(1)指数模型n(2)幂函数模型2.2 非线性回归模型的类型间接代换型(1)指数模型352.2 非线性回归模型的类型非线性回归模型的类型o间接代换型n由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小二乘估计失去了原模型的残差平方和为最小的意义,从而估计不到原模型的最佳回归系数,可能造成回归模型与原数列之间的较大偏差。2.2 非线性回归模型的类型间接代换型362.2 非线性回归模型的类型非线性回归模型的类型o非线性型n不能通过变量变换的方法化为线性模型。n可借助于泰勒级数展开式进行逐次线性逼近的估计方法nLogistic模型nRichards模型nWeibull模型n修正指数增长曲线2.2 非线性回归模型的类型非线性型Logistic模型37o某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡上布设了一系列监测点:一部分布设在坡顶地面,另一部分布设在滑体上专门开凿的平硐内。o变形工作是从1988年开始的,由于缺少有关降雨量等相关资料,对边坡的性状分析主要集中在对边坡监测点的实测变形曲线的规律的分析上。o右图为其中几个点的变形时间实测曲线某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡382.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法o如果不考虑水的因素,则边坡滑动是一个单纯的力学蠕变过程,可用文字描述为:边坡受到一定的外力干扰后开始蠕变,在蠕变初期变形速度较慢;蠕变到一定时期后,速度逐渐加快;蠕变速度增加到一定程度后,如果边坡的约束强,则边坡的蠕变会逐渐变缓,最后趋于稳定,达到新的平衡;如果边坡的约束不强,则蠕变达到一定程度后会产生突变,导致滑坡。o根据对边坡滑移规律的分析,可以选择非线性回归模型中的生物增长曲线来描述边坡的变形 Logistic模型 Richards模型 Weibull模型2.3 非线性回归模型的线性逼近解法如果不考虑水的因素,则边39o数学模型 式中 为时间变量,为观测的变形量,为未知参数o如果进行了n 期观测,观测量和观测时间可写为2.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法数学模型2.3 非线性回归模型的线性逼近解法40o观测模型o线性化2.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法观测模型2.3 非线性回归模型的线性逼近解法41o线性化2.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法线性化2.3 非线性回归模型的线性逼近解法42o矩阵表达 式中 2.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法矩阵表达2.3 非线性回归模型的线性逼近解法43o 由最小二乘原理,可以求得 的估值o由于参数无任何先验信息,必须迭代求解。设第K步求得的参数解为k,则第k+1步计算步骤为:(1)对模型函数在k处按台劳级数展开,重新线性化,组成矩阵形式的观测方程式(2)按最小二乘法解得第k+1步的参数解(k+1),(k+1)=k+(3)若 ,迭代结束,否则重复(1)(2)2.3 非线性回归模型的线性逼近解法非线性回归模型的线性逼近解法 由最小二乘原理,可以求得 的估值2.3 非线性442.3 非线性模型的检验非线性模型的检验o非线性模型的检验一般是对残差进行分析,根据残差来推断模型和参数的统计性质。对非线性模型 ,记 ,表示模型拟合残差。在非线性模型的情况下,要检验残差是否满足如下假设:(i)为独立、同分布的随机变量,且有:记为iid.(ii)除满足(1)外,还服从正态分布,记为iidN.o检验分两步进行,首先检验残差是否服从正态分布,在接受正态分布的检验后再进一步检验残差均值是否为零。具体方法如下:2.3 非线性模型的检验非线性模型的检验一般是对残差进行分析452.3 非线性模型的检验非线性模型的检验o残差是否服从正态分布的检验残差是否服从正态分布的检验若把残差的取值范围划分为L个子区间(一般划分为7-14个子区间,区间的划分以使每个子区间内所含的样本个数不少于5个为宜)。统计出每个子区间所含的样本数即组频数 ,i=1,2,L。计算出残差平均值 和残差方差 作为正态分布的参数,查正态分布表得出每一子区间的理论频数 ,其中 为 在第i个区间取值的概率,它可由正态分布表查得。检验的统计量为:由此可以检验残差是否服从正态分布。2.3 非线性模型的检验残差是否服从正态分布的检验462.3 非线性模型的检验非线性模型的检验o统计检验n 检验统计量:2.3 非线性模型的检验统计检验472.3 非线性模型的检验非线性模型的检验o残差均值是否为零的检验残差均值是否为零的检验 在通过残差服从正态分布的前提下,我们再来讨论残差均值是否为零的检验。在大样本时不管总体遵循什么分布,根据中心定理,可以认为样本均值渐近遵从正态分布。因此可以利用u检验:2.3 非线性模型的检验残差均值是否为零的检验 482.3 非线性模型的检验非线性模型的检验o统计检验n 检验统计量:2.3 非线性模型的检验统计检验492.3 非线性模型的检验非线性模型的检验o若两个检验都成立,则认为模型的统计性质优良;若两个检验都成立,则认为模型的统计性质优良;若检验(若检验(1)通过但检验()通过但检验(2)不成立,则需对模型)不成立,则需对模型进一步改进或是调整模型参数形式等;若两个检验进一步改进或是调整模型参数形式等;若两个检验都不成立,则需调整模型或是考虑用别的模型。都不成立,则需调整模型或是考虑用别的模型。2.3 非线性模型的检验若两个检验都成立,则认为模型的统计性502.4 非线性回归模型的预报非线性回归模型的预报o变形预报:2.4 非线性回归模型的预报变形预报:51提纲提纲 o1.多元线性回归模型o2.非线性回归模型o3.SCGM模型提纲 1.多元线性回归模型523.1 SCGM模型概念模型概念o在实际系统中,往往总有多个因子或状态变量在系统的演变中发生联系或相互影响,因而建立模型时,应考虑这种影响。1990年问世的针对关联多因子对象的系统云灰色预测模型(System Cloud and Its Grey Model,陈绵云等,1990),即SCGM(1,m)预测模型就适合于这种情形的描述。o边坡系统实际上是一个复杂的隐含了动态系统运行特征的关联多因子灰色系统,因此,边坡的变形发展可以用SCGM(1,m)模型描述。3.1 SCGM模型概念在实际系统中,往往总有多个因子或状态533.2 SCGM模型建立模型建立o设有含m个监测点、共进行了n期观测的边坡系统,其观测序列记为o均值序列记为:o均值一阶累加生成序列为:o设有含m个监测点、共进行了n期观测的边坡系统,其观测序列记为o均值序列记为:o均值一阶累加生成序列为:3.2 SCGM模型建立设有含m个监测点、共进行了n期观测的543.2 SCGM模型建立模型建立o考虑m个点互相关联和互相影响,建立SCGM(1,m)模型3.2 SCGM模型建立考虑m个点互相关联和互相影响,建立S553.2 SCGM模型建立模型建立o写成矩阵形式:3.2 SCGM模型建立写成矩阵形式:563.2 SCGM模型建立模型建立o由积分生成变换(IGT)原理,在矩阵形式两边左乘 3.2 SCGM模型建立由积分生成变换(IGT)原理,在矩阵573.3 SCGM模型解算模型解算o根据定义和上述递推模型:3.3 SCGM模型解算根据定义和上述递推模型:583.3 SCGM模型解算模型解算o把k=2,3,n代入,得 3.3 SCGM模型解算把k=2,3,n代入,得593.3 SCGM模型解算模型解算o若令 则递推公式可写为:设 ,上式可以写成 3.3 SCGM模型解算若令603.3 SCGM模型解算模型解算o把k=2,3,n代入,得 3.3 SCGM模型解算把k=2,3,n代入,得613.4 SCGM模型还原预测模型还原预测o由 可得:o又由 可得o所以o还原预测模型:3.4 SCGM模型还原预测由 623.5 SCGM模型精度模型精度o模型的模拟精度o模型预测相对误差:向前 步预测结果其中3.5 SCGM模型精度模型的模拟精度633.6 SCGM模型程序设计模型程序设计o模型 3.6 SCGM模型程序设计模型643.6 SCGM模型程序设计模型程序设计o数据o程序:用前24期数据建模,对第2536期观测进行预报主程序:load deform_data.dat;model_data=deform_data(1:24,:);函数:function EA,B,C=SCGM(model_data)1.01 2.03 5.082.55 3.04 5.09观测数据文件:deform_data.dat行代表观测期数列代表监测点个数3.6 SCGM模型程序设计数据1.01 2.03 565o函数:function EA,B,C=SCGM(model_data)%数据预处理,均值序列model_ave,均值一阶累加序列model_ave_AGO%计算EA计算B和C 函数:function EA,B,C=SCGM(mo663.6 SCGM模型程序设计模型程序设计o主程序:load deform_data.dat;model_data=deform_data(1:24,:);EA,B,C=SCGM(model_data)变形预报:3.6 SCGM模型程序设计主程序:load deform_673.5 SCGM模型程序设计模型程序设计o计算模型的模拟精度o计算模型预测相对误差:向前 步预测结果其中3.5 SCGM模型程序设计计算模型的模拟精度68
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!