资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,空间插值,Spatial Interpolation,空间插值的概念,空间插值的类型,空间插值的方法,1,空间插值概念,空间插值,空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间内插算法:通过已知点的数据推求同一区域未知点数据。空间外推算法:通过已知区域的数据,推求其它区域数据。,2,空间插值分类,整体插值、局部插值和边界内插法;,确定性插值和地统计插值;,精确插值和近似插值。,3,1,、整体插值、局部插值和边界内插法,整体插值,整体插值:用研究区所有采样点数据进行全区特征拟合。,整个区域的数据都会影响单个插值点,单个数据点变量值的增加、减少或者删除,都对整个区域有影响。,典型例子是:全局趋势面分析,、,Fourier Series,(周期序列),4,局部内插法,局部内插法只,使用邻近的数据点,来估计未知点的值,步骤如下:,定义一个邻域或搜索范围;,搜索落在此邻域范围的数据点;,选择能表达这有限个点空间变化的数学函数;,为未知的数据点赋值。,局部内插方法:,样条函数插值法,距离倒数插值,Kriging,插值(空间自由协方差最佳内插),单个数据点的改变只影响其周围有限的数据点。,5,边界内插法,使用边界内插法时,首先要假定任何重要的变化都发生在区域的边界上,边界内的变化则是均匀的、同质的。,景观单元法、,Thiessen,多边形法、网格像元法,6,整体插值方法将小尺度的、局部的变化看作随机和非结构性噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷。,整体插值方法通常不直接用于空间插值,而是用来检测总趋势和不同于总趋势的最大偏离部分,即剩余部分,在去除了宏观趋势后,可用剩余残差来进行局部插值。,整体插值方法通常使用方差分析和回归方程等标准的统计方法,计算比较简单。其他的许多方法也可用于整体空间插值,如傅里叶级数和小波变换,特别是遥感影像分析方面,但它们需要的数据量大。,整体插值注意的问题,7,2,、确定性方法和地统计方法,确定性方法,确定性插值法是使用数学函数进行插值,以研究区域内部的相似性(如反距离加权插值法),或者以平滑度为基础(如径向基函数插值法)由已知样点来创建预测表面的插值方法。,全局多项式插值、,反距离权插值、径向基插值、,局部多项式插值,8,地统计学插值,基于自相关性,(,测量点的统计关系,),,根据测量数据的统计特征产生曲面;,克里格方法,依赖于数学模型和统计模型,正是由于引入了包括概率模型在内的统计模型,使克里格方法,与确定性插值方法区分开,来。在克里格方法中预测的结果将与概率联系在一起,即用克里格方法进行插值,一方面能生成预测表面,一方面能给出预测值的误差。,由于建立在统计学的基础上,因此不仅可以产生预测曲面,而且可以产生误差和不确定性曲面,用来评估预测结果的好坏,多种,kriging,方法,9,3,、精确插值和近似插值,精确插值:产生通过所有观测点的曲面。,在精确插值中,插值点落在观测点上,内插值等于估计值。,近似插值:插值产生的曲面不通过所有观测点。,当数据存在,不确定性时,,应该使用近似插值,由于估计值替代了已知变量值,近似插值可以平滑采样误差。,10,一般插值过程,内插方法(模型)的选择;,空间数据的探索性分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;,进行内插;,内插结果评价;,重新选择内插方法,直到合理;,内插生成最后结果。,11,插值方法选择的原则,精确性:,参数的敏感性:许多的插值方法都涉及到一个或多个参数,如距离反比法中距离的阶数等。有些方法对参数的选择相当敏感,而有些方法对变量值敏感。后者对不同的数据集会有截然不同的插值结果。,希望找到对参数的波动相对稳定,其值不过多地依赖变量值的插值方法,。,耗时:一般情况下,计算时间不是很重要,除非特别费时。,存储要求:,同耗时一样,存储要求不是决定性的。特别是在计算机的主频日益提高,内存和硬盘越来越大的情况下,二者都不需特别看重。,可视化、可操作性(插值软件选择):,三维的透视图等。,12,插值验证,(,1,) 交叉验证,交叉验证法(,cross,validation,),首先假定每一测点的要素值未知,而采用周围样点的值来估算,然后计算所有样点实际观测值与内插值的误差,以此来评判估值方法的优劣。 各种插值方法得到的插值结果与样本点数据比较。,(,2,),“,实际,”,验证,将部分已知变量值的样本点作为,“,训练数据集,”,,用于插值计算;另一部分样点,“,验证数据集,”,,该部分站点不参加插值计算。然后利用,“,训练数据集,”,样点进行内插,插值结果与,“,训练数据集,”,验证样点的观测值对比,比较插值的效果。,13,插值方法,最近邻法,(Nearest Neighbor),算术平均值,(Arithmetic Mean),距离反比法,(Inverse Distance),高次曲面插值,(Multiquadric),趋势面插值,(Polynomial),最优插值,(Optimal),样条插值,(Spline Surface),径向基函数插值,(Radial Basis Functions),克里金插值,(Kriging),最小曲率,(Minimum Curvature),14,一、最近邻法,(Nearest Neighbor),最近邻点法又叫,泰森多边形方法,。,它采用一种极端的边界内插方法,只用最近的单个点进行区域插值(区域赋值)。,泰森多边形按数据点位置将区域分割成子区域,每个子区域包含一个数据点,各子区域到其内数据点的距离小于任何到其它数据点的距离,并用其内数据点进行赋值。,15,公式,16,最近邻法,评价,特征:,用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的,;,适用于较小的区域内,变量空间变异性也不很明显的情况,。符合人思维习惯,距离近的点比距离远的点更相似,对插值点的影响也更明显;,最近邻法插值的优点是不需其他前提条件,方法简单,效率高;,缺点是受样本点的影响较大,,只考虑距离因素,对其他空间因素和变量所固有的某些规律没有过多地考虑,。实际应用中,效果常不十分理想。,17,二,、算术平均值,(Arithmetic Mean),算术平均值方法以区域内所有测值的平均值来估计插值点的变量值,(Creutin, 1982),。,18,算术平均值法评价,算术平均值的算法比较简单,容易实现。但,只考虑算术平均,根本没有顾及其他的空间因素,,这也是其一个致命的弱点,因而在实际应用中效果不理想。,19,三、距离反比法,(Inverse Distance),距离反比插值方法最早由,Shepard,提出,(Richard Franke,1982),提出的,,并逐步得到发展。每个采样对插值结果的影响随距离增加而减弱,因此距目标点近的样点赋予的权重较大。,20,距离倒数乘方格网化方法是一个加权平均插值法,可以进行确切的或者圆滑的方式插值。方次参数控制着权系数如何随着离开一个格网结点距离的增加而下降。对于一个较大的方次,较近的数据点被给定一个较高的权重份额,对于一个较小的方次,权重比较均匀地分配给各数据点。计算一个格网结点时给予一个特定数据点的权值与指定方次的从结点到观测点的该结点被赋予距离倒数成比例。当计算一个格网结点时,配给的权重是一个分数,所有权重的总和等于,1.0,。当一个观测点与一个格网结点重合时,该观测点被给予一个实际为,1.0,的权重,所有其它观测点被给予一个几乎为,0.0,的权重。换言之,该结点被赋给与观测点一致的值。这就是一个准确插值。距离倒数法的特征之一是要在格网区域内产生围绕观测点位置的,牛眼,。用距离倒数格网化时可以指定一个圆滑参数。大于零的圆滑参数保证,对于一个特定的结点,没有哪个观测点被赋予全部的权值,即使观测点与该结点重合也是如此。圆滑参数通过修匀已被插值的格网来降低,牛眼,影响。,21,反距离权重插值综合了泰森多边形的自然邻近法和多元回归渐变方法的长处,在插值时为待估点,Z,值为,邻近区域内所有数据点,都的,距离加权平均值,,当有各向异性时,还要考虑,方向权重,。,权重函数与待估点到样点间的距离的,U,次幂成反比,即随着距离增大,权重呈幂函数递减。且对某待估点而言,其所有邻域的样点数的权重和为,1,。,决定反距离权重插值法结果的参数包括,距离的,U,次幂值,的确定,同时还取决于,确定邻近区域,的所使用的方法。此外,为消除样点数据的不均匀分布的影响,还可设置引入一个,平滑参数,,以保证没有哪个样点被赋予全部的权重,即使得插值运算时尽可能不只有一个样点参与运算。,IDW,是一种,全局插值法,,即全部样点都参与某一待估点的,Z,值的估算;,IDW,的适用于呈,均匀分布且密集程度足以反映局部差异,的样点数据集;,IDW,与之前介绍的插值法的不同之处在于,它是一种,精确,的插值法,即插值生成的表面中预测的样点值与实测样点值完全相等。,22,距离反比插值公式,权重系数,w,j,的计算是关键问题,不同类型距离反比法的差别就是权重系数的计算公式不同,因而最后的插值结果也有细微的差别。,23,距离反比权重系数的确定,24,距离反比插值评价,优点,简便易行;可为变量,值变化,很大的数据集提供一个合理的插值结果;不会出现无意义的插值结果而无法解释。,不足,对权重函数的选择十分敏感;易受数据点集群的影响,结果常出现一种孤立点数据明显高于周围数据点的,“,鸭蛋,”,分布模式;,全局最大和最小变量值都散布于数据之中。,距离反比很少有预测的特点,内插得到的插值点数据在样点数据取值范围内。,25,四、,高次曲面插值,(Multiquadric),高次曲面插值由,Hardy,于,1971,年首先提出,随后应用于不同的学科。每个样点对插值点的影响都用样点坐标函数构成的圆锥表示,插值点的变量值是所有圆锥贡献值的总和,(Caruso,1998),。,插值数学表达式为:,其中,c,i,是样本点(,x,i,,,y,i,)的系数,,d,ei,是待估点(,x,e,y,e,)与样本点(,x,i,y,i,)的距离。,26,高次曲面插值评价,高次曲面插值根据变量值已知点和变量值未知点的坐标所构成的圆锥,进行插值,为从离散点构建一个连续的表面提供了一个比较优秀的插值方法。,由于在计算权重系数时需要已知点的距离矩阵及其逆矩阵,因而当数据点增多时,矩阵及其逆的求解都比较费时。,27,五、趋势面分析,通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反应地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观区域,被认为是随机因素影响的结果。,趋势面分析的一个基本要求就是,所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精确度才能达到足够的准确性。,趋势面分析是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。,在数学上,拟合数学曲面要注意两个问题:一是数学曲面类型(数学表达式)的确定,二是拟合精度的确定。,28,1,、趋势面模型的建立,设某地理要素的实际观测数据为,z,i,(,x,i,y,i,)(,i=1,2,n,),,趋势值拟合值为 ,则有,用来计算趋势面的数学方程式有多项式函数和傅立叶级数,其中最常用的是多项式函数。因为任何一个函数都可以在一个适当的范围内用多项式来逼近,而且调整多项式的次数,可使所求的回归方程适合实际问题的需要。,式中, 为剩余值(残差值),29,2,、趋势面模型的参数估计,趋势面分析的核心就是从实际观测值出发推算趋势面,一般采用回归分析方法,使得残差平方和最小从而估计趋势面参数。,假设二维空间中有,n,个观测点(,x,l,y,l,)(,l=1,2,n,),观测值为,z,l,(,l=1,2,n,)则空间分布,z,的趋势面可表示为,N,次多项式,根据最小二乘法,可得,利用克莱姆法则可以求出各个参数,a,i,30,多项式回归,多项式分析,多项式趋势面随着,N,值的不同,其形态也不同。,一般地讲,,N,值越大,拟合精度越高。拟合精度,C,以下式表示,通常,C,为,60,70,时,该多项式就能够揭示空间趋势。,一次多项式,二次多项式,三次多项式,31,3,、趋势面模型的适度检验,趋势面拟合适度的,R,2,检验,式中,,为剩余平方和,它表示随机因素对,z,的离差,为回归平方和,它表示,p,个自变量对因变量,z,的离差的总影响,R,2,越大,趋势面的拟合度就越高。,32,3,、趋势面模型的适度检验(续),趋势面拟合适度的显著性,F,检验,检验的办法是在显著性水平下,查,F,分布表得,F,a,。若计算的,F,值大于临界值,F,a,,则认为趋势面方程显著;否则,不显著。,p,为多项式项数(不包括常数项),,33,4,、趋势面分析应用实例,序号,降水量,Z/mm,横坐标,x/10,4,m,纵坐标,y/10,4,m,1,27.6,0,1,2,38.4,1.1,0.6,3,24,1.8,0,4,24.7,2.95,0,5,32,3.4,0.2,6,55.5,1.8,1.7,7,40.4,0.7,1.3,8,37.5,0.2,2,9,31,0.85,3.35,10,31.7,1.65,3.15,11,53,2.65,3.1,12,44.9,3.65,2.55,上表为某流域,1,月份降水量与各观测点的坐标位置数据,34,4,、趋势面分析应用实例(续),1,)建立趋势面模型,运用上述介绍的趋势面分析原理,首先采用二次多项式进行趋势面拟合,用最小二乘法求得拟合方程为,z=5.998+17.438x+29.787y-3.558x,2,+0.375xy-8.070y,2,(R,2,=0.839,F=6.236),再采用三次趋势面进行拟合,用最小二乘法求得拟合方程为,z=-48.810+37.557x+130.130y+8.389x,2,-33.166xy-62.740y,2,-4.133x,3,+6.138x,2,y+2.566xy,2,+9.785y,3,(R,2,=0.965,F=6.054),35,4,、趋势面分析应用实例(续),2,)模型检验,(,1,)趋势面拟合适度的,R,2,检验。结果表明,二次趋势面回归模型和三次趋势面回归模型的显著性都较高,而且三次趋势面较二次趋势面具有更高的拟合程度。,(,2,)趋势面适度的显著性,F,检验。在置信水平,a,0.05,下,查,F,分布表得,F,2a,F,0.05,(5,6),4.53, F,3a,F,0.05,(9,2),19.4,。显然,,F,2, F,2a,,而,F,3, F,3a,,故二次趋势面的回归方程显著而三次趋势面不显著。因此,,F,检验的结果表明,用二次趋势面进行拟合比较合理。,36,优点和缺点,优点,产生平滑的曲面;,结果点很少通过原始数据点,只是对整个研究曲产生最佳拟合面;,缺点,高次多项式在数据区外围产生异常高值或低值,37,六、,最优插值,(Optimal),最优插值由,Gandin,首先发表,并应用在气象领域的“对象分析,(Objective Analysis)”,中,随后由世界气象组织,(World Meteorological Organization),推荐使用。,此法假设观测变量域是二维随机过程的实现,此外,还认为未知变量值测点的变量值是它周围,n,个测点变量值的线性组合,(Creutin,1982),。,38,最优插值,数学表示式为,:,V,e,是待估点的变量值,,v,j,是点,j,(,x,j,y,j,),的变量值,,w,j,是点,j,(,x,j,y,j,),的权重系数。,上式的插值误差为:,var, ,表示误差方差。最优插值的权重系数,就是使插值误差的方差最小。,39,最优插值过程,最优插值在计算前要求指定空间相关函数的模型及其参数,这可以由用户给出,或者给出必要的数据,由程序计算。,40,七、样条插值,(Spline Surface),样条插值的目标就是寻找一表面,s,(,t,),,使它满足,最优平滑原则,,也就是说,利用样本点拟合光滑曲线,使其表面曲率最小。,相当于扭曲一个橡皮,使它通过所有样点,同时曲率最小。,样条函数,是灵活曲线规的数学等式,为分段函数,一次拟合只有少数数据点配准,,同时保证曲线段的连接处为平滑连续曲线,。这就意味着样条函数可以修改曲线的某一段而不必重新计算整条曲线,插值速度快;保留了微地物特征,视觉上的满意效果。,41,样条插值,插值评价,不适用于在短距离内属性有较大变化的地区,否则估计结果偏大,。,样条内插的误差不能直接估算,,同时在实践中要解决的问题是样条块的定义以及如何在三维空间中将这些块拼成复杂曲面而又不至于引入原始曲面中所没有的异常现象等问题,42,八、克里金插值,(Kriging),克里金插值由南非采矿工程师,D.G.,克里格(,D. G. Krige,)于,1951,年首次提出,故命名为,“,克里金,”,法,后经法国著名地理数学学家,G. Matheron,发展深化。,43,反距离权插值方法只考虑已知样本点与未知样点的距离远近,而克里格方法不仅考虑距离,而且通过变异函数和结构分析,考虑了已知样本点的空间分布及与未知样点的空间方位关系,克里金法是一种在许多领域都很有用的地质统计格网化方法。克里金法试图那样表示隐含在你的数据中的趋势,例如,高点会是沿一个脊连接,而不是被牛眼形等值线所孤立。 克里金法中包含了几个因子:变化图模型,漂移类型 和矿块效应。地统计与确定性插值的最大区别在于,,地统计插值引入了概率模型,,即地统计插值认为从一个统计模型不可能完全精确地得出预测值,所以在进行预测时,应该给出预测值的误差,即预测值在一定概率内合理。,44,前面介绍的几个插值方法对影响插值效果的一些敏感性问题仍没有得到很好的解决,例如趋势面分析的控制参数和距离倒数插值方法的权重对结果影响很大,这些问题包括:,-,需要计算平均值数据点的数目;,-,搜索数据点的邻域大小、方向和形状如何确定;,-,有没有比计算简单距离函数更好的估计权重系数的方法;,-,与插值有关的误差问题。,为解决这些问题,法国地理数学学家,Georges Matheron,和南非矿山工程师,D.G.Krige,研究了一种优化插值方法,用于矿山勘探。这个方法被广泛地应用于地下水模拟、土壤制图等领域,成为,GIS,软件地理统计插值的重要组成部分。这种方法充分吸收了地理统计的思想,认为任何在空间连续性变化的属性是非常不规则的,不能用简单的平滑数学函数进行模拟,可以用随机表面给予较恰当的描述。这种连续性变化的空间属性称为“区域性变量”,可以描述象气压、高程及其它连续性变化的描述指标变量。这种应用地理统计方法进行空间插值的方法,被称为克里金(,Kriging,)插值。 地理统计方法为空间插值提供了一种优化策略,即在插值过程中根据某种优化准则函数动态的决定变量的数值。,Matheron,,,Krige,等人研究的插值方法着重于权重系数的确定,从而使内插函数处于最佳状态,即对给定点上的变量值提供最好的线性无偏估计。,45,Kriging,插值的方法,式中:,z0,为待插入点的值;,Zx,为已知点的值,Wx,为每个点的权重值,计算,Wi,,按采样点数据的半方差图的统计分析原理来计算。,46,4,、,IDW vs. Kriging,Kriging,产生似乎更自然的结果,避免异常值的产生;,同时能给出标准误差。,克里金方法是一种实用的、有效的插值方法。它之所以优于传统方法(如三角剖分法,距离反比加权法等),在于它不仅考虑到被估点位置与已知数据位置的相互关系,而且还考虑到已知点位置之间的相互联系,因此更能反映客观地质规律,估值精度相对较高,是定量描述储层的有力工具。,IDW,Kriging,47,九、径向基函数插值法,(,Radial Basis Function),径向基函数适用于样点数据集大、表面变化平缓的情况;,当局部变异性大,且无法确定样点数据的准确性,或样点数据具很大不确定性时,不适用该技术。,48,径向基本函数法是多个数据插值方法的组合。根据适应你的数据和生成一个圆滑曲面的能力,其中的复二次函数被许多人认为是最好的方法。所有径向基本函数法都是准确的插值器,它们都要为尊重你的数据而努力。为了试图生成一个更圆滑的曲面,对所有这些方法你都可以引入一个圆滑系数。你可以指定的函数类似于克里金中的变化图。当对一个格网结点插值时,这些个函数给数据点规定了一套最佳权重。,49,十、 最小曲率法,(Minimum Curvature),最小曲率插值法,非精确插值法。其插值基准是生成一个具有,最小曲率,(即弯曲度最小),且到各样点的,Z,值的,距离最小,的曲面。,影响最小曲率插值法精度的参数有:,最大残差,,通常允许残差在,10%-1%,之间,最大循环次数,,与栅格大小(,cell size,)有关,通常设置为生成的栅格数量的一,到两倍。,50,最小曲率法广泛用于地球科学。用最小曲率法生成的插值面类似于一个通过各个数据值的,具有最小弯曲量的长条形薄弹性片。最小曲率法,试图在尽可能严格地尊重数据的同时,生成尽可能圆滑的曲面。 使用最小曲率法时要涉及到两个参数:最大残差参数和最大循环次数参数来控制最小曲率的收敛标准。,51,十一、线性三角网法,(,Triangulaion with Linear Interpolation,),线性三角网法是最佳的,Delaunay,三角形,连续样点数据间的连线形成三角形,覆盖整个研究区域,所有三角形的边都不相交。(即与构建,TIN,文件的原理一致),线性三角网法将在整个研究区域内均匀分配数据,地图上的稀疏区域会形成截然不同的三角面。,52,三角网插值器是一种严密的插值器,它的工作路线与手工绘制等值线相近。这种方法是通过在数据点之间连线以建立起若干个三角形来工作的。原始数据点的连结方法是这样:所有三角形的边都不能与另外的三角形相交。其结果构成了一张覆盖格网范围的,由三角形拼接起来的网。 每一个三角形定义了一个覆盖该三角形内格网结点的面。三角形的倾斜和标高由定义这个三角形的三个原始数据点确定。给定三角形内的全部结点都要受到该三角形的表面的限制。因为原始数据点被用来定义各个三角形,所以你的数据是很受到尊重的。,53,十二、自然邻近插值法,(,Natural Neighbor),自然邻近插值法是对泰森多边形插值法的改进。它对研究区域内各点都赋予一个权重系数,,插值时使用邻点的权重平均值决定待估点的权重。,每完成一次估值就将新值纳入原样点数据集重新计算泰松多边形并重新赋权重,再对下一待估点进行估值运算。,对于由样点数据展面生成栅格数据而言,通过设置栅格大小(,cell size),来决定自然邻近插值中的泰森多边形的运行次数,n,,即,设整个研究区域的面积,area,,则有:,n=area/cell size,可设置各向异性参数,(半径和方向)来辅,助权重系数的计算。,54,自然邻点插值法,(NaturalNeighbor),是,Surfer7.0,才有的网格化新方法。自然邻点插值法广泛应用于一些研究领域中。其基本原理是对于一组泰森,(Thiessen),多边形,当在数据集中加入一个新的数据点,(,目标,),时,就会修改这些泰森多边形,而使用邻点的权重平均值将决定待插点的权重,待插点的权重和目标泰森多边形成比例,9,。实际上,在这些多边形中,有一些多边形的尺寸将缩小,并且没有一个多边形的大小会增加。同时,自然邻点插值法在数据点凸起的位置并不外推等值线,(,如泰森多边形的轮廓线,),。,55,常用空间插值方法比较,56,
展开阅读全文