第10讲－空间统计分析

资源描述

地理信息系统原理地理信息系统原理吴明光南京师范大学地理科学学院第十讲空间统计分析主要内容主要内容一、空间统计基础二、探索性空间数据分析三、空间插值1 空间数据库的准确性研究 2 空间关系语言研究利用自然语言和数学方法，形成空间关系表达的理论关于定位表达的计算模型空间概念的获取和表达拓扑关系的定义空间信息的可视化 GIS的用户接口 3 空间数据的多种表达方式研究组织的不同版本的数据及相应的拓扑关系满足数据一致性和精度要求的地图制图规则数据模型、链接、多机构、多尺度等对数据的需求 4 地理信息的使用和价值研究 5 海量空间数据库的结构体系研究海量数据库中数据模型、结构、算法空间代数学基于逻辑的计算机查询语言元数据的具体内容和组织数据压缩和加密方法 6 空间决策支持系统 7 空间信息的可视化研究 8 地图制图的规范化研究9 地理信息数据共享的研究10 GIS中时空关系的研究 11 遥感和GIS的集成研究12 GIS的用户接口研究 13 GIS和空间分析研究空间统计学、地理数据的空间统计分析地理边界和地图比例尺在空间数据体系中的作用空间数据的采样和内插 GIS数据结构和空间统计计算之间的关系 14 GIS在全球变化中的作用研究15 法律、信息政策和空间数据库关系研究 16 通过协作形成空间决策系统的研究 17 在社会背景中，如何在GIS中表达人、空间与环境 18 地理信息系统的互操作研究开放的、分布式存储的GIS结构地理数据语义特性获取方法数据抽象和处理模型研究地理空间数据的粒度（Granularity)19 地理世界的规范化模式研究地理世界的规范化表达用空间数据结构表达现实世界时，基本的描述元素 GIS用户对地理世界的直觉看法 NCGIA罗列的19个GIS研究方向（1990s）目的1.描述事物在空间上的分布特征（随机、聚集或规则）2.分析数据的空间自相关性，空间自相关对空间格局的影响，如何利用这种关系构建模型本章关注的问题1 有多少2 怎么分布n 是否正常（极端值、异常值、离群值）n 是否有趋势n 是否自相关n .3 怎么由点扩展到区域基本统计量1.对空间对象分布状况的统计2.对具有空间坐标的属性值的统计长三角地区城市分布具有聚集性？江苏省人均GDP是多少？空间分布模式计算举例空间分布模式计算举例n第一类是以聚集性为基础的基于密度的方法，他用所定义的规则区域中实体的密度或频率分布的各种特性研究实体分布的空间模式；n第二类是以分散性为基础的基于距离的技术，他是通过最邻近的距离分析实体的空间分布模式。上述两种方法均需要考虑实体集合的地理范围。如何计算空间分布模式？如何计算空间分布模式？k个网格、n个点的情况下，一个区块内有m个点的概率为：泊松定理表明，当1/k很小时，二项式分布近似为泊松分布：泊松分布中均值、方差相等且均为可以通过考察均值和方差的比值来判定点集是否为随机分布并进行显著检验。如果空间模式接近于泊松分布，则 I趋近于1.I可以通过统计计算求取，通过与分位点的比较来计算显著水平。费希尔（R.A.Fisher）曾证明，当m充分大时，其中Za是标准正态分布的上a分位点。查表可得Z0.05=1.64构造分散性指数：ArcGISArcGIS平台中平台中Average Nearest Neighbor 点模式分析工具点模式分析工具点状点状POIPOI数据数据空间分布模式计算实例空间分布模式计算实例采用采用ArcGISArcGIS平台中平台中Average Nearest Neighbor DistanceAverage Nearest Neighbor Distance点模式分析工具分析，点模式分析工具分析，结果表明该数据呈聚集分布且显著性水平为结果表明该数据呈聚集分布且显著性水平为0.010.01(Nearest Neighbor radio=0.420558,Z Score=-29.516427,P-value=0.00(Nearest Neighbor radio=0.420558,Z Score=-29.516427,P-value=0.00)空间范围？该数据在受限区域内显著的呈随机分布该数据在受限区域内显著的呈随机分布二、探索性空间数据分析(ESDA)1、探索性数据分析（EDA）利用统计图和动态链接的方式寻找数据的分布特征，从中发现数据分布模式，从而根据数据特点选择合适的模型。本质上，EDA是一种数据驱动方法，让数据自己说话。EDA允许用户直接操纵关于数据的各种视图，是一种探索和发现知识的态度，考虑的是数据的分布。2、探索性空间数据分析（ESDA）EDA处理和分析数据的对象是单纯的属性数据，建立在经典统计学的独立假设之上。而GIS中的数据具有空间依赖性，违背了传统统计学的“独立、同分布”的假设。ESDA是以空间关联测度为核心，旨在描述空间数据的空间分布特征，发现离群值，揭示空间联系的结构，给出空间异质性的形式，从而引导空间建模。二、探索性空间数据分析(ESDA)二、探索性空间数据分析(ESDA)4、主要内容（1）基本工具（2）数据分布检验（3）离群点的寻找（4）趋势分析（5）空间自相关分析（1）基本工具直方图 QQ分布图变异函数 Voronoi图直方图直方图直方图指对采样数据按一定的分级方案（等间隔分级、标准差分，等等）进行分级，统计采样点落入各个级别中的个数或占总采样数的百分比，并通过条带图或柱状图表现出来。直方图可以反映采样数据的分布特征、总体规律，可以用来检验数据分布和寻找数据离群值点。l 适用于空间对象为点和面的属性数据l 简单易用l 缺乏空间信息直方图直方图首先对采样值进行排序；计算出每个排序后的数据的累积值（低于该值的数据的百分比）；绘制累积值分布图；在累积值之间使用线性内插技术，构建一个与其具有相同累积分布的理论正态分布图，求出对应的正态分布值；以横轴为理论正态分布值，竖轴为采样点值，绘制样本数据相对于其标准正态分布值的散点图。正态QQPlot示意图正正态QQPlot分布分布图QQ分布图分布图（1）正态QQ图：用于辅助判断数据是否服从正态分布，如果数据越接近一条直线，则越接近于服从正态分布。（2）普通QQ图：用于辅助判断两个数据集数学分布的相似性。l 简单易用，但无法度量差异多大半方差理论（Semivariance）1.半变异函数把方差的大小作为一个距离的函数，是地理学相近相似定理的定量化。（地理学第一定律）2.用于定量描述空间变异和空间相关性，为Kriging插值提供依据。特性1.随距离增加而按确定规律变化2.距离=0，半方差=0（但存在随机误差）变异函数变异函数半方差图半方差基台值变程块金距离0半方差计算步骤半方差计算公式公式计算规则分布点不规则分布点Voronoi图图 Voronoi图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形按下述方法生成：多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。（最近邻原则）应用：空间邻近关系的建立、空间区域的划分、专题制图等。图 Voronoi地图示例仙林大学城自行车投放点仙林大学城自行车投放点Voronoi图图仙林校区规划图仙林校区规划图仙林大学城自行车投放点仙林大学城自行车投放点平稳假设：在空间统计分析中，许多模型都是建立在平稳假设的基础上，这种假设在一定程度上要求所有的数据值具有相同的变异性（可重复）；均值平稳：即假设均值是不变的并且与位置无关。二阶平稳:是假设具有相同的距离和方向的任意两点的协方差是相同的，协方差只与这两点的值相关而与它们的位置无关。正态分布：克里金插值等都要求数据服从正态分布。如果不服从正态分布，需要进行一定的数据变换，使其服从正态分布（直方图、QQ图、偏度和峰度）（2）数据分布检验）数据分布检验离群数据值：n全局离群值是数据集内具有很高或很低的值的数据；n局部离群值是与相邻样点比较偏高或偏低。n局部离群值放在全局看可能不是离群值。方法：n直方图n变异函数nVoronoi图（3）寻找离群数据值）寻找离群数据值用直方图查找离群值离群值在直方图上表现为孤立存在或被一群显著不同的值包围，直方图上最右边被选中的一个柱状条即是该数据的离群值，相应地，数据点层面上对应的样点也被刷光。但需注意的是，在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。离群值的直方图查找和图面显示用半变异/协方差函数云识别离群值如果数据集中有一个异常高值的离群值，则与这个离群值形成的样点对，无论距离远近，在半变异/协方差函数云图中都具有很高的值。如下图所示，这些点可大致分为上下两层，对于上层的点，无论位于横坐标的左端或右端（即无论距离远近）都具有较高的值。刷光上层的一些点，右图是对应刷光的样点对。可以看到，这些高值都是由同一个离群值的样点对引起的，因此，需要对该点进行剔除或改正。离群值的半变异/协方差函数云查找和图面显示趋势趋势？（4）趋势分析）趋势分析空间趋势反映了空间物体在空间区域上变化的主体特征，它主要揭示了空间物体的总体规律，而忽略局部的变异。观测面=区域趋势+局部异常+随机干扰怎么获得怎么获得趋势趋势面面n多项式回归分析可获得趋势面趋势面分析是根据空间抽样数据，拟合一个数学曲面，用该数学曲面来反映空间分布的变化情况。nZ=F(X,Y)n不注重精度和检验，关键在于获取整体规律。（5）空间自相关）空间自相关连续分布的地理现象具有空间相关性，即距离越近的两事物越相似。确定变量在空间上是否具有自相关，相关程度如何（5）空间自相关）空间自相关连续分布的地理现象具有空间相关性，即距离越近的两事物越相似。（5）空间自相关）空间自相关1.全程自相关（区域内有自相关）2.局部自相关（局部地点有自相关）3.正相关（距离变小，属性值越相似）4.负相关（距离变小，属性值越不相似）5.0（距离和属性值没有关系，数据随机分布）通常定义一个二元对称空间权重矩阵W，来表达n个位置的空间区域的邻近关系，其形式如下式中：Wij表示区域i与j的临近关系，它可以根据邻接标准或距离标准来度量。（一）（一）空间权重矩阵-空间相邻关系的描述简单的二进制邻接矩阵基于距离的二进制空间权重矩阵两种最常用的确定空间权重矩阵的规则（二）全局空间自相关 n Moran指数和Geary系数是两个用来度量空间自相关的全局指标。n Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度。n Geary 系数与Moran指数存在负相关关系。如果是位置（区域）的观测值，则该变量的全局Moran指数I，用如下公式计算式中：I 为Moran指数；。Geary 系数C计算公式如下式中：C为Geary系数；其他变量同上式。如果引入记号 nMoran指数I的取值一般在-1，1之间,小于0表示负相关，等于0表示不相关，大于0表示正相关；nGeary系数C的取值一般在0，2之间，大于1表示负相关，等于1表示不相关，而小于1表示正相关。对于Moran指数，可以用标准化统计量Z来检验n个区域是否存在空间自相关关系，Z的计算公式为 1.当Z值为正且显著时，表明存在正的空间自相关，也就是说相似的观测值(高值或低值)趋于空间集聚；2.当Z值为负且显著时，表明存在负的空间自相关，相似的观测值趋于分散分布；3.当Z值为零时，观测值呈独立随机分布。应用实例应用实例中国大陆30个省级行政区人均GDP的空间关联分析。根据各省（直辖市、自治区）之间的邻接关系，采用二进制邻接权重矩阵，选取各省（直辖市、自治区）19982002年人均GDP的自然对数，依照公式计算全局Moran指数I，计算其检验的标准化统计量Z（I），结果如下表所示。年份年份IZP19980.50014.503 50.000 019990.506 94.555 10.000 020000.511 24.597 80.000 020010.505 94.553 20.000 020020.501 34.532 60.000 0 从从表表中中可可以以看看出出，在在19982002年年期期间间，全全局局Moran指指数数均均为为正正值值；在在正正态态分分布布假假设设之之上上，对对Moran指指数数检检验验的结果也高度显著。的结果也高度显著。1.1.在在19982002年年期期间间，中中国国大大陆陆30个个省省级级行行政政区区人人均均GDP存在着显著的、正的空间自相关。存在着显著的、正的空间自相关。各各省省级级行行政政区区人人均均GDP水水平平的的空空间间分分布布并并非非表表现现出出完完全全的的随随机机性性，而而是是表表现现出出相相似似值值之之间间的的空空间间集集聚聚，其其空空间间联联系系的的特特征征是是：较较高高人人均均GDP水水平平的的省省级级行行政政区区相相对对地地趋趋于于和和较较高高人人均均GDP水水平平的的省省级级行行政政区区相相邻邻，或或者者较较低低人人均均GDP水水平平的的省省级级行行政政区区相相对对地地趋趋于于和和较较低低人人均均GDP水水平平的的省省级级行政区行政区相邻。相邻。空间插值是通过已知的空间数据估算未知的空间数据，常用于将离散点的测量数据转换为连续的数学曲面，以便与其它空间现象的分布模式进行比较。三、空间插值三、空间插值空间内插的根本是对空间曲面特征的认识和理解！566082785660668245787360726971657060626738885666？这点的值是多少？内插和外推内插和外推Sampled pointsEstimated points空间内插算法：通过已知点的数据推求同一区域未知点数据。空间外推算法：通过已知区域的数据，推求其它区域数据。空间插值空间插值整体内插局部分块内插样条函数内插技术克里金内插方法逐点内插反距离权内插技术内插方法：整体内插z=f(x,y)Control Points常用整体内插函数常用全局内插函数特性分析1st Order Trend Original surface2nd Order Trend 3rd Order Trend 整体内插示例：三阶趋势面局部分块内插将区域按一定的方法进行分块，对每一块根据曲面特征单独进行曲面拟合和内插，称为空间分块内插。局部分块插值则采用多个多项式，每个多项式都处在特定重叠的邻近区域内。局部多项式插值法产生的表面更多地用来解释局部变异。局部多项式插值得到的表面图样条函数插值样条函数插值原理：最小的曲率面基本表达式：BasicFunction+TrendSurface=Q(x,y)方法：薄板样条函数规则样条函数张力样条函数规则张力样条函数样条函数示例Regularized spline with tensionThin plate spline with tension1.克里金方法（Kriging）是以变异函数理论和结构分析为基础，在有限区域内对区域化变量进行最优无偏估计的一种方法，是地统计学的主要内容之一。2.克里格方法的实质是利用区域化变量的原始数据和变异函数的结构特点，对未知样点进行线性无偏、最优估计。3.无偏是指偏差的数学期望为0，最优是指估计值与实际值之差的平方和最小。4.变量的空间变化分为趋势、相关结构与误差三个部分，采用半变异函数作为插值函数。克里金插值克里金插值克里金法的内蕴假设是区域变量的可变性和稳定性，也就是说：一旦趋势确定后，变量在一定范围内的随机变化是同性变化，样点之间的差异仅仅是样点间距离的函数。通过不同数据点之间的半方差的计算，可以做出半方差随距离变化的半方差图，从而用来估计未采样点和采样点之间的相关系数，进而进行插值。插值流程插值流程1.分析数据的分布特征，进行必要的数据转换（正态）2.分析数据的空间变化趋势（平稳）3.确定变异方差的函数类型4.选择合适的搜索半径和邻近数据点数，选择合适的插值方法进行插值。克立金插值示例逐点内插逐点内插1.逐点内插，是以内插点位中心，确定一个邻域范围，用落在邻域范围内的采样点计算内插点的高程值。2.与局部分块内插的区别：局部内插中的分块范围一经确定，在整个内插过程中其大小、形状和位置是不变的，凡是落在该范围内的内插点都参与插值计算；3.逐点内插的邻域范围大小、形状、位置乃至采样点个数随内插点的位置而变动。空间逐点内插法逐点计算格网点的高程:逐点内插的步骤1.定义内插点的邻域范围；2.确定落在邻域内的采样点；3.选定内插数学模型；4.通过邻域内的采样点和内插模型计算内插点的值。5.邻域确定规则：半径、点数或等方位。需要解决的问题1.内插函数2.邻域大小和形状（圆形、椭圆、矩形）3.邻域内数据点的个数4.采样点的权重5.采样点的分布6.附加信息逐点插值：反距离权插值IDW基本思想：空间自相关程度：距离的n次幂倒数wWij=-bdijwdWij=d-uwdWij=exp(-bdij)dIDW基本公式IDW插值示例插值方法选择原则1.对于众多的空间内插方法而言，没有绝对最优的空间内插，只有特定条件下的最优方法。2.必须依据数据的内在特征，依据对数据的空间探索分析，经过反复实验，选择最优的空间插值方法，同时，应对内插结果做严格的检验。1.空间分布模式的计算方法2.全局空间自相关3.逐点内插的步骤本课要点

展开阅读全文

第10讲－空间统计分析

最新文档