第七章-空间数据的统计分析-1-本ppt课件

上传人:txadgkn****dgknqu... 文档编号:240773969 上传时间:2024-05-07 格式:PPT 页数:88 大小:15.59MB
返回 下载 相关 举报
第七章-空间数据的统计分析-1-本ppt课件_第1页
第1页 / 共88页
第七章-空间数据的统计分析-1-本ppt课件_第2页
第2页 / 共88页
第七章-空间数据的统计分析-1-本ppt课件_第3页
第3页 / 共88页
点击查看更多>>
资源描述
1第七章第七章 空间数据的统计分析方法空间数据的统计分析方法(1 1)武汉大学遥感信息工程学院遥感科学与技术本科生教案武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012)秦秦 昆昆时间和地点:星期一:1-2节(8:00-9:35),附3-303;星期三:7-9节(14:05-14:50,14:55-15:40,15:45-16:30),附3-303.授课对象:2009级遥感科学与技术(地理信息工程)本科生答疑地点:五号楼406(周一)1第七章 空间数据的统计分析方法武汉大学遥感信息工程学院遥感2主要内容:主要内容:GIS属性数据一般统计分析探索性数据分析探索性空间数据分析方法空间点模式分析方法格网或面状数据空间统计分析方法地统计分析概述空间变异函数克里金估计方法地统计分析研究展望空间统计分析软件2主要内容:3GIS属性数据属性数据3GIS属性数据4nGIS属性数据属性数据属性数据是GIS的重要特征。属性数据包含了两方面的含义:它是什么,即它有什么样的特性,划分为地物的哪一类;(类别属性)实体的详细描述信息,例如一栋房子的建造年限、房主、住户等。(描述属性)4GIS属性数据5一般统计分析一般统计分析5一般统计分析6n一般统计分析一般统计分析指对GIS地理空间数据库中的属性数据进行常规统计分析。先对数据进行描述性统计分析,再选择进一步分析的方法。描述性统计分析:对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、数据的分布、以及一些基本的统计图形。6一般统计分析7对于空间数据来说,描述性分析是空间数据分析的第一步,通过描述性分析,提取有价值的空间信息,便于后续的空间分析和处理。7对于空间数据来说,描述性分析是空间数据分析的第一步,8n数据的频数分析数据的频数分析频数:将变量xi(i=1,2,n)按大小顺序排列,并按一定的间距分组。变量在各组出现或发生的次数称为频数。频率:各组频数与总频数之比叫做频率。频率分布图:计算出各组的频率后,就可以做出频率分布图。频率直方图:若以纵轴表示频率,横轴表示分组,就可做出频率直方图,用以表示事件发生的概率和分布状况。8数据的频数分析9n数据的集中趋势分析数据的集中趋势分析数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。9数据的集中趋势分析10n数据的集中趋势分析数据的集中趋势分析算术平均值:将所有数据相加,再除以数据的总数目。加权算术平均值:考虑数据对数据总体的影响的权重值的不同,将每个数据乘以其权值后再相加,所得的和除以数据的总体权重数。Pi为数据xi的权值 10数据的集中趋势分析加权算术平均值:考虑数据对数据总体的影11调和平均值:各个数据的倒数的算术平均数的倒数,又称为倒数平均值。调和平均值也分为简单调和平均数和加权调和平均数l简单调和平均数:l加权调和平均数:11调和平均值:各个数据的倒数的算术平均数的倒数,又称为倒数12l几何平均数:是n个数据连乘的积开n次方根。12几何平均数:是n个数据连乘的积开n次方根。13中位数:一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。众数:在数据中发生频率最高的数据值。n如果各个数据之间的差异程度较小,用平均值就有较好的代表性;n如果数据之间的差异程度较大,特别是有个别极端值的情况,用中位数或众数有较好的代表性。13中位数:一种反映数据的中心位置的指标,其确定方法是将所有14n数据的离散程度分析数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有:方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。反映数据的离散程度的指标还包括:极差、离差、平均离差、离差平方和、变差系数等。14数据的离散程度分析15方差和标准差方差和标准差方差是均方差的简称,是以离差平方和除以变量个数求得的。15方差和标准差16方差和标准差方差和标准差标准差是方差的平方根。16方差和标准差17极差极差极差是一组数据中最大值与最小值之差,即:R=maxx1,x2,xn-minx1,x2,xn17极差18离差、平均离差与离差平方和离差、平均离差与离差平方和l离差:一组数据集中的各数据值与其平均数之差称为离差。l一个数据集的离差和恒等于0。l平均离差:将离差取绝对值,然后求和,再取平均数,就得到平均离差。l离差平方和:对离差求平方和就得到离差平方和。18离差、平均离差与离差平方和离差平方和:对离差求平方和就得19数据的分布数据的分布在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。l偏度:衡量的是样本分布的偏斜方向和程度;l峰度:衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。19数据的分布20统计图表分析统计图表分析用图形的形式表达数据,比用文字表达更清晰、更简明。对于属性数据,统计图的主要类型有柱状图、扇形图、直方图、折线图和散点图等。20统计图表分析21柱状图:用水平或垂直长方形表示不同种类间某一属性的差异,每个长方形表示一个种类,其长度表示这个种类的属性数值。扇形图:将圆划分为若干个扇形,表示各种成分在总体中的比重,各种成分的比重可以用扇形的面积或者弧长来表示,当有很多种成分或成分比重差异悬殊时表示效果不好。21柱状图:用水平或垂直长方形表示不同种类间某一属性的差异,22散点图:以两个属性作为坐标系的轴,将与这两种属性相关的现象标在图上,表示出两种属性间的相互关系,在此基础上可以分析这两种属性是否相关和相关关系的种类。折线图:反映某一属性随时间变化的过程,它以时间为图形的一个坐标轴,以属性为另一坐标轴,将各个时间的属性值标到图上,并将这些点按时间顺序连接起来,反映实体发展的动态过程和趋势。22散点图:以两个属性作为坐标系的轴,将与这两种属性相关的现23直方图:表示单一属性在各个种类中的分布情况,可以确定属性在不同区间的分布,如某种现象的分布是否是正态分布。统计表格:是详尽表示非空间数据的方法,它不直观,但可提供详细数据,可对数据再处理。统计表格分为表头和表体两部分,除直接数据外有时还有汇总、比重等派生项。23直方图:表示单一属性在各个种类中的分布情况,可以确定属性24探索性空间数据分析探索性空间数据分析24探索性空间数据分析25Hoaglin D C,Mosteller F,Tukey J W美著.陈忠琏,郭德媛译.1998.探索性数据分析.北京:中国统计出版社n探索性数据分析:25Hoaglin D C,Mosteller F,Tu26n探索性数据分析:统计学是数据分析的主要工具,大量的统计分析方法以数据总体满足正态假设为依据,并在此基础上建立模型和推演。然而实践中大量的数据不能满足正态假设,并且基于均值、方差等的模型在实际数据分析中缺乏稳健性,于是导致很多统计分析方法不能满足海量数据分析的要求。19世纪60年代的Tukey面向数据分析的主题,提出了探索性数据分析(exploratory data analysis,EDA)的新思路。26探索性数据分析:27n探索性数据分析:探索性数据分析(EDA)的特点:对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析和描述。EDA技术的核心:“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析。27探索性数据分析:28n探索性数据分析的基本方法探索性数据分析的基本方法EDA是不对数据总体做任何假设(或很少假设)的条件下识别数据特征和关系的分析技术。主要有两类方法:计算EDA方法:包括从简单的统计计算到高级的用于探索分析多变量数据集中模式的多元统计分析方法图形EDA方法:即可视化的探索数据分析。常用的图形方法有直方图(histogram)、茎叶图(stem leaf)、箱线图(box plot)、散点图(scatter plot)、平行坐标图(parallel coordinate plot)等。28探索性数据分析的基本方法29(1)直方图与茎叶图)直方图与茎叶图直方图和茎叶图用于表述数据的分布信息,可根据数据的分布进一步作出相关的假设。直方图:是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。在图像处理领域的常用概念是灰度直方图,描述的是图像中具有该灰度级的像素的个数:横坐标是灰度级,纵坐标是该灰度出现的频率(像素个数)。29(1)直方图与茎叶图30茎叶图:又称“枝叶图”,将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图类似的工具,茎叶图保留了原始资料的信息,直方图则失去原始数据的讯息。茎|叶 频数0|1569 41|0569 42|24 23|1 14|016 35|257 36|0159 47|0159 48|59 29|124 341,52,6,19,92,10,40,55,60,75,22,15,31,61,9,70,91,65,69,16,94,85,89,79,57,46,1,24,71,5 30茎叶图:茎|叶 频数4131茎叶图的特征:用茎叶图表示数据有两个优点:(1)从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;(2)茎叶图中的数据可以随时记录、随时添加,方便记录与表示。茎叶图只便于表示两位有效数字的数据。茎|叶 频数0|1569 41|0569 42|24 23|1 14|016 35|257 36|0159 47|0159 48|59 29|124 341,52,6,19,92,10,40,55,60,75,22,15,31,61,9,70,91,65,69,16,94,85,89,79,57,46,1,24,71,5 31茎叶图的特征:茎|叶 频32(2)箱线图)箱线图(盒须图盒须图)箱线图(Box plot),亦称箱须图(Box-whisker plot),或骨架图(Schematic Plot)。箱线图能够直观明了地识别数据集中的异常值,利用数据中的五个统计量:最小值、第一四分位数Q1、中位数F、第三四分位数Q3、最大值来描述数据。第一四分位数Q1:又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。中位数F:又称第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数:又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。32(2)箱线图(盒须图)第一四分位数Q1:又称“下四分位数33(2)箱线图)箱线图(盒须图盒须图)箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;箱线图判断异常值的标准以四分位数和四分位距为基础。四分位距(QR,Quartile range):上四分位数与下四分位数之间的间距,即上四分位数减去下四分位数(Q3-Q1)。箱线图识别异常值的结果比较客观,在识别异常值方面有一定的优越性。33(2)箱线图(盒须图)箱线图识别异常值的结果比较客观,在34箱线图的制作过程:画一个矩形盒,两端边的位置分别对应数据集的上下四分位数。在矩形盒内部的中位数位置画一条线段为中位线。在Q3+1.5QR(四分位距)和Q1-1.5QR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3QR和Q1-3QR处画两条线段,称其为外限。内限以外位置的点表示的数据都是异常值(x Q3+1.5QR)在内限与外限之间的异常值为温和异常值(Q1-3QR x Q1-1.5QR;Q3+1.5QR x Q3+3QR)在外限以外的为极端异常值。一般的统计软件中表示外限的线并不画出,这里用虚线表示34箱线图的制作过程:内限以外位置的点表示的数据都是异常值(35(3)散点图与散点图矩阵)散点图与散点图矩阵散点图用于初步图示两个数据之间的关系,是分析两个要素或变量之间关系时常用的方法和技术。散点图的作法:将两个变量的坐标点对画在(x,y)坐标平面上。在分析变量之间的关系、判断异常点以及数据的分类等方面,散点图都有重要的作用。35(3)散点图与散点图矩阵361)散点图与变量之间关系的可视化)散点图与变量之间关系的可视化4组数据:统计分析的结果是相同的(忽略残差)361)散点图与变量之间关系的可视化4组数据:统计分析的结果37散点图展示了变量之间的差异性信息37散点图展示了变量之间的差异性信息382)散点图与异常点分析)散点图与异常点分析异常数据或者有着特别的价值,或者会引起错误的结果或判断。异常数据一般是非典型的,较少见的观测数据。在回归线的确定中,异常数据的出现将对回归方程的斜率和数据的相关关系产生深远的影响,由于异常点参与了计算,可能导致虚假的关系。382)散点图与异常点分析异常数据或者有着特别的价值,或者会39在异常点消除之前,两个变量的的相关系数r=0.88,表明存在很强的正相关;消除了异常数据后,r=0.08,出于随机水平。在回归模型建立之前通过散点图技术进行数据的探索性分析,有利于消除异常数据,寻找更为合理的关系或模式。39在异常点消除之前,两个变量的的相关系数r=0.88,表明40如果样本的规模相对较小,是否包含“异常数据”不是非常清晰,需要仔细判断。是否剔除数据可能会对变量之间的关系产生很大的影响。40如果样本的规模相对较小,是否包含“异常数据”不是非常清晰413)散点图与不同类别的数据)散点图与不同类别的数据散点图中的两个变量是房屋价格和人口密度的关系(a)反应了房屋的价格和人口密度之间存在正的空间相关关系。(b)这些数据来自两个不同的地区,按照区位做出散点图后,就可轻易地发现:任何一个区位的人口密度和价格之间都变现出负的相关关系。有些异常数据可能来自于另外的类型。413)散点图与不同类别的数据散点图中的两个变量是房屋价格和424)散点图矩阵)散点图矩阵散点图矩阵通过建立任意两个变量之间的关系的图形表示来初步获得相关信息和异常信息,相当于在由m个变量构成的矩阵中,用相应的两个变量之间的散点图替代矩阵中的元素构成的图形。5个变量间的散点图矩阵在对角线上是变量自身的关系,在这些位置上一般由测量这个变量分布特征的图形(直方图、箱线图等)构成424)散点图矩阵散点图矩阵通过建立任意两个变量之间的关系的43平行坐标图平行坐标图平行坐标图将高维数据在二维空间上表示,为可视化地探索分析高维数据空间中的关系建立可行的途径。平行坐标图提供的是一种在2维平面上表示高维空间中变量之间关系的技术。传统的坐标系中所有的变量轴都是交叉的,而平行坐标系中所有的变量轴都是平行的。6维空间的两个点A(-5,3,4,-2,0,3)、B(4,-1,3,3,0,-1)的平行坐标图43平行坐标图6维空间的两个点A(-5,3,4,-2,44平行坐标图表示高维空间数据的实例44平行坐标图表示高维空间数据的实例45平行坐标图的优点:平行坐标图的优点:可以在2维空间上考察分析m维变量的相关性。但是为了表示m维数据,所有的变量都以折线的形式画在平行坐标图上,对于非常大的数据集,平行坐标图容易引起视觉上的混淆。平行坐标图更为重要的作用在于:平行坐标图更为重要的作用在于:1)可用于突出显示异常数据;2)根据某一变量选择数据子集;3)与其他可视化技术结合探索数据中的模式。平行坐标图技术成为高维空间变量关系显示的重要技术。高维数据在2维平面中的其它可视化技术:径向坐标可视化(RADVIZ)及其组合变化形式等。45平行坐标图的优点:可以在2维空间上考察分析m维变量的相关46探索性空间数据分析探索性空间数据分析(exploratory spatial data analysis,ESDA)46探索性空间数据分析47探索性空间数据分析(ESDA)是探索性数据分析(EDA)在空间数据分析领域的推广。ESDA着重于概括空间数据的性质,探索空间数据中的模式,产生和地理数据相关的假设,并在地图上识别异常数据的分布位置,发现是否存在热点区域(hot spots)等。ESDA将数据的统计分析和地图定位紧密结合在一起。地图能够定位案例及其空间关系,并能在分析、检验和表示模型的结果中发挥重要作用。47探索性空间数据分析(ESDA)是探索性数据分析(EDA)48ESDA通过地理空间(地图表示)和属性空间(数据空间)的关联分析来凸显空间关系。可以回答以下问题:直方图上的极端数值分布在地图的什么地方?地图上某一部分的属性值在散点图上的分布状况如何?落入地图上的一个子区域内并满足属性标准的个例有哪些?48ESDA通过地理空间(地图表示)和属性空间(数据空间)的49在GIS环境中的ESDA的主要方法是动态联系窗口(dynamic linking windows)和刷新(brushing)技术,通过地图、统计图表、属性记录等多种方式解释空间模式,能对多种形式的信息表示进行可视化的操作分析。49在GIS环境中的ESDA的主要方法是动态联系窗口(dyn50动态联系窗口通过刷新技术将地理空间和属性空间的各种视图组合在一起,是一种交互式探索空间数据的选择、聚集、趋势、分类、异常识别的工具。50动态联系窗口通过刷新技术将地理空间和属性空间的各种视图组51动态联系窗口的动态交互技术的特点:(1)在一种信息窗口中点击或选择,其它的信息窗口产生相应的响应,并高亮显示选中的信息。例如,在地图窗口中选择一些地理实体,则地图上选中的部分和属性表中相应的记录都以高亮的方式显示一般GIS软件也提供了交互的操作方式,但是缺乏多种探索性数据分析工具,利用现有的GIS软件难以快速地完成趋势分析和异常数据识别等分析工作。51动态联系窗口的动态交互技术的特点:52动态联系窗口的动态交互技术的特点:(2)ESDA将多种可视化的数据分析工具和地图分析结合在一起,并提供了丰富的交互工具,不仅可以进行选择操作,而且能够进行改变数据参数等模式的探索。52动态联系窗口的动态交互技术的特点:53ESDA与空间数据挖掘:ESDA需要熟知空间数据的特殊性及数据分析的探索性方法。ESDA和数据挖掘一样是交互的、迭代的搜索过程,其中数据中的模式和关系被用于精炼并搜索更多的兴趣模式和关系。在庞大的数据集中,ESDA等价于空间数据挖掘,其基本的思想是极力使用数据来表示其本身,以识别兴趣模式并帮助产生有关的假设。53ESDA与空间数据挖掘:54邸凯昌等将探索性数据分析方法、面向属性的归纳和粗糙集方法结合起来,形成了一种灵活通用的探测性归纳学习方法(Exploratory Inductive Learning,EIL),该方法可以从空间数据库中发现普遍知识、属性依赖、分类知识等多种知识。利用中国分省农业统计数据的空间数据挖掘实验说明了EIL方法的可行性和有效性。54邸凯昌等将探索性数据分析方法、面向属性的归纳和粗糙集方法55ESDA提供了两类统计分析方法:全局方法(global):对所有实例的一个或多个属性数据进行处理;局部方法(local):对某个时段的数据子集进行统计分析。55ESDA提供了两类统计分析方法:56ESDA对空间数据的处理包括:对非空间属性数据的处理对空间数据的处理56ESDA对空间数据的处理包括:57ESDA对非空间属性数据的处理:中值分析:计算属性值分布的中心;提供ESDA查询:查询在中值之上或之下的区域。四分位和四分位间的分布分析:对中值的分布进行分析;提供ESDA查询:查询高于或低于四分位的数值区域箱线图分析:对属性值的分布进行图形化的总结;ESDA查询:查询实例位于箱线图的哪个特定部分?例外实例位于地图的哪个区域?57ESDA对非空间属性数据的处理:58ESDA对空间数据的处理方法:平滑:地图中包含的许多小的区域,可以利用平滑方法进行处理。具体处理依赖于于平滑算子的尺度。利用平滑处理有利于解释总体模式;ESDA的平滑处理:最简单的形式是空间平均,计算一个区域的属性及其邻域的属性,并取其平均值,然后对每个区域利用类似方法重复该步骤。识别地图数据的趋势和梯度:包括核估计方法、生成数据的横断面并且绘图、对于特定区域进行空间滞后箱线图分析、非规则格网数据的中值分析等。58ESDA对空间数据的处理方法:59空间自相关分析(spatial autocorrelation):ESDA技术使用散点图进行分析,该散点图将垂直轴对应区域本身的属性值,水平轴对应其邻域的属性值的均值。l呈现向上倾斜的散点图显示了一种正空间相关(邻域值倾向于相同)l呈现向下倾斜的散点图显示了一种负空间自相关(邻域值倾向于不同)59空间自相关分析(spatial autocorrelat60检测空间例外:检测区域值在邻域范围中具有极端值的情况。相应的ESDA方法包括:使用散点图技术对空间自相关进行分析,然后进行最小均方回归分析。例如,那些标准残差值大于3.0或小于-3.0的实例可能属于例外。60检测空间例外:61ESDA与空间数据可视化与空间数据可视化61ESDA与空间数据可视化62地学可视化:地理学分析方法和GIS以及其他相关学科的密切结合导致了“地学可视化”这一新的研究领域的产生。地学可视化被定义为使用地理空间视觉显示(包括虚拟现实)探索空间数据,并通过这种探索回答问题,产生假设,提出问题的解决方案,构建领域知识等。地学可视化为地理学研究提供了新的技术手段与方法62地学可视化:63探索性空间数据分析技术:探索性空间数据分析技术的重要领域是空间参考数据,这种数据的可视化必须包括地图,地图用于表示空间关系和模式。静态的、非交互的地图不能满足探索性数据分析的基本需要。当前努力的方向是直接面向支持各种分析活动的地图显示技术的发展,其中最重要好的技术是地图与各种统计图动态联系的技术。63探索性空间数据分析技术:64空间数据的地图化表示空间数据的地图化表示-主题地图主题地图地图不仅是地理空间信息的表示,而且可用于探索地理空间数据。在对地理空间数据没有假设的条件下,可视化辅助工具辅助人们交互地、非直接地搜索结构和趋势,此时地图和图形提供了一种表现工具,同时地图和图形用户思考过程的设备工具。ESDA关注的是地图如何表示空间数据的分布、趋势、聚集、异常等方面空间信息的表示,关注的是如何利用地理实体的属性数据进行制图分析,即主题地图问题。64空间数据的地图化表示-主题地图地图不仅是地理空间信息的表65当前各种商业GIS软件都提供了主题制图功能,根据地理实体的属性数据用颜色、符号并结合统计图形进行多变量的空间数据表示等。MapInfo-GIS,其主题制图模块提供了点密度、渐变符号、分层设色、独立值、表面分析以及饼状图和柱状图等主题表示。65当前各种商业GIS软件都提供了主题制图功能,根据地理实体66在建立空间数据的主题地图表示中首先需要研究适合的制图方式,这和数据的类型有关。属性数据分为名义的、序数的、间隔的、比率的4种类型。前两种是定性的离散型的变量,后两者是定量的连续的变量。在地图表示中,必须用能够体现这些数据特征的方式才能正确地表示。名义变量名义变量适合于用独立值表示,因为名义变量只表示同类地理对象的类型的区分,例如国家政区划分、土地利用、气候类型区等通常用这种方式表示。序数变量序数变量可以使用等级符号和分层设色图表示。间隔变量和比率变量间隔变量和比率变量体现的数据的连续变化,一般使用等级符号、范围图表示,但是点密度图只是和于比率变量的表示。66在建立空间数据的主题地图表示中首先需要研究适合的制图方式67图(a)是用上海市2000人口普查数据制作的分街道/乡镇的人口总量分布的主题地图。67图(a)是用上海市2000人口普查数据制作的分街道/乡镇68饼状图和柱状图是为了在地图上表示多变量的分布特征及其空间差异性而设计的表示方式,前者适合于表示结构关系,后者着重表示数量差异。当变量个数多时,可能会超出人的视觉判断能力,不利于信息的表示。2000年上海市分街道/乡镇的男女人口结构分布的饼状图68饼状图和柱状图是为了在地图上表示多变量的分布特征及其空间69主题地图表示的数据分类问题主题地图表示的数据分类问题地图制图过程中数据的分类是非常重要的。地图制图过程中数据的分类是非常重要的。GIS软件都提供了相关的数据分类方法:等间隔、等软件都提供了相关的数据分类方法:等间隔、等范围、自然分割法、分位数分类、自定义等。范围、自然分割法、分位数分类、自定义等。69主题地图表示的数据分类问题 同一数据应用不同的分类方法将会产生显著不同的同一数据应用不同的分类方法将会产生显著不同的同一数据应用不同的分类方法将会产生显著不同的同一数据应用不同的分类方法将会产生显著不同的解释。解释。解释。解释。70 同一数据应用不同的分类方法将会产生显著不同的解释。7设计数据分类时必须注意的因素:设计数据分类时必须注意的因素:1)包)包括所有范围的数据(最小和最大);括所有范围的数据(最小和最大);2)使用不重叠的值和不空的类;)使用不重叠的值和不空的类;3)分类数量足够大以避免牺牲数据的精确性)分类数量足够大以避免牺牲数据的精确性4)划分数据集到合理的等价的观测组中;)划分数据集到合理的等价的观测组中;5)如果可能给定一个逻辑数学关系)如果可能给定一个逻辑数学关系71设计数据分类时必须注意的因素:4)划分数据集到合理的等价的观等间隔分类假设分割之间的距离是相同的。本例中的数据按照15个单位的等距离进行分割。72等间隔分类假设分割之间的距离是相同的。72分位数分类是将所有的观测数据按照相等的数量分配到每一个类中。本例中,分位数计算的分类结果为:73分位数分类是将所有的观测数据按照相等的数量分配到每一个类中。自然分割的分类方法:用户沿着数字线选择最大的分割,或者在数据出现显著的空隙。其基本思想是最小化数据集内部的变异、最大化类型间的差异(聚类)。74自然分割的分类方法:用户沿着数字线选择最大的分割,或者在数据其他分类方法:嵌套均值、标准差、曲线下面积等。在利用GIS进行主题制图分析时,必须知道系统所提供的分类方法以及这些方法的限制。在许多研究中,应当注意面向具体问题进行自定义分类。利用各种分类方法的比较75其他分类方法:嵌套均值、标准差、曲线下面积等。利用各种分类方交互技术与交互技术与ESDAESDA主题地图主题地图是传统的空间数据表示方法,提供了空间数据可视化的能力。地图是现实物理空间的同构物,它将空间关系展现在人们面前。高度的用户交互高度的用户交互是地图显示的一般要求,以支持空间思考,即假设的生成、数据分析和决策制定。当能够合理利用这些手段时,交互技术和工具能够支持信息探索和知识构建。76交互技术与ESDA主题地图是传统的空间数据表示方法,提供了空交互技术与交互技术与ESDAESDA交互式的分析技术包括:1)地图与其他图形显示方式之间的刷新(brushing)技术建立的动态联系,即在一种显示方式中被选中的对象同时在其他的所有显示方式中被高亮显示;2)利用实时控制工具改变常规的制图方法的参数,获得新状态下的分布特征等,例如专题中的类别的改变交互技术的重要特征是建立了地理空间和数据空间的联系,或者将EDA方法紧密地融合于ESDA中。可以从空间特征到属性特征对地理现象进行全面的研究和分析。77交互技术与ESDA交互式的分析技术包括:1)地图与其他图形显地理空间和空间数据地理空间(geographic space)就是由空间参考数据构成的坐标空间,它使用地理坐标定义地理事物和现象,也就是地图形式的地理表示。数据空间(data space)是地理实体属性所构成的空间,其中每一个点代表地理事物在数据空间中的位置。地理空间和数据空间(属性空间)78地理空间和空间数据地理空间(geographic space7979ESDA可视化和地图化表示的方法多种多样,二者之间的任意结合都能产生一种形式的地理空间和属性空间的联系。地图告诉我们“在哪里有什么”,直方图告诉我们测量值发生的“经常性”。直方图中的阴影区域表示的是量测值发生频率高超过均值的一个标注差。这一统计上的分割被用于分离右侧地图所示的高测量值的位置这一步骤对于钾的地图表面重复使用识别出相应的高值区域。3维表面图形式的地理空间与直方图形式的数据空间的联系80ESDA可视化和地图化表示的方法多种多样,二者之间的任意结合如图为将多种统计图形结合起来构成数据空间的多种表示,并和地理空间建立联系。数据空间中表示的是磷和钾数据的结合左侧散点图表示两个地图化数据集联合发生的概况。通过在数据空间中识别出两种成分都高的数值,在地图上定位出两种成分都高的分布区域。散点图中的位置表示的是在这一位置上的磷和钾的量测水平。位于阴影区域的点可识别磷和钾的含量都高的位置。散点图的左上方表示磷和钾含量都不高的区域。散点图中偏离对角线的部分表示的是一种成分高,另一种成分低的位置。81如图为将多种统计图形结合起来构成数据空间的多种表示,并和地理交互分析动态联系窗口和刷新技术地理空间和数据空间的结合建立了地理实体的完整性表示,并为探索性空间数据分析提供了基础。动态联系窗口(动态联系窗口(linking window)通过刷新技术将地理空间和属性空间的各种视图组合在一起,是一种交互式探索空间数据的选择、聚集、趋势、分类、异常识别的工具。82交互分析动态联系窗口和刷新技术地理空间和数据空间的结合建将表示高维变量的平行坐标图技术、空间自相关检测技术、地图可视化技术结合在一起的实例。83将表示高维变量的平行坐标图技术、空间自相关检测技术、地图可视利用动态交互技术用于检测异常点对于分布模式影响的例子该图表示欧洲人口出生率的分布,左图表示异常值对于信息表示的影响,由于阿尔巴利亚的出生率非常高,根据统计图该数据是异常数据,它使得地图上所有其他国家的颜色几乎一致。通过交互工具动态地拖动右边的数据滑条,将异常数据排除在外,右侧地图上阿尔巴利亚的填充颜色为空,这时异常数据消除后其他国家出生率的差异性就被突出显示出来了。84利用动态交互技术用于检测异常点对于分布模式影响的例子84通过在地图上选择感兴趣的国家将所要表示的模式分为两个系列。(a)选择德国的出生率作为参考,高于德国出生率的用深色调表示,低于这一数字的用浅色调表示。(b)以法国的出生率为参考。在颜色条上定位参考值就完成了这样的交互操作。通过交互式操作,对地图的表示进行控制,在地图上突出所包含的各种信息,即异常数据、差异性等。85通过在地图上选择感兴趣的国家将所要表示的模式分为两个系列。886探索性空间数据分析(ESDA)得到了国内外相关学者的重视,在GIS空间数据分析和空间数据挖掘领域得到了很好的应用,是一个十分重要的研究方向。Haining et al,1997;邸凯昌等,1999;Murray et al,2001;范新生,应龙根,2005;黄勇奇,赵追,2006;张馨之,龙志和,2006;王远飞,何洪林,2007;刘志坚等,2007;张学良,2007;苏方林,2008;牧童等,2009。86探索性空间数据分析(ESDA)得到了国内外相关学者的重视878788The End!Thanks!88
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!