资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,地,理,信,息,系,统,主讲:潘晓芳,2011.9,第五章,GIS,中的数据,第一节 数据涵义与数据类型,第二节 数据的测量尺度,第三节 地理信息系统中的数据质量,第四节 空间数据的元数据,第一节,数据涵义与数据类型,一、数据涵义,用以载荷信息的载体,可以是记录下来的某种可以识别的物理符号,形式多种多样,如文本、图像、声音等都可以归入数据的范畴,数据是信息的载体,但并非就是信息,只有理解了数据的含义、对数据做出解释,才能得到数据中所包含的信息,在计算机化的信息系统中,数据的格式往往与具体的计算机系统有关,随着载荷它的物理设备的形式而改变,地理信息系统的建立和运行,就是信息或数据按一定的方式流动的过程,空间数据的三个侧面,空间特征,表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示,例如笛卡尔坐标等。,是,GIS,区别于其它的软件的根本特征,基于坐标的派生数据,定量的度量信息:面积、周长、质心、距离等,定性的空间关系:拓扑关系、方位关系,专题属性特征,地物所固有的,表示实际现象或特征,不是由于地物空间分布所带来的特征,如变量、级别、数量特征和名称,某地的年降雨量、土地酸缄类型、人口密度、交通流量、空气污染程度等。,这类特征在其它类型的信息系统中均可存储和处理,专题属性特征通常以数字、符号、文本和图像等形式来表示,时间特征,指现象或物体随时间的变化,其变化的周期有超短期的、短期的、中期的、长期的等等。,空间数据涉及时间特征的几个方面,地物的生命周期(产生、消亡),地物的移动(移动点),属性的时效性,时态,GIS,数据模型是其关键(时空立方体模型等),空间数据与专题属性数据,第一节,数据涵义与数据类型,二、空间数据的类型,(,按数据特性划分:,),基础制图数据,包括地形数据和人文景观数据,图形结构,拓扑结构格式,自然资源数据,调查统计数据,数字高程数据,种基本方法:规则格网法、离散等高线法、断面量测法和不规则三角网法。,法律文档数据,已有系统数据,第一节,数据涵义与数据类型,三、空间数据的表示方法,类型数据:,考古地点、道路线和土壤类型的分布等;,面域数据:,随机多边形的中心点、行政区域界线和行政单元等;,网络数据:,道路交点、街道和街区等;,样本数据:,气象站、航线和野外样方的分布区等;,曲面数据:,高程点、等高线和等值区域;,文本数据:,地名、河流名称和区域名称;,符号数据:,点状符号、线状符号和面状符号(晕线)等。,第二节 数据的测量尺度,测量的尺度大致可以分成四个层次,由粗略至详细依次为:,命名,次序,间隔,比例,命名,(Nominal),量,定性而非定量,不能进行任何算术运算,如一个城市的名字。,用文字或字符描述地理现象的种类或质量差别,即是反映的概念或某地理现象各指标的性质及存在,不反映任何数的概念。例如水田、旱地、果树、用材林等。,数值之间无数量关系,对命名数据的逻辑运算只有,“等于”或“不等于”,两种形式,而其近似均值只能使用众数。,次序,(Ordinal),量,表示的是地理现象的顺序。,线性坐标上不按值的大小,而是按顺序排列的数,例如,事故发生危险程度的级别由大到小被标为,1,,,2,,,3,,,山峰按高度分级为极高山、高山、中山、低山和丘陵等,坡度分为陡、中、缓等,序数值相互之间除了“等于”与“不等于”之外,可以比较大小,但不能进行加、减、乘、除等算术运算。,所表示的变量无起始点、单位,不能表明差别的具体量,不同次序之间的间隔大小可以不同。,间隔,(Interval),量,定量数据形式,利用某种单位对顺序增加距离信息,就形成了间隔量。,不参照某个固定点,而是按间隔表示相对位置的数。它们之间的差值大小是有意义的,,例如,温度,,地面坡度,0-3 3-6 6-15,间隔数据可用于加、减、乘、除等运算,而且可以求算术平均。,间隔量中的,零值,往往是人为规定的,如摄氏温标中零摄氏度,时间中的零点等等。,比率,(Ratio),量,比率测量尺度的测量值指那些有,真零值,而且,测量单位的间隔是相等,的数据,与使用的测量单位无关。,如年降雨量、海拔高度、人口密度、发病率等。,支持多种算术操作,如加、减、乘、除等。,比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转化成次序、间隔数据或比例数据。,由此可见,各测量尺度是有序的,嵌套的,他们之间的转换不可逆。,GIS,数据测量尺度示例,Point,Line,Area,Quantitative,Ordinal,Qualitative,5,10,15,Each dot represents,500 persons,Proportional symbols,Large,Medium,Small,Q,Town,Airport,Flow,Contour,30,40,50,Highway,Road,Street,Road,Boundary,River,100,20,Population density,High impact,Low impact,Swamp,Desert,Forrest,不同测量尺度数值可以进行的运算,命名量,=,!=,次序量,=,!=,+,-,*,/,第三节 地理信息系统的数据质量,一、数据质量,数据本身的数据质量,数据的过程质量,1,、数据本身的数据质量,数据的真实性。,数据必须真实准确的反映实际发生的业务。,数据的完备性。,数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。,数据的自洽性。,数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。,数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。,2,、数据的过程质量,数据的使用质量,数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。,数据的存贮质量,数据的存贮质量是指数据被,安全,的,存贮,在适当的介质上。,所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏。所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。,备份是我们常使用的技术,包括异地备份和双机备份等,美国的,9.11,事件、印度洋海啸、地震等事件使越来越多的企业领导意识到备份尤其是异地备份的重要性;,数据的传输质量,数据的传输质量是指数据在传输过程中的效率和正确性。,在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。,数据质量不高的原因,信息技术手段,数据录入人员,二、空间数据的质量,在,GIS,的几个主要因素中,数据是一个极为重要的因素。在计算机软件、硬件环境选定之后,,GIS,中数据质量的优劣,决定着系统分析质量以及整个应用的成败。,研究空间数据质量的目的在于加强数据生产过程中的质量控制,提高数据质量,1.,空间数据质量的相关概念,准确性(,Accuracy,),精度(,Precision,),空间分辨率(,Spatial Resolution,),比例尺(,Scale,),误差(,Error,),不确定性(,Uncertainty,),准确性(,Accuracy,),一个记录值(测量或者观察值)与它的真实值之间的接近程度;,空间数据的准确性通常是根据所指的位置、拓扑或者非空间属性来分类的;,可以误差(,Error,)来衡量空间数据的准确性;,精度(,Precision,),数据精度表示数据对现象描述的详细程度,数据精度和数据准确性的区别,:,精度低的数据不一定准确度也低;,数据精度如果超出了测量仪器的已知准确度,这样的纪录数字在效率上是冗余的;,例如:在设计精度为,0.1mm,的数字化仪上测量返回的坐标数据为(,10.11mm,12.233mm,),其中就含有冗余的数据;,空间分辨率(,Spatial Resolution,),分辨率是两个可测量数值之间最小的可辨识的差异;,空间分辨率可以看作是记录变化的最小幅度;,空间分辨率示例:地图上最细线宽度对应的地理范围,遥感图像上一个像素代表的实际地理范围大小,空间分辨率,数据精度,空间分辨率示例,Real World,Vector Data,Raster Data,1 pixel = 10mX10m,分辨率,= 10m,10M,10M,1 Pixel,比例尺(,Scale,),地图上一个记录的距离和它所表现的“真实世界”的距离之间的一个比例;,如右图中,这幅地图的比例尺,=10cm:1000m=1:10000,比例尺是刻画数据精度的量(如最小线宽为地图的空间分辨率);,误差(,Error,),描述测量值和真实值之间的差别;,在大部分情况下,误差的大小是很不准确的,因为待测量的真实值往往无法得到;研究如何给出误差大小的最佳估计以及误差传播规律,是很有用的;,误差的分析包括,:,位置误差(如点、线、多边形的位置误差);属性误差;位置和属性误差之间的联系;,不确定性(,Uncertainty,),对于空间信息科学技术来说,数据的正确性与错误并存,正常与异常并存,精确与粗糙并存,质量高与质量低并存,什么时候是正确的,什么时候不正确的,这些都属于不确定性现象;,GIS,中数据的不确定性包括:位置的不确定性、属性的不确定性、时域的不确定性、逻辑上的不一致性以及数据的布完整性;,研究不确定性可以更好的了解测量数据的性质,2.,空间数据质量问题的来源,空间现象自身存在的不稳定性,分布的不确定性、属性类型划分和表达多样性等;,空间现象的表达,测量误差、地图投影、数值采样和量化等;,空间数据处理中的误差,投影转换、地图数字化与扫描矢量化、格式转换、空间分析、可视化等;,空间数据使用中的误差:,生产者和使用者对数据的解释和理解不同,可通过空间数据的元数据来沟通;,P99,表,5-1,空间数据误差的主要来源,数据处理过程,误差来源,数据搜集,野外测量误差:仪器误差、记录误差,遥感数据误差:辐射和几何纠正误差、信息提取误差,地图数据误差:原始数据误差、坐标转换、制图综合及印刷,数据输入,数字化误差:仪器误差、操作误差,不同系统格式转换误差:栅格,-,矢量转换、三角网,-,等值线转换,数据存储,数值精度不够,空间精度不够:每个格网点太大、地图最小制图单元太大,数据处理,分类间隔不合理,多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差,比例尺太小引起的误差,数据输出,输出设备不精确引起的误差,输出的媒介不稳定造成的误差,数据使用,对数据所包含的信息的误解,对数据信息使用不当,按流程,:源误差、处理误差、使用误差;,数据类型,:几何误差、属性误差、时间误差和逻辑误差;,逻辑误差和几何误差为,GIS,特有,误差性质,:随机误差、系统误差和粗差,3.,空间数据的误差分析,3.,空间数据的误差分析,(,1,)逻辑误差,:,语义角度判断数据的合理性,(2) 几何误差。,由于地图是以二维平面坐标表示位置 , 在二维平面上的几何误差主要反映在点和线上。,a.,点误差,。,关于某点的点误差即为测量位置(,x,y,),与其真实位置 (,x,0,y,0,),的差异。坐标误差定义为:,x,= x - x,0,y,= y -,y,0,为了衡量整个数据采集区域或制图区域内的点误差, 一般采用抽样测算(,x,y,)。,抽样点应随机分布于数据采集区内, 并具有代表性。这样抽样点越多, 所测的误差分布就越接近于点误差的真实分布。,b.,线误差。,线在系统数据库中既可表示线性现象, 又可以通过连成的多边形表示面状现象。,第一类,:,线在真实世界中是可以找到的,如道路、河流、行政界线等, 这类线性特征的误差主要产生于测量和对数据的后处理 ;,第二类,:,现实世界中找不到的,如按数学投影定义的经纬线、等高线,、,气候区划线和土壤类型界限等, 这类线性特征的线误差, 被称为,解译误差。,解译误差与属性误差直接相关, 若没有属性误差, 则可以认为那些类型界线是准确的, 因而解译误差为零。,(,2,)几何误差分析方法,解析法,试验法,Epsilon,带模型,误差带模型,解析法,基于统计学中的误差传播定律,包括分布、方差、协方差的传播。,通过独立变量的特性及两组变量之间的函数关系来表述。,试验法,首先要确定试验场中检验点的个数及其分布,这些点的已知值是用比被测试方法更高精度、稳定性的仪器测的的值。之后,这些检验点在用被检测的方法测定。,这种方法适用于测试场的检验点易于维护且外业实验易于实施的地方。,Epsilon,模型,沿着一条线或多边形边界线的,两侧有定宽,(,Epsilon,)的带所构成。假设为:,对于,GIS,中的每一个特定线的每一个误差可以视为一个随机变量。,在,GIS,中产生线的过程可以被看成是独立的过程;,误差带模型,以线要素上的各点的实际误差作为该点处的带宽,其,带宽是不等,的,因而能更好地描述线要素的点位误差分布状况:,两端点的误差是相互独立的;,两端点的误差有相同的方差和协方差。,折线误差的分布,其他数据质量问题,地图数据的质量问题,地图固有误差、地图材料变形、地图扫描及数字化误差;,遥感数据的质量问题,遥感仪器观测过程误差(表现为空间分辨率、光谱分辨率、几何畸变以及辐射误差等)、图像处理和解译过程误差(校正匹配、解译判读、分类等),测量数据的质量问题,选定的大地坐标系及投影、环境影响、测量仪器精度、操作误差、偶然误差等,4.,空间数据质量的控制,应从数据质量产生和扩散的所有过程和环节入手,分别用一定的方法减少误差;,常见的数据质量空间方法有:,传统的手工方法,与原始地图或者属性数据比较,;,元数据方法,阅读元数据了解数据质量的信息;,地理相关法,利用空间数据描述的地理特征要素自身的相关性,第四节 空间数据元数据,契诃夫的小说,套中人,中的一段,描写一个叫做瓦莲卡的女子 :,(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋,一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!,这段话里提供了这样几个信息:,年龄(三十岁上下),身高(个子高挑),相貌(身材匀称,黑黑的眉毛,红红的脸蛋),性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑),这个例子中的“年龄”、“身高”、“相貌”、“性格”,就是元数据,因为它们是用来描述具体数据,(,信息,),的数据,(,信息,),刻画个人状况:,姓名,性别,年龄,民族,政治面貌,学历,职称,例如:有一本书,政治经济学,,我们对它的书名、作者、出版社等信息做一个简单的摘要,那么这个摘要信息就可以称作元数据。,第四节 空间数据元数据,1.,概念:,元数据(,MetaData,):,关于数据的数据 (,data about data,),用于描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。,一、概念及类型,常见的元数据:图书馆卡片、磁盘的标签、地图的制图元素(图名、图例、比例尺、制图单位、制图时间等)等;,元数据的内容:对数据集的描述、数据质量的描述、数据处理信息的说明、数据转换方法的描述、数据更新、集成等说明,2.,地理信息系统与元数据,基于元数据的,GIS,功能扩展:,查错功能(,Debugging,),数据浏览功能(,Browsing or Catalog,),程序自动生成(,Program Generation,),基于元数据的数据集成:,基于元数据可以实现对数据自动解释与处理,使得不同格式、精度、类型的数据可以很好的协同完成一个指定的任务,地理信息元数据(,Geographic Information metadata,):,也称,空间元数据(,Spatial Metadata,),关于地理相关数据和信息资源的描述信息。,通过对地理空间数据的内容、质量、数据格式、数据采集时间和其他特征进行描述与说明,帮助人们有效地定位、评价、获取和使用地理相关数据。,。,数据生产者,数据生产时间,数据质量,数据组织,空间参照系,数据内容以及其他属性,。,3.,元数据的主要作用,帮助数据生产者管理和维护空间数据;,便于数据用户查询检索地理空间数据;,帮助用户了解数据,以便就数据是否能够满足其需求做出这功能的判断;,提供有关信息,以便用户或者,GIS,软件进行数据的处理和转换;,在空间数据及其应用迅速发展的今天,元数据成为数据共享和有效使用的重要工具,对数据集中各数据项、数据来源、数据所有者及数据生产历史等的说明,对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、源数据的比例尺等,对数据处理信息的说明,如量纲的转换等,数据转换方法的描述,对数据库的更新、集成方法等的说明,4.,元数据的内容,5.,元数据的类型,根据元数据的内容分类,科研型元数据,:它不仅包括如数据源名称、作者、主体内容等传统的、图书管理式的元数据,还包含数据拓扑关系等。这类元数据的任务是帮助科研工作者高效获取所需数据。,评估型元数据,:主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。,模型元数据,:用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。,根据元数据描述对象分类,数据层元数据,:指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。,属性元数据,:是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。,实体元数据,:是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。,根据元数据在系统中的作用分类,系统级别元数据,:指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。,应用层元数据,:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。它往往用于高层次的数据管理,用户通过它可以快速获取合适的数据。,根据元数据的作用分类,说明元数据,:是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。,控制元数据,:是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。,1,、完整性原则:,早期的元数据比较简单,只有几个数据项,现在元数据体系日趋复杂,元数据设计时需要挑选出比较重要的元数据,构成,核心元数据集,核心元数据集应该能够,完整的,描述数据集的最重要的信息,例如:美国国家地球空间数据元数据标准共分,7,个部分,,219,项数据要素。获取这些元数据,需要增加,15,20,的工作量。,二、地理信息元数据确定的原则,2,、准确性原则:,元数据应该,准确而整洁,的描述数据集的主要特征,地理信息数据涉及数学、天文、地理、信息技术等各方面信息,因此,在确定元数据内容时,需要对相关领域的理论和技术有全面的了解。,3,、结构性原则:,地理信息元数据之间具有复杂的联系,应根据其结构联系进行合理的组织,以便对元数据进行修改或扩展时不破坏其整体结构。,4,、与其他标准地一致性,元数据是对其他标准的高度概括,制定元数据时,应该广泛的调研相关领域现有的国家标准、行业标准,尽量采用已颁布的标准。,三、地理信息元数据标准,空间数据元数据标准的建立是空间数据标准化的前提和保证,因此,只有建立起规范的空间数据元数据才能有效利用空间数据。,目前,针对空间数据元数据,已经形成了一些区域性的或部门性的标准。,国际上比较有影响的七种元数据标准:,欧洲标准化委员会,(CEN/TC287),美国联邦地理数据委员会,(FGDC),国际标准化组织地理信息,/,地球信息技术委员会,(ISO/TC211),地理空间元数据标准,几种地理元数据标准,地理空间元数据标准,空间元数据标准内容分两个层次:,第一层是目录信息,主要用于对数据集信息进行宏观描述,它适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用,第二层是详细信息,用来详细或全面描述地理空间信息的空间元数据标准内容,是数据集生产者在提供空间数据集时必须要提供的信息,FGDC,空间数据元数据内容标准的影响最大。,美国于,1990,年成立,联邦地理数据委员会,(Federal Geographic Data Committee,简称,FGDC,),,由来自,16,个单位的,17,位专家组成,联邦地理数据委员会负责协调,National Spatial Data Infrastructure (NSDI,,国家空间数据基础设施,),的发展,其任务是制订政策、标准来促进在政府、科研机构、私人团体之间的合作,以制作、共享地理数据,该委员会下设的标准化工作组经过两年的努力,起草了地理空间数据元数据内容标准(,CSDGM,)草案,并于,1994,年,8,月通过并发布了第一版,CSDGM,。,地理空间元数据标准,我国的,地理信息元数据,标准,经过几年的研究编制、多次征求意见和修改完善,由国家基础地理信息中心负责起草的国家标准,地理信息 元数据,2004,年,9,月,3,日在北京通过了专家审查。,地理空间元数据标准,中华人民共和国国家标准,GB/T 19333.15 200X/ISO 19115:2003,地理信息 元数据,Geographic Information,Medadata,(,ISO 19115:2003, MOD,),四、地理信息元数据的主要内容,1.,标识信息,是唯一标识数据集的元数据信息。通过标识信息,用户可以对已有的数据集有一个总体的了解,如数据集的名称、发布时间、版本、空间范围、表示方式、空间分辨率、信息类别、数据集的联系信息、数据集法律和安全限制等。,2.,数据质量信息,是数据集质量的总体评价,包括数据集在数据完整性、逻辑一致性、位置精度、时间精度、属性精度等方面地综述以及说明数据质量的保证措施,以及数据源、数据处理过程、数据志等地说明信息。,3.,空间参照系统信息,对数据集使用地空间参照系统地说明,4.,内容信息,描述数据集地主要内容,包括实体和属性信息,5.,分发信息,描述有关数据分发者的信息及获取数据的方法。通过分发信息用户可以了解到获取数据集地方式和途径。,6.,核心元数据参考信息,包括核心元数据发布或更新地日期,以及与建立核心元数据单位地联系信息。通过核心元数据参考信息,用户科研了解到核心元数据内容地现势性等信息。,元数据库组织结构图,
展开阅读全文