空间数据采集与处理

上传人:jin****ng 文档编号:149072661 上传时间:2022-09-06 格式:DOC 页数:20 大小:192.50KB
返回 下载 相关 举报
空间数据采集与处理_第1页
第1页 / 共20页
空间数据采集与处理_第2页
第2页 / 共20页
空间数据采集与处理_第3页
第3页 / 共20页
点击查看更多>>
资源描述
第三章 空间数据采集与处理3.1 空间数据采集【学时安排】1 学时【目的要求】1、掌握地理信息系统数据源的种类;2、理解数据采集的方式。【教学方法与手段】示例式教学法并通过实验课程理解与掌握数据采集方法。一、数据源种类地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源。地 理信息系统的数据源是多种多样的,并随系统功能的不同而不同,主要包括以下各种:1、地图各种类型的地图是GIS最主要的数据源,因为地图是地理数据的传统描述形式,是具有 共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系 直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。我国大多数的 GIS 系统其图形数据大部分都来自地图。2、遥感影像数据遥感影象是GIS中一个极其重要的信息源。通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象还 可以取得周期性的资料,这些都为 GIS 提供了丰富的信息。但是因为每种遥感影象都有其自 身的成像规律、变形规律,所以对其的应用要注意影象的纠正、影象的分辨率、影象的解译 特征等方面的问题。3、统计数据国民经济的各种统计数据常常也是GIS的数据源。如人口数量、人口构成、国民生产总4、实测数据各种实测数据特别是一些GPS点位数据、地籍测量数据常常是GIS的一个很准确和很 现势的资料。5、数字数据目前,随着各种专题图件的制作和各种GIS系统的建立,直接获取数字图形数据和属性 数据的可能性越来越大。数字数据也成为GIS信息源不可缺少的一部分。但对数字数据的采 用需注意数据格式的转换和数据精度、可信度的问题。6、各种文字报告和立法文件各种文字报告和立法文件在一些管理类的GIS系统中,有很大的应用,如在城市规划管 理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。对于一个 多用途的或综合型的系统,一般都要建立一个大而灵活的数据库,以支持其非常广泛的应用 范围。而对于专题型和区域型统一的系统,则数据类型与系统功能之间具有非常密切的关系。二、数据采集方式1、手工方式 通过手工在计算机终端上输入数据,主要是键盘输入。主要用于属性数据的输入。2、手扶跟踪数字化仪输入(1)手扶跟踪数字化仪 手扶跟踪数字化仪,根据其采集数据的方式分为机械式、超声波式和全电子式三种,其 中全电子式数字化仪精度最高,应用最广。按照其数字化版面的大小可分为AO、Al、A2、 A3、A4 等。数字化仪由电磁感应板、游标和相应的电子电路组成。这种设备利用电磁感应原理:在 电磁感应板的x, y方向上有许多平彳丁的印刷线,每隔200 um 条。游标中装有一个线圈。 当使用者在电磁感应板上移动游标到图件的指定位置,并将十字叉丝的交点对准数字化的点 位,按动相应的按钮时,线圈中就会产生交流信号,十字叉丝的中心也便产生了个电磁场, 当游标在电磁感应板上运动时,板下的印制线上就会产生感应电流。印制板周围的多路开关 等线路可以检测出最大信号的位置,即十字叉线中心所在的位置,从而得到该点的坐标值。(2)数字化过程 把待数字化的图件固定在图形输入板上,首先用鼠标器输入图幅范围和至少四个控制点 的坐标,随后即可输入图幅内各点、曲线的坐标。通过数字化仪采集数据数据量小,数据处理的软件也比较完备,但由于数字化的速度比 较慢,工作量大,自动化程度低,数字化的精度与作业员的操作有很大关系,所以,目前很 多单位在大批量数字化时,已不再采用它。3、扫描输入(l) 扫描仪简介 扫描仪直接把图形(如地形图)和图象(如遥感影象、照片)扫描输入到计算机中,以象素 信息进丁存储表示的设备。按其所支持的颜色分类,可分为单色扫描仪和彩色扫描仪;按所 采用的固态器件又分为电荷耦合器件(CCD)扫描仪、M0S电路扫描仪、紧贴型扫描仪等;按 扫描宽度和操作方式分为大型扫描仪、台式扫描仪和手动式扫描仪。CCD扫描仪的工作原理是:用光源照射原稿,投射光线经过一组光学镜头射到CCD器件 上,再经过模/数转换器,图象数据暂存器等,最终输入到计算机oCCD感光元件阵列是逐 丁读取原稿的。为了使投射在原稿上的光线均匀分布,扫描仪中使用的是长条形光源。对于 黑白扫描仪,用户可以选择黑白颜色所对应电压的中间值作为阈值,凡低于阈值的电压就为 0 (黑色),反之为1(白色)。而在灰度扫描仪中,每个象素有多个灰度层次。彩色扫描仪的 工作原理与灰度扫描仪的工作原理相似,不同之处在于彩色扫描仪要提取原稿中的彩色信 息。扫描仪的幅面有A , A,A,A等。扫描仪的分辨率是指在原稿的单位长度(英寸)上取0134样的点数,单位是dpi,常用的分辨率有300-1000 dpi之间。扫描图象的分辨率越高,所 需的存储空间就越大。现在多数扫描仪都提供了可选择分辨率的功能。对于复杂图象,可选 用较高的分辨率;对于较简单的图象,就选择较低的分辨率。(2)扫描过程扫描时,必须先进丁扫描参数的设置,包括:a、扫描模式的设置,(分二值、灰度、百万种彩色),对地形图的扫描一般采用二值扫 描,或灰度扫描。对彩色航片或卫片采用百万种彩色扫描,对黑白航片或卫片采用 灰度扫描。b、扫描分辨率的设置,根据扫描要求,对地形图的扫描一般采用300dpi或更高的分辨 率。c、针对一些特殊的需要,还可以调整亮度、对比度、色调、GAMMA曲线等。d、设定扫描范围。扫描参数设置完后,即可通过扫描获得某个地区的栅格数据。通过扫描获得的是栅格数据,数据量比较大。如一张地形图采用300dpi灰度扫描其数 据量就有 20 兆左右。除此之外,扫描获得的数据还存在着噪声和中间色调像元的处理问题。 噪声是指不属于地图内容的斑点污渍和其它模糊不清的东西形成的像元灰度值。噪音范围很 广,没有简单有效的方法能加以完全消除,有的软件能去除一些小的脏点,但有些地图内容 如小数点等和小的脏点很难区分。对于中间色调像元,则可以通过选择合适的阈值选用一些 软件如 Photoshop 等来处理。一般对获得的栅格数据还要进行一些后续处理如图象纠正、矢量化等。扫描输入因其输 入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎,再加之计算机运算速 度、存储容量的提高和矢量化软件的踊跃出现,使得扫描输入已成为图形数据输入的主要方 法。4、影像处理和信息提取方式从遥感影像上直接提取专题信息。5、数据通讯方式 联网方式下,信息系统内部各子系统之间以及与其它信息系统之间实现信息交流和信息 共享的主要方式。3.2 空间数据编辑处理【学时安排】3 学时【目的要求】1、理解空间数据编辑;2、理解数据处理的概念、内容及意义;3、了解坐标系的转换,坐标校核,地图的手工编辑;4、掌握数据压缩的目的;了解数据压缩的途径及方法;5、理解栅格数据与矢量数据相互转换的方法与步骤;6、了解空间数据插值;【重点难点】数据处理的方法。【教学方法与手段】示例式教学方法,多媒体教学手段。一、空间数据编辑通过矢量数字化或扫描数字化所获取的原始空间数据,都不可避免的存在着错误或误 差,属性数据在建库输入时,也难免会存在错误,所以,对图形数据和属性数据进行一定的 检查、编辑对于修正数据输入错误、维护数据的完整性和一致性、更新地理信息是很有必要 的。图形数据和属性数据的误差或错误主要包括以下几个方面:1、空间数据的不完整或重复:主要包括空间点、线、面数据的丢失或重复、区域中心 点的遗漏、栅格数据矢量化时引起的断线等;2、空间数据位置的不准确:主要包括空间点位的不准确、线段过长或过短、线段的断 裂、相邻多边形结点的不重合等;图3 1图形几种误差示例3、空间数据的比例尺不准确;4、空间数据的变形;5、空间属性和数据连接有误;6、属性数据不完整;图 31 是几种图形误差的示例。为发现并有效消除误差,一般采用如下方法进行检查:1、叠合比较法,是空间数据数字化正确与否的最佳检核方法,按与原图相同的比例尺 用把数字化的内容绘在透明材料上,然后与原图叠合在一起,在透光桌上仔细的观察和比较。 一般,对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据 的位置不完整和不准确则须用粗笔把遗漏、位置错误的地方明显地标注出来。如果数字化的 范围比较大,分块数字化时,除检核一幅(块)图内的差错外还应检核已存入计算机的其它图 幅的接边情况;2、目视检查法,指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误, 如图 所示,包括线段过长或过短、多边形的重叠和裂口、线段的断裂等;3、逻辑检查法,如根据数据拓扑一致性进行检验,将弧段连成多边形,进行数字化误 差的检查。有许多软件已能自动进行多边形结点的自动平差。另外,对属性数据的检查一般 也最先用这种方法,检查属性数据的值是否超过其取值范围。属性数据之间或属性数据与地 理实体之间是否有荒谬的组合。对于空间数据的不完整或位置的误差,主要是利用GIS的图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、整饰),插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例变换和纠正来处理。二、空间数据处理数据处理是对采集的各种数据,按照不同的方式方法对数据进行编辑运算,清除数据冗余,弥补数据缺失,形成符合用户要求的数据文件格式。处理内容主要包括:数踞编辑、数 据压缩、数据变换、数据格式转换、空间数据内插、边沿匹配、数据提取等。数据处理对于 空间数据有序化、检验数据质量、实现数据共享、提高资源利用效果都具有重要意义。空间数据处理的方法主要有以下几种(一) 坐标变换空间数据坐标变换的实质是建立两个平面点之间的一一对应关系,是空间数据处理的基本内容之一。主要包括平移变换、旋转变换、比例变换(图形缩放)、地图投影变换 。1、平移变换:如图3 2所示,x =x+Ax,y =y+Ay。/PX.y)0X图32空间数据平移变换2、旋转变换:如图 3 3 所示,x 二xcosB-y sin 9, yz 二xsin+y cos 9O图33空间数据旋转变换3、比例变换(图形缩放):点可以通过对其P (x, y)坐标分别乘以各自的比例因子Sx和 Sy来改变它们到坐标原点的距离O =x Sx, yz =ySy或x,=x0+(x-x0) Sx,寸=yO+(y-yO) Syo4、地图投影变换:当系统使用的数据取自不同地图投影的图幅时,需要将一种投影的数字 化数据转换为所需要投影的坐标数据。投影转换的方法可以采用:正解变换: 通过建立一种投影变换为另一种投影的严密或近似的解析关系式,直接 由一种投影的数字化坐标x、y变换到另一种投影的直角坐标X、Yo反解变换:即由一种投影的坐标反解出地理坐标(x、y-B、L),然后再将地理坐标 代入另一种投影的坐标公式中(B、L-X、Y),从而实现由一种投影的坐标到另一种投影坐标 的变换(x、y-X、Y)o数值变换: 根据两种投影在变换区内的若干同名数字化点,采用插值法,或有限差 分法,最小二乘法、或有限元法,或待定系数法等,从而实现由一种投影的坐标到另一种投 影坐标的变换。目前,大多数 GIS 软件是采用正解变换法来完成不同投影之间的转换,并直接在 GIS 软件中提供常见投影之间的转换。(二)图幅变形校正此处的图幅主要指通过扫描得到的地形图和遥感影象。由于如下原因,使扫描得到的地 形图数据和遥感数据存在变形,必须加以纠正。1、由于受地形图介质及存放条件等因素的影响,使地形图的实际尺寸发生变形;2、在扫描过程中,工作人员的操作会产生一定的误差,如扫描时地形图或遥感影象没 被压紧、产生斜置或扫描参数的设置等因素都会使被扫入的地形图或遥感影象产生变形, 直接影响扫描质量和精度;3、由于遥感影象本身就存在着几何变形;4、由于所需地图图幅的投影与资料的投影不同,或需将遥感影象的中心投影或多中心 投影转换为正射投影等。5、由于扫描时,受扫描仪幅面大小的影响,有时需将一幅地形图或遥感影象分成几块 扫描,这样会使地形图或遥感影象在拼接时难以保证精度。图幅变形校正最常用的方法是六系数的线性变换法(Sprhsky, 1987;黄杏元等,1989): X = A0 + A1 x+A2y, Y = B0 + B1 x + B2y。上式中x, y为数字化的坐标,X,Y为转换 后的坐标,AO, A1,A2, BO, B1,B2为六个未知系数。设有n个控制点(n2),可用最小二乘 法原理来计算这六个未知数:Qx = ui (A0 + A1 x + A2 X),Qy = v( B o+Bi x-+B 2 y)v上式中 x, y为第i个控制点的数字化坐标,u , v认为对应的实测坐标,由Z Qy2最小、 i ii i和Qx2最小,可以解出A。,A1,A2,BO,B1,B2,实现图幅的变形校正。(三)空间数据的压缩处理数据压缩的目的主要有两点:节省存贮空间和节省处理时间。 数据压缩途径主要有:1、压缩软件:原数据信息基本不丢失而且可以大大节省存贮空间,缺点是压缩后的文件 必须在解压缩后才能使用。2、数据消冗处理:原数据信息不会丢失,得到的文件可以直接使用,缺点是技术要求高, 工作量大,对冗余度不大的数据集合效用小。3、用数据子集代替数据全集:在规定的精度范围内,从原数据集合中抽取一个子集,缺 点以信息损失为代价,换取空间数据容量的缩小。常见空间数据的压缩方法1、曲线数据的压缩:常采用特征点筛选法,即筛选抽取曲线特征点,并删除全部多余 点以达到节省存贮空间的目的。2、面域栅格数据的压缩:通过压缩编码技术来消除冗余数据,如链码、游程长度编码、 块码、四叉树编码。3、面域邻接线段的删除:数据属性的重新分类和空间图形的化简需要对数据进行压缩、 相邻界线的删除、共同属性的合并。(四) 空间数据类型的转换不同数据类型间的转换主要包括矢量到栅格数据的转换和栅格到矢量数据的转换两种。矢量数据转换成栅格数据也称栅格化。矢量空间数据一般是以点、线、面存放的。点状 数据转成栅格数据时是取离点最近的一个栅格单元来存放,线状数据转成栅格数据时就变成 连续的锯齿状的栅格点,必要时可以加宽,面状数据的转换主要是在每个多边形内部用等值 的栅格填满。栅格数据转换成矢量数据也称矢量化。普通地图经扫描仪输入后可以通过软件自动或半 自动的转成矢量数据。把栅格数据转成矢量点的方法比较简单。栅格数据转成线大致有三个 步骤: (1)分类;(2)线的细化; (3)线的提取。面状信息的矢量化和线状信息的矢量化类似:(1)分类; (2)获得边界;(3)边界线 的矢量化。(五) 空间数据内插空间数据的内插是已知一组空间数据,它们可以是离散点的形式,也可以是分区数据的 形式,现在要从这些数据中找到一个函数关系式,使该关系式最好地逼近这些已知的空间数 据,并能根据该函数关系式推求出区域范围内其它任意点或任意分区的值。这种通过已知点 或分区的数据,推求任意点或分区数据的方法称为空间数据内插。对于离散空间和连续空间, 空间数据内插的方法不尽相同。离散空间具有跳跃特征(土地利用类型),重要变化发生在边界上,边界内的变化则是 均匀的,同质的,即在各个方面都是相同的。常采用邻近元法,即以最相邻近图元的特征值 表征未知图元的特征值。连续空间具有渐变特征(地形表面),内插技术必须采用连续的空间渐变模型实现这些 连续变化,可用一种平滑的数学表面加以描述。这类技术可分为整体拟合和局部拟合技术两 大类。整体拟合技术拟合模型是由研究区域内所有采样点上的全部特征观测值建立的,通 常采用的技术是整体趋势面拟合,这种内插技术一般用于模拟大范围内的变化,而不能提供 内插区域的局部特性。局部拟合技术则是仅仅用邻近的数据点来估计未知点的值,而不受局 部范围外其它点的影响,这类技术包括双线性多项式内插、样条函数、移动拟合法等等。(六) 边界匹配(图幅接边)在相邻图幅的边缘部分,由于原图本身的数字化误差,使得同一实体的线段或弧段的坐 标数据不能相互衔接,或是由于坐标系统、编码方式等不统一,需进行图幅数据边缘匹配处 理。可分为自动处理方法和手工处理方法。自动处理方法是小心地修改空间数据库中点和矢 量的坐标,以维护数据库的连续性;手工处理方法是先对准两幅图的一条边缘线,然后再小 心地调整其它线段使其取得连续。3.3 空间数据质量【学时安排】2 学时【目的要求】1、掌握空间数据质量的相关概念;2、了解空间数据质量评价;3、理解空间数据误差及质量控制。【重点难点】空间数据质量控制的有关概念,空间数据精度。【教学方法与手段】示例式教学方法,多媒体教学手段。一、空间数据质量的概念1、空间数据质量空间位置、专题特征以及时间是表达现实世界空间变化的三个基本要素。空间数据是 有关空间位置、专题特征以及时间信息的符号记录。而数据质量则是空间数据在表达这三 个基本要素时,所能够达到的准确性、一致性、完整性,以及它们三者之间统一性的程度。空间数据是对现实世界中空间特征和过程的抽象表达。由于现实世界的复杂性和模糊 性,以及人类认识和表达能力的局限性,这种抽象表达总是不可能完全达到真值的,而只 能在一定程度上接近真值。从这种意义上讲,数据质量发生问题是不可避免的;另一方面, 对空间数据的处理也会导致出现一定的质量问题;例如,在某些应用中,用户可能根据需 要 来对数据进行一定的删减或扩充,这对数据记录本身来说也是一种误差。因此,空间数据质量的好坏是一个相对概念,并具有一定程度的针对性。尽管如此,我 们仍可以脱离开具体的应用,从空间数据存在的客观规律性出发来对空间数据的质量进行评 价和控制。2、与数据质量相关的几个概念(1) 误差(Error):误差反映了数据与真实值或者大家公认的真值之间的差异,它是一 种常用的数据准确性的表达方式。(2) 数据的准确度(Accuracy):数据的准确度被定义为结果、计算值或估计值与真实 值或者大家公认的真值的接近程度。(3) 数据的精密度(Resolution):数据的精密度指数据表示的精密程度,亦即数据表 示的有效位数。它表现了测量值本身的离散程度。由于精密度的实质在于它对数据准确度的 影响,同时在很多情况下。它可以通过准确度而得到体现,故常把二者结合在一起称为精确 度,简称精度。(4) 不确定性(Uncertainty):不确定性是关于空间过程和特征不能被准确确定的程 度,是自然界各种空间现象自身固有的属性。在内容上,它是以真值为中心的一个范围,这 个范围越大,数据的不确定性也就越大。(5) 空间分辨率:分辨率是空间目标可辨识的最小尺寸。如遥感影像上最小可分辨的 地物目标。在一个图形扫描仪中最小的物理分辨率从理论上讲是由设施的像元大小来确定 的。在一个激光打印机上这是84.67xl0-3mm,而且在高质量的激光扫描仪上,这会细化10 倍。(6) 比例尺:比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的 一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个 1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小 的宽度,那么就不可能表示小于5m的现象。二、空间数据质量评价1、空间数据质量标准 空间数据质量标准是生产、使用和评价空间数据的依据,数据质量是数据整体性能的 综合体现。目前,世界上已经建立了一些数据质量标准,如美国FGDC的数据质量标准等。空间数据质量标准的建立必须考虑空间过程和现象的认知、表达、处理、再现等全过 程。空间数据质量标准要素及其内容如下:(1) 数据情况说明:要求对地理数据的来源、数据内容及其处理过程等作出准确、全面 和详尽的说明。(2) 位置精度或称定位精度:为空间实体的坐标数据与实体真实位置的接近程度,常 表 现为空间三维坐标数据精度。它包括数学基础精度、平面精度、高程精度、接边精度、形状 再现精度(形状保真度)、像元定位精度(图像分辨率)等。平面精度和高程精度又可分 为相 对精度和绝对精度。(3) 属性精度:指空间实体的属性值与其真值相符的程度。通常取决于地理数据的类 型,且常常与位置精度有关,包括要素分类与代码的正确性、要素属性值的准确性及其名 称 的正确性等。(4) 时间精度:指数据的现势性。可以通过数据更新的时间和频度来表现。(5) 逻辑一致性:指地理数据关系上的可靠性,包括数据结构、数据内容(包括空间特征、 专题特征和时间特征),以及拓扑性质上的内在一致性。(6) 数据完整性:指地理数据在范围、内容及结构等方面满足所有要求的完整程度,包 括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。(7) 表达形式的合理性:主要指数据抽象、数据表达与真实地理世界的吻合性,包括空 间特征、专题特征和时间特征表达的合理性等。2、空间数据质量的评价空间数据质量的评价,就是用空间数据质量标准要素对数据所描述的空间、专题和时 间特征进行评价。下面给出了空间数据质量评价矩阵(表31)。(1) 质量评价过程。空间数据的质量对数据生产者和用户来说都是一个非常重要的考虑 因子,它可以使数据生产者正确描述他们的数据集符合生产规范的程序,也是用户决定数据 集是否符合他们应用目的的依据。因此,探索数据质量的理论问题便成为地理空间数据标准 化的重要组成部分。在元数据标准中,质量信息主要在标识信息、数据质量信息及其数据继 承关系等元数据部分中出现,其所涉及的主要元素有数据集的完备性、逻辑一致性、位置精 度、时间精度、专题精度等,而每一元素又有各自的子元素。由于用户需要不同层次的数据 质量,有些用户需要高精度的信息,而另一些用户则有较低层次的精度便可以满足他们的需 求,这祥对数据集的质量标准就有不同的评价依据。但作为质量中的几何精度评价,则通过 一定的计算公式和相应的精度指标可以获得数据集的几何精度。(2) 多尺度评价依据。在质量评定过程中,一般来说,数据的精度或准确度越高越好, 但在实际应用中却不能不分对象一概而论。事实上有的数据在应用中的意义很大(如地籍数 据的界址点等),其本身精度也可以达到很高,因此对这些数据的精度要求也就很高;而另 一些数据本身的精度不可能很高,如不同土壤类型的面积,由于它们之间的界限是模糊的, 所以面积也是相对的,因此精度要求不可能很高;有的数据精度可以达到很高,但需要花费很多的人力、物力和时间,而生产上或应用上又不一定要求很高。因此,在实际应用中应根 据具体需要来评定数据的质量。地球是一个复杂的系统,不少物体具有不确定性或模糊性特 征。有些物体本身就没有明确的界限,它们是逐渐过渡的,在由量变到质变过程中,难以确 定其边界线;有些虽然有明确的定义,但很难操作;有些数据是动态的,甚至是瞬间的。通 过上面的“冗余”精度,以避免造成精度浪费。表 31 空间数据质量评价矩阵表空间数据描述空间数据要素空间特征时间特征专题特征世系(继承性)VVV位置精度VVV属性精度VVV逻辑一致性VVV完整性VVV表现形式准确性VVV(3) 数据的实效性与惟一性。地球系统的数据,有些具有明显的时效(时间)特征,有的则 对时间的反应比较迟缓,例如土地利用图的时效性,随地区的差异在时间上有明显的变化; 而相对来说,地质图、地形图则没有明显的时效性。在图形的时效性上,一般来说具有动态 特征的数据,它们的时间有效性较短,相反则长。但从研究历史变化或发展过程来说,任何 时间的数据集都是有用的。所以不同时效性的数据集将根据其作用的不同来确定其重要性, 而这些因素在元数据体系中都应有所反应。另外,地球系统的数据有可派生数据和不可派生 数据之分,而在数据集描述中应避免派生数据。如在气象和水文数据中,每天的降雨量是基 本数据,或不可派生数据,而月平均降雨量都是派生的。因此,在元数据描述中,应只限于 基础数据,而不应包括可派生数据。这样,便需要有专门的元素来描述数据集的这些特征, 并需要对不同的计算公式等加以阐述。(4) 数据精度的测试与报告。对于用户和数据生产者来说,他们各自所关心的数据质量 是有一定联系的。数据集生产者必须使所生产的数据集满足制图规范,而用户则根据数据集 的质量信息确定该数据集是否满足他们的应用需求,所以数据集生产者提供的数据集信息应 是用户所关心的信息。因此,在数据集报告中应包括相应的精度测试方法及其测试结果等内 容。三、误差的类型空问数据的质量通常用误差来衡量,而误差定义为空间数据与其真值的差别。空间数据 误差的来源是多方面的,例如,GIS的原始录入数据本身包含着数据采集过程中引入的源误 差。另外,在原始数据录入到空间数据库以及随后的数据分析处理和结果输出过程中,每一 步都会引入新误差。根据P. A. Burrough(1986)的建议,可以将GIS数据误差的来源归纳 为三类,如表 5-3 所示。1、源误差GIS数据的来源主要有,直接从现场利用GPS或全站仪采集的数字数据;现有纸质地图 的数字化;航空影像和遥感数字数据或统计调查数据等。这些数据受表53 中前两类误差 来源的部分或全部影响。表 32 空间数据误差的来源误差类型误差来源误差特征源误差数据年代;数据的空间覆盖范围;地图比例尺;观测密度数 据的可访问性,数据格式;数据与用途的一致性;数据的采 集处理费用明显 易探测由自然变化或原始测量引起的误差位置误差;属性误差:质量和数量方面的误差 数据偏差:输入输出错误,观测者偏差,自然变化不明显难测定GIS处理过程引起的误差计算机字长引起的误差拓扑分析引起的误差:逻辑错误、地图叠置操作分类与综合引起的误差:分类方法、分类间隔、内插方法复杂 难探测(1) 地面测量数字数据的误差 来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制 网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差随继承了控制点的 误差外,还受自身的观测方法、观测精度和地界的人为判断,以及地物地貌的取舍等 因素 的影响。当然,原始观测误差受观测仪器、观测者和外界环境三种因素影响。地面测量数据 中的误差可以表现为随机误差、系统误差或粗差。一般而言,粗差采用可靠性理论探测剔除, 系统误差采用实验方法校正或建立系统误差模型处理,随机误差采用随机模型, 如最小二 乘法平差处理。利用误差传播律可求得点坐标的方差协方差阵或误差椭圆(球)元素采表达 点坐标数据的精度。(2) 地图数字化数据的误差目前GIS数据的主要来源之一是现有地图数字化。原因固有误差和数字化过程误差是 地图数字化数据误差的主要来源。原因固有误差除含有上述地面控制测量和碎部测量的全 部误差外,还含有制图误差。 制图误差a 、控制点展绘误差 展绘控制点是成图的第一步。对于与立体测图仪相连的直角坐 标展点仪而言,该项误差的均方根为0.170.32mm,这在地图精度要求不高时可不予考虑。b、编绘误差地形图的编绘一般用摄影测量手段把各种原始资料化为同一比例尺的过 程,其中所引入的误差大约在0.30 0.33mm之间。c、绘图误差绘图误差是在绘图过程中产生的。误差的范围为之间。d、综合误差地图综合误差的大小取决于特征的类型与复杂程度,故该项误差极难量 化。象曲线这类特征,其综合误差可能很大,而直线的综合误差又近似为零。当两个或两个 以上的特征无法在图上适当表示时,需要人为地在地图上将特征表示符移位,使地图清晰易 渎。这种移位也会引起综合误差,其大小主要取决于特征的接近程度和成图比例尺的大小。 比例尺越小,移位越大,误差也越大。e、地图复制误差地图复制误差的均方差为O.1 O.2mm。f、分色板套合误差 彩色地图是由一系列金属分色板套合生成的,每一块分色板在图 上印出一种颜色。该项误差的均方差为O.170.30mm。g、绘图材料的变形误差 地图一般印刷于纸质载体上,随着温度和湿度的变化,纸 的尺寸也会改变。如果温度不变,湿度从0增至25,则纸的尺寸改变1.6。由于纸的 膨胀系数和收缩系数并不相等,因此,即使湿度又降至原来大小,图纸也不可能恢复到原来 尺寸。由于纸张在印刷时温度升高,纸张长度会伸长1.5,宽度伸长2.9,而当纸干燥 或冷却后,其长度和宽度又分别收缩0.25和0.75。因此,印刷冷却后,图纸在长、宽 方向上的净伸长分别为1.25和2.15,h、归化到同一比例尺所引起的误差 地图的比例尺是指真实的主比例尺。例如,对兰 勃特正形投影而言,主比例尺只有沿着标准纬线时才是不变的,而标准纬线之内的比例尺变 小,之外的比例尺变大。因此,在将地图数字化或者从地图量距时,必须利用适当的比例尺 因子进行修正。i、特征的定义 自然界的许多特征并无明确的界限。例如,海岸线的实际位置在哪里? 森林和草地间的界线如何确定?因此,特征定义会引起特征位置的某些不确定性,但并非 所 有的特征都有此误差。j、特征夸大误差 为了增强图的可读性,有时需要夸大某些特征,因为它们在图上难 以按其真实情况表示。例如,分界线应是无宽线、但表示在图上时,却占有一定宽度。有时 根据地图的用途,需要将某些特征夸大,以区别于其它特征。如,在道路上将道路特征夸大 以示醒目。特征夸大误差取决于地图的比例尺、用途和所涉及特征的类型。同样地,并非所 有的特征都具有此类误差。由于很难知道制图过程中各种误差间的关系以及图纸尺寸的不稳定性,因此,很难准 确地评价原图固有误差。 数字化误差 数字化方式主要有手工数字化和扫描数字化。目前在生产实践中多采用扫描数字化,然 后屏幕半自动化跟踪。线划跟踪与扫描数字化所引起的平面误差较小,只是在扫描数字化时, 要素结合处出现的误差较大。(3) 遥感数据误差 遥感数据的误差累积过程可以区分为:数据获取误差、数据处理误差、数据分析误差、 数据转换误差和人工判断误差。 数据获取误差遥感资料获取时,存在着多种误差。其中有些误差源是可控的,例如,几何误差或辐射 误差;有些则是不可控的,如气候条件和景观的自然变化。可控的数据获取误差又包括 几 何误差和遥感平台误差。 数据预处理误差数据预处理包括利用地面控制进行校正,几何校正、图像增强和分类等。这些预处理 会 引入各种各样的误差。例如,几何校正会引起平面位置和专题误差。位置误差取决于校 正 模型的逼近和校正模型参数求解时所用控制数据中的误差。专题误差来自重新抽样。分 类 本身就是一个引入显著误差的过程。潜在的分类误差源可能有遥感数据测量中的随机误 差,类型清晰度中的模糊度,混合类型分类系统,以及不同的分类系统缺少相容性。 数据转换误差 在矢量栅格数据转换过程中,会出现显著误差。引起矢量数据栅格化误差的主要原因有两个:属性概括误差;拓扑匹配错误。栅格化误差的大小与下列因素有关:转换中所用的 算法,格网的尺寸,栅格表达时的定向,以及地图图形的复杂性等。 人工判读误差在数据分析和判读阶段会引入人工判读误差。在GIS中使用遥感数据时,人工判读误差 会影响随后的GIS分析结果。这种误差是主观的,因此难以量化,它与判读员从遥感影像中 提取信息的能力和技能有关,还与影像的尺度和所需的概括程度有关。2、操作误差除了 GIS原始录入数据本身带有的源误差外,空间数据在GIS的模型分析和数据处理等 操作中还会引入新误差。如,由计算机字长引起的误差,拓扑分析引入的误差和叠置中引入的误差等。(1) 由计算机字长引起的误差在计算机中,数据是由一定字长的编码数字表示的。舍入误差是由计算机字长引起的一 种误差。这种误差出现在GIS的各种数值运算和模型分析过程中。由舍入误差引起的问题 很多,例如GIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变换 对拓扑关系的影响等。削弱舍入误差影响的方法主要有:增加字长并用带小数的实数表示 数据;改变数据在计算机中的表达方式;采用合适的算法等。除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分 辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据 时,则不能胜任。减少存储误差影响的方法有:采用双精度字长存储数据,使用有效位数多 的数据记录控制点坐标;使用32位整数运算法处理数据,即把坐标数据转换成以厘米或毫 米为单位的整数,然后用整数存储和运算;采用嵌套法,即先把研究区域划分成若干块,并 用粗略的分辨率来定义它们,每块再以有限精度建立局部原点,以此为基准确定块中各细节 的坐标。这种方法可以用单精度字长记录非控制点坐标,用双精度字长记录控制点坐标,并 可将它们联接起来。嵌套可以是多级嵌套。(2) 由拓扑分析引起的误差GIS中的拓扑分析会产生大量的误差。如矢量数据栅格化引起的拓扑匹配误差,多层叠 置过程中产生的无意义多边形等。这是由于GIS中进行的大多数拓扑空间操作都隐含地假 设:原始数据是均匀分布的,数字化过程没有错误;拓扑网络的叠置仅仅是网络多边形边界 相交和重新构成网络问题;边界线能明确定义和描绘;所有的算法都假定为完全确定的操作; 对某类型或其它自然因素所确定的分类区间是最合适的。(3) 数据分类和内插引起的误差GIS 空间数据库中数据的许多不规则性是由所使用的分类方法和从点数据到面数据的 内插方法引起的,即它们作为GIS中的一种操作会引入许多误差。以上讨论了 GIS空间数据库中原始录用数据本身含有的源误差和随后空间操作中引入 的新误差。一般来说,源误差远大于操作误差,因此,要想控制GIS产品的质量,良好的原 始录用数据是首要的。四、空间数据质量的控制数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程 和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有:1、传统的手工方法 质量控制的人工方法主要是将数字化数据与数据源进行比较,图 形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原 属性逐个对比或其它比较方法。2、元数据方法 数据集的元数据中包涵了大量的有关数据质量的信息,通过它可以检 查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数 据质量的状况和变化。3、地理相关法 用空间数据的地理特征要素自身的相关性来分析数据的质量。例如,从 地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等 高线两层数据时,若河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据 有质量问题,如不能确定哪层数据有问题时,可以通过将他们分别与其它质量可靠的数据层 叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间 数据层之间地理特征要素的相关分析之用。数据质量控制应体现在数据生产和处理的各个环节。下面以地图数字化生成地图数据过 程为例,说明数据质量控制的方法。数字化过程的质量控制,主要包括数据预处理、数字化 设备的选用、对点精度、数字化误差和数据精度检查等项内容。1、数据预处理工作 主要包括对原始地图、表格等的整理、誊清或清绘。对于质量不 高的数据源,如散乱的文档和图面不清晰的地图,通过预处理工作不但可减少数字化误差, 还可提高数字化工作的效率。对于扫描数字化的原始图形或图像,还可采用分版扫描的方法, 来减少矢量化误差。2、数字化设备的选用 主要根据手扶数字化仪、扫描仪等设备的分辨率和精度等有关 参数进行挑选,这些参数应不低于设计的数据精度要求。一般要求数字化仪的分辨率达到 0.025mm,精度达到0.2mm;扫描仪的分辨率则不低于0.083mm。3、数字化对点精度(准确性) 是数字化时数据采集点与原始点重合的程度。一般要求 数字化对点误差应小于 0.1mm。4、数字化限差 限差的最大值分别规定如下:采点密度(O.2mm)、接边误差(0.02mm)、 接合距离(0.02mm)、悬挂距离(0.007mm)、细化距离(O.O07mm)和纹理距离(0.01mm)。接边误差控制,通常当相邻图幅对应要素间距离小于0.3mm时,可移动其中一个要素以 使两者接合;当这一距离在0.3mm与0.6mm之间时,两要素各自移动一半距离;若距离大于 0.6mm,则按一般制图原则接边,并作记录。5、数据的精度检查 主要检查输出图与原始图之间的点位误差。一般要求,对直线地 物和独立地物,这一误差应小于0.2mm;对曲线地物和水系,这一误差应小于0.3mm;对边 界模糊的要素应小于 0.5mm。空间数据的采集与处理工作,是建立GIS的重要环节,了解GIS数字化数据的质量与不 确定性特征,最大限度地纠正所产生的数据误差,对保证GIS分析应用的有效性具有重要意 义。3.4 空间数据的元数据【学时安排】2 学时【目的要求】1、理解空加数据元数据的有关概念;2、理解空间数据元数据的应用。【教学方法与手段】示例式教学方法,多媒体教学手段。一、元数据的概念Metadata可译成元数据,是描述数据的数据。在地理空间数据中,元数据说明数据内容、 质量、状况和其他有关特征的背景信息。它应尽可能多地反映数据集自身的特征规律,以便 于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会 有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对 数据进行加工处理和二次开发等。随着计算机技术和 GIS 技术发展,特别是网络通信技术的发展,空间数据共享日益普 遍。管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者 需要有效的数据管理和维护办法;用户需要找到更快、更加全面和有效的方法,以便发现、 访问、获取和使用现势性强、精度高、易管理和易访问的空间数据。在这种情况下,空间数 据的内容、质量、状况等元素数据信息变得更加重要,成为信息资源有效管理和应用的重要 手段。地理信息元数据标准和操作工具已经成为国家空间数据基础设施的一个重要组成部 分。到目前为止,一般关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利 用,并为计算机辅助软件工程服务。元数据的主要内容包括:(1) 对数据集的描述,对数据集中各数据项、数据来源、数据所有者及数据序代(数据生 产历史)等的说明;(2) 对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数 据的比例尺等;(3) 对数据处理信息的说明,如量纲的转换等;(4) 对数据转换方法的描述;(5) 对数据库的更新、集成等的说明。 在地理信息系统应用中,元数据的主要作用可以归纳为如下几个方面:(1) 帮助数据生产单位有效地管理和维护空间数据,建立数据文档,并保证即使其主要 工作人员离退时,也不会失去对数据情况的了解;(2) 提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络 及数据销售等方面的信息,便于用户查询检索空间数据:(3) 帮助用户了解数据,以便就数据是否能满足其需求做出正确的判断;(4) 提供有关信息,以便于用户处理和转换有用的数据。可见,元数据是使数据充分发挥作用的重要条件之一,它可以用于许多方面,包括数据文 档建立、数据发布、数据浏览、数据转换等,对于促进数据的管理、使用和共享也均有重要 的作用。二、元数据的类型元数据分类研究的目的在于充分了解和更好地使用元数据。分类的原则不同,元数据的 分类体系和内容将会有很大的差异。1、根据元数据描述对象分类(1) 数据层元数据。指描述数据集中每个数据的元数据,内容包括日期、位置、量纲、 注释、误差标识、缩略标识、存在问题标识、数据处理过程等。(2) 属性元数据。是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据 字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。(3) 实体元数据。是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库 的有效期、数据时间跨度等。2、根据元数据在系统中的作用分类(1) 系统级别元数据。指用于实现文件系统特征或管理文件系统中数据的信息,如访问 数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量 等。(2) 应用层元数据。指有助于用户查找、评估、访问和管理数据等与数据用户有关的信 息,如 文本文件内容的摘要信息、图形快照、描述与其他数据文件相关关系的信息。它往往用于高 层次的数据管理,用户通过它可以快速获取合适的数据。3、根据元数据的作用分类(1)说明元数据。是为用户使用数据服务的元数据。它一般用自然语言表达,如元数据 覆盖的空间范围、元数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多 为描述性信息,侧重于数据库的说明。(2)控制元数据。是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和 特定的句法来实现。其内容包括数据存储的检索文件、检索中与目标匹配的方法、目标的检 索和显示、分析查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换 方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。 这类元数据主要是与数据库操作有关的方法。空间数据元数据中所用到的概念:空间数据(Geospatial data):用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息;类型(Type)在元数据标准中,数据类型指该数据能接收的值的类型;对象(Object)对地理实体的部分或整体的数字表达;实体类型(Entity type)对于具有相似地理特征的地理实体集合的定义和描述;点(Point)用于位置确定的零维地理对象;结点(Node)拓扑连接两个或多个链或环的一维对象;标识点(Label point)显示地图或图表时用于特征标识的参考点;线(Line) 一维对象的一般术语;线段(Line segment)两个点之间的直线段;线(String)由相互连接的一系列线段组成的没有分支线段的序列,线可以自身或与其 它线相切;弧(Arc)由数学表达式确定的点集组成的弧状曲线;链(Link)两个结点之间的拓扑关联;链环(Chain)非相切线段或由结点区分的弧段构成的有方向无分支序列;环(Ring)封闭状不相切链环或弧段序列;多边形(Polygon)在二维平面中由封闭弧段包围的区域;外多边形(Universe Polygon)数据覆盖区域内最外则的多边形,其面积是其它所有多 边形的面积之和;内部区域(Interior area)不包括其边界的区域;格网(Grid)组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或 近似规则的棋盘状镶嵌表面的点集合;格网单元(Grid cell)表示格网最小可分要素的二维对象矢量(Vector)有方向线的组合;栅格(Raster)同一格网或数字影像的一个或多个叠加层;像元(Pixel)二维图形要素,它是数字影象最小要素;栅格对象(Raster object) 一个或多个影象或格网,每一个影象或格网表示一个数据层, 各层之间相应的格网单元或像元一致且相互套准;图形(Graph)与预定义的限制规则一致的0维(如Node点)、一维(Link或Chain)和二 维(T多边形)有拓扑相关的对象集;数据层(Layer)集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合(Association);层(Stratum)在有序系统中数据层、级别或梯度序列;纬度(Latitude)在中央经线上度量,以角度单位度量离开赤道的距离;经度(Longitude)经线面到格林尼治中央经线面的角度距离;中央经线(Meridian)穿过地球两极的地球的大圆圈;坐标(Ordinate)在笛卡儿坐标系中沿平行于X轴和y轴测量的坐标值;投影(Projection)将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学 转化方法。投影参数(Projection Parameters)对数据集进行投影操作时用于控制投影误差、变形实 际分布的参考特征。地图(Map)空间现象的空间表征,通常以平面图形表示;现象(Phenomenon)事实、发生的事件、状态等;分辨率(Resolution)由涉及到或使用的测量工具或分析方法能区分开的两个独立测量 或计算的值的最小差异;质量(Quality)数据符合一定使用要求的基本或独特的性质;详述(Explicit)由一对数或三个数分别直接描述水平位置和三维位置的方法;介质(Media)用于记录、存贮或传递数据的物理设备。三、空间数据元数据的标准空间数据是一种结构比较复杂的数据类型。它涉及对于空间特征的描述,也涉及对于属 性特征及其他们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作;只有建 立起规范的空间数据元数据才能有效利用空间数据。目前,针对空间数据元数据,已经形成 了一些区域性的或部门性的标准。四、空间数据元数据的获取与管理1、空间数据元数据的获取空间数据元数据的获取是一个较复杂的过程,相对于基础数据的形成时间,它的获取可 分为三个阶段:数据收集前、数据收集中和数据收集后。对于模型元数据,这三个阶段分别 是模型形成前、模型形成中和模型形成后。第一阶段的元数据是根据要建设的数据库的内容 面设计的元数据,内容包括:普通元数据、专题性元数据;第二阶段的元数据随数据的形成 同步产生出三阶段的元数据,是在上述数据收集到以后,根据需要产生的,包括数据处理过 程描述、数据利用情况、数据质量评估、浏览文件的形成、拓扑关系、影像数据的指标体系 及指标、数据集大小、数据存放路径等。空间数据元数据的获取方法主要有五种:键盘输入、关联表、测量法、计算法和推理法。 键盘输入一般工作量大且易出错;关联表方法是通过公共项(字段)从已存在的元数据或数据 中获取有关的元数据;测量法容易使用且出错较少,如用全球定位系统测量数据空间点的位 置等;计算法指由其他元数据或数据计算得到的元数据,如水平位置可由仪器设置及时间计 算得到;推理法指根据数据的特征获取元数据。在元数据获取的不同阶段,使用的方法也有 差异。在第一阶段主要是键入方法和关联表方法;第二阶段主要采用测量方法;第三阶段主 要是计算和推理方法。2、空间数据元数据的管理空间数据元数据的理论和方法涉及数据库和元数据两方面。由于元数据的内容、形式的 差异,元数据的管理与数据涉及的领域有关,它是通过建立在不同数据领域基础上的元数据
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑环境 > 建筑资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!