基于决策树算法的遥感影像海冰检测技术研究与应用

上传人:r****d 文档编号:125406243 上传时间:2022-07-26 格式:DOC 页数:113 大小:135KB
返回 下载 相关 举报
基于决策树算法的遥感影像海冰检测技术研究与应用_第1页
第1页 / 共113页
基于决策树算法的遥感影像海冰检测技术研究与应用_第2页
第2页 / 共113页
基于决策树算法的遥感影像海冰检测技术研究与应用_第3页
第3页 / 共113页
点击查看更多>>
资源描述
基于决策树算法的遥感影像海冰检测技术研究与应用 摘 要 近些年,海洋灾害频发。我国北部海区地处高纬度地区,海冰灾害时有发生, 海冰分布信息的获取成为渤海的环境、资源和灾害等研究领域的重要内容之一。检 测海冰的分布状况对于研究海冰结冰规律,预测海冰结冰范围,进而降低灾害损失 等方面具有重大实际意义。海冰检测本质上可以看作是将海冰和海水作为两个类别 的分类问题。海冰和海水之间光谱特征的差异为分类提供了依据,通过卫星遥感技 术获得的遥感影像可以提供这些光谱数据。作为一种重要的数据挖掘技术,决策树 算法可以有效地完成分类任务,并可发现决定分类的关键因素。为此,本文研究了 基于决策树的遥感影像海冰检测方法,并搭建了海冰检测系统,主要工作包括: 本文将遥感影像中的海冰检测问题转化为数据挖掘分类问题,基于数据挖掘决 策树分类算法,给出了遥感影像中海冰检测的方法及流程,通过对MODIS遥感影 像相关波段的数据统计,发现了MODIS影像中与海水及海冰反射率相关的主要波 段,在此基础上,利用发现的相关波段构建了用于海冰检测的决策树,得出了MODIS 影像中海冰检测的相关规则,并将相关规则应用于渤海辽东湾地区的海冰检测,结 果证明了该方法的有效性。此外,将该方法推广应用于Landsat TM影像和HJ影像 的海冰检测中,也获得了相似的检测结果,表明了决策树分类算法对遥感影像中海 冰检测的适应性。 基于对海冰检测方法的研究,设计并实现了基于决策树的遥感影像海冰检测系 统。该系统包括数据导入模块、数据预处理模块、信息提取模块、数据输出模块。 关键词:遥感影像;分类;C45;海冰检测 黜四 Abstraet ChinaS Intherecent disastershaveoccurred northern years,marine frequentlyAs seaarealocatedinthe latitudestheseaicedisasters high happen and makesitan researchfieldsonBohaiSenvironmentresourcedisasterto important thedistributioninformationoftheseaiceItiSof todetectthe acquire greatsignificance oftheseaice willcontributeto ontheseaice law range distribution,whichstudy freezing and the ofthesea thelOSScausedtheseaiCe predictscope icetherebyreducing by the oftheseaicecanbeconsideredasaclassificationofthe detection disasterEssentially intotwoclassesThedifferencesbetweenthe seawaterandtheseaice spectral the the thebasisforthe and characteristiesof seaiceand seawater classification provide these datacanbe fromRemote an data imagesAs spectral provided Sensing important decisiontree Can theclassification miningtechnology,thealgorithmeffectivelycomplete taskandfindthecriticalfactorsthatwillaffecttheclassification processT liSPaper studiesthedecisiontreebasedremote seaicedetectionmethodsanda sensingimages iSbuiltThemainworkinthis isasfollows: seaicedetection system Paper Theremote Seaicedetectionistransformedintothe sensingimagesbased classificationoftheseawaterandtheseaiceBasedonthedecisiontree ofdata algorithm methodandits are thestatisticsofthebandsof miningthe processgivenThrough MODISremote bandsintheMODISassociatedwiththe sensingimagethekey image seawaterandtheseaicearefoundBasedonthistherelativebandsareusedtobuilda sea thentherules decisiontreeforseaicedetectionto the icedetectionrules,and acquire the the aleusedtodetecttheseaiceinthe ofBohaiwithresult LiaodongBay showing effectivenessofthismethod Basedonthe ofseaicedetectionmethodthedecisiontreebasedremote study seaicedetectionis and sensingimage syrstemdesignedimplementedThissyrstem informationextraction containsadata module,thedata module,the import preprocessing thedata module module,andoutput words:Remote IceDetection Key SensingImage;Classification;C45;Sea 目录 第一章绪论1 11选题背景和意义一l 12国内外研究现状一2 13本文组织结构3 第二章海冰检测技术和决策树分类技术概述4 21海冰检测技术概述4 22决策树分类算法4 221建立决策树5 222决策树的修剪5 23常见的决策树分类算法6 231CLS算法6 232ID3算法7 233 C45算法8 234 SLIQ算法9 235 SPRINT算法9 24本章小结lo 第三章基于决策树算法的遥感影像海冰检测方法1l 31遥感影像海冰检测流程11 32MODIS影像预处理12 33选取样本集12 34统计分析样本数据并整理训练样本集13 35构建决策树模型一14 36海冰检测15 37Landsat TM影像海冰检测结果16 38HJ影像海冰检测结果17 39本章小结l8 第四章海冰检测系统设计和实现19 41系统需求分析一19 42系统架构20 43系统功能2l 44运行环境及开发环境2l 45主界面设计与实现23 46获取数据相关模块的设计与实现25 461原始数据介绍25 462数据读取模块设计与实现26 47数据预处理相关模块的设计与实现28 471几何校正模块的设计与实现28 472去除蝴蝶结模块的设计与实现。29 473图像裁剪模块的设计与实现30 48信息提取相关模块的设计与实现32 49数据输出相关模块的设计与实现35 410本章小结35 第五章结论和展望36 51结论36 52展望36 参考文献37 攻读学位期间的研究成果39 致谢40 学位论文独创性声明41 学位论文知识产权权属声明4l 第一章绪论 第一章绪论 l-1选题背景和意义 渤海是我国最大的内海,有着丰富的渔业资源、油气资源和六十多个优良港口, 是我国北方经济比较发达的地区o每年冬季,渤海都会发生不同程度的海水结冰现 象,海冰冻结及海冰漂移对渤海海上航运,海上油气勘探及海洋养殖等有不同程度 的影响,甚至造成严重的灾害,给我国造成了无法估量的经济损失【l】。 中国近几十年来几次发生严重冰情,如1969年渤海的特大冰封,整个渤海几乎 完全封冻,造成航运中断、轮船损毁、石油平台倒塌,经济损失重大。20092010 年冬季,渤海及黄海北部发生了近30年来最严重冰情。在这次严重冰情期间,整个 渤海的51、辽东湾的93被海冰覆盖;莱州湾的海冰外缘线也达46海里,达到 40年来最大值。此次冰情给渤海沿岸水产养殖、渔业生产、交通运输、油气生产以 及海岛居民的生产生活等带来了巨大影响。据统计,本次海冰灾害,造成的辽宁沿 海地区直接、间接经济损失达到2312亿元;河北省沿海造成的直接和间接经济损 失高达306亿元;山东省受海冰灾害造成的直接经济损失也达到了279亿元。 20092010年严重冰灾引起了各方关注,国家海洋局加强了对海冰的监测,及时 发布预警报,指导和帮助有关方面防范和应对灾害工作,尽量减少海冰灾害对工农 业生产以及人们日常生活造成的影响。 随着全球变暖的影响,全球气候的不断恶化,极端气候越来越多,结冰期连续 生产作业将成为不可回避的现实。同时,随着渤海油气资源、环境资源和渔业资源 开发规模的不断扩大,即便是常冰年,海冰灾害造成的直接经济损失和间接经济损 失也会大大增加。因此,有必要发展高精度、快速的海冰灾害监测技术,实现对海 冰灾害实时或准实时的监视监测,为海冰灾害的应急处理和防灾减灾提供决策支持。 我国对海冰监测已有近半个世纪的历史,传统检测方法包括海洋站观测、沿岸 或冰区冰情调查、雷达测冰等。但是这些方法容易受到空间和时间的限制,特别是 在大范围空间信息提取、动态检测以及数据更新等方面无法满足现实工作的要求。 卫星遥感技术的应用为海冰监测提供了新的手段。卫星遥感具有大面积、同步观测 的特点,能够实现海冰灾害爆发范围的高精度、准实时监测。可用于海冰灾害监视 监测的在轨运行的卫星很多,如美国宇航局发射的Terra和Aqua卫星,每天过境一次; 美国NASA NationalAeronauticsand Space 5和Landsat 卫星是中国“环境与灾害监测预报小卫星星座”的光学卫星,采取“一箭双星”的 形式,由“长征二号丙”运载火箭发射两颗小卫星入轨。卫星入轨工作后,可获 取高时间分辨率、中等空间分辨率的对地观测数据,对中国大部分地区可实现 每天一次重复观测。这些卫星获取的数据不仅时间分辨率高,而且可以申请免 青岛大学硕士学位论文 费获取,为实现海冰灾害的业务化监测提供了充足的数据源。 海冰遥感监测的主要任务是利用遥感数据提供的海冰实时图像,反演海冰类型、 海冰面积、海冰最大外缘线、海冰密集度和海冰厚度等要素信息,为海冰预报部门 和海上交通管理部门提供服务。 12国内外研究现状 位研究。目前已经有不少卫星遥感探测海冰的相关研究方法,主要是以SAR SyntheticAperture Imaging 发,针对传统检测方法的局限性,阐述了卫星遥感技术在海冰灾害检测中的优势, 并提出一种海冰灾害风险等级划分方法,即利用遥感技术和地理信息系统制作经纬 度间隔为020的网格,把渤海区域分为329个区,提取得到海冰密集度,并选择最 大冰密集度、平均冰密集度、海冰厚度和冰期等作为灾害等级划分依据。韩素芹等 人【3】利用海冰在可见光、近红外和远红外通道的反射辐射等特性,提取了海冰分布 状况以及海冰外缘线特征,其研究表明利用MODIS遥感影像可以进行大范围的海 冰检测。吴奎桥【41,吴龙涛15】等人主要是利用MODIS遥感数据进行海冰参数反演, 提供海冰遥感图像和海冰密集度等数值产品,结果表明其各通道对海冰性质都有很 好的反映,相对于NOAAAVHRR有更好的应用价值。许占堂【6J等讨论了海冰反照 率与海冰双向反射分布函数之间的相关关系。Franz JMeyer等71以L波段的SAR 数据为基础,对干涉相位模式和干涉相干图像进行处理,提取了近地海冰的范围, 减少了人工干预,具有较强的健壮性和较高的准确性。Burcu OzsoyCicek等【8J人, 通过在别林斯高晋海的实地调查,验证了主动微波可以把边缘冰和浮冰分开 无论 MicrowaveRadiometer- 是一年冰还是多年冰 ,基于AMSR-E AdvancedScanning Earth ObservingSystem 数据的积雪深度可以区分浮冰区域里的一年冰和多年冰。 SungwookHong等【9】提出利用被动微波来反演小规模冰面的粗糙系数和海冰的折射 率,并通过粗糙系数提取出海冰。许多国家也开展了海冰卫星遥感研究试验。如美 国国家海冰中心、加拿大海冰管理中心,以及芬兰、瑞典、丹麦、挪威和俄罗斯等 国家的政府海冰检测管理中心。 事实上,海冰检测的本质就是将海冰和海水作为两个类别的分类问题,而数据 挖掘技术用于分类问题有其先天的优势能够发现潜在有用的、人们不知道的规则和 知识。到目前为止已经有很多研究人员采用数据挖掘技术解决分类问题,如李明诗 110】以ASTER遥感资料为数据源,针对8种主要地物类型训练数据集,分别采用最 大似然法、BP神经网络法和决策树分类算法进行分类,提取地物的空间分布信息, 通过对比发现,决策树分类性能最好;王常颖11,12】对基于数据挖掘的遥感影像海岸 2 第一章绪论 带分类方法进行了深入地探讨;韩涛【13】等利用数据挖掘的方法以单时相MODIS数 据为数据源,对森林植被的分类做了研究;陈小瑜【14】以福州市的城郊结合区为试验 区,研究了数据挖掘在城市用地分类上的应用。 本文借鉴以上这些研究人员开展地物分类技术的研究思维,采用决策树分类技 术,分别探讨了MODIS影像、Landsat 方法,并以渤海辽东湾区域为例,进行了海冰检测示范系统的研发。 13本文组织结构 本文的组织结构如下: 第1章,分析了本文的研究背景和意义,进行了国内外研究的动态分析,最后 介绍本文的组织结构。 第2章,对遥感影像海冰检测技术进行了简要介绍,介绍了决策树分类算法的 基本原理,包括生成树的过程,对树的修剪,规则的提取以及评价指标。 第3章,以辽东湾作为研究区域,对该研究区域的遥感影像进行预处理,选取 训练样本集,利用C45决策树算法对训练样本进行归纳学习,建立决策树,并转化 为等价的规则,最后用学习得到的规则对遥感影像进行推理,实现遥感影像的自动 分类。 第4章,介绍了海冰检测系统的设计与初步实现。 第5章,为总结部分。本章总结了全文和不足之处,并对今后的工作进行了展 望。 r。1。 第二章海冰检测技术和决策树分类技术概述 21海冰检测技术概述 常用的遥感影像信息提取分类的方法有两种方法:一个是目视提取,另一个是 计算机自动提取n51。目视提取即是通过观察图像特征,凭借先验知识将遥感影像中 的海冰范围估计出来。计算机自动提取处理,是利用计算机技术按照某一规则或者 标准将遥感影像中的每一个像元划分为若干类别中的一种。卫星遥感影像提供的灰 度、光谱、纹理等目标参数可以构成一个抽象的特征空间,在特征空间中可以更加 方便地将各个目标类别区分开。属于同一目标类别的像元的目标参数数值相近,因 此可以将属于同一类别的像元集中在特征空间内的一个较小的空间范围内,同时也 就将总的特征空间分割成了若干个不同子空间。这个过程其实就是一个分类过程。 分类过程需要提供一个训练集,根据数据集中的记录是否给定类别,可以将分类划 分成监督分类和非监督分类两种方法。非监督分类是一种无先验类别标准的分类方 法。对于待研究的对象和区域,没有已知类别或训练样本做标准,而是利用训练集 中数据本身的特点在特征空间中聚集成群,最后再核对这些数据群所代表的物体类 别。监督分类要求给定的训练数据集中的记录有给定的类别,是一种由已知样本外 推未知样本类别的方法。 本文采用的遥感影像海冰检测技术是一种有监督分类过程。该技术首先要求对 待研究地区有一定的了解 先验知识 ,从遥感影像中选择能够代表各个类别的样本 区域或者样本;然后对选出的样本集进行分析处理,提取出各个类别的数据特征, 并以此为依据建立合适的判别准则;接着利用这些判别准则逐个判定各个像元的类 别归属,最后输出分类结果。常见的有监督分类算法有决策树分类算法、贝叶斯分 类算法、神经网络分类算法等算法,其中决策树分类算法是一种应用广泛、研究较 为深入的分类算法。 22决策树分类算法 决策树分类算法是一种归纳学习算法【l61,该算法以实例为基础,从一组无次序 无规则的实例中推理出分类规则,进而构建分类器或建立预测模型,然后对类别未 知的数据进行分类。相对于其他分类方法,决策树算法有以下一些优点117J: 1、无需很多专业知识。使用者不需要具有很强的专业背景知识就可以使用该算 法进行归纳学习。 2、时间复杂度相对较低。与神经网络分类算法等其他的分类算法相比,决策树 分类算法所需的训练时间相对较少。 3、分类原理简单易懂,易于理解和接受。 4、结果易于理解。决策树的分类模型是树状结构,比较直观,符合人的理解方 4 第二章海冰检测技术和决策树分类技术概述 式。 5、规则易于转换。从决策树的根结点到叶子结点的一条路径就是一个分类规则, 很容易转换为IFTHEN的形式。 决策树分类算法分为两个阶段:建立决策树和对决策树进行剪枝。 221建立决策树 决策树算法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较 并根据不同的分裂判断标准决定是否从该结点向下分裂,以及如何分裂【18】。 Criterion 为分割标准,则决策树建立 假设结点为N,数据集为D,SC Split 的过程可描述如下: 1 Procedure BuildTree N,D,SC 2 Begin 3 初始化N; 4 If N可以再分 5 根据SC将N分为Nl,Nm,同时将D分割为Dl,Dm; 6 ForEach1im 7 BuildTree Ni,Di,SC : 8 EndFor 9 EndIf 10 End 11 EndBuildTree 由以上算法可以看出,分裂标准SC是决策树算法建树的关键。目前的决策树 算法所依据的分裂标准主要有两类:基于信息论和Gini系数。前者对应的经典算法 有ID3、C45等,后者对应的算法有CART、SLIQ、SPRINT。 另外,结点何时终止分裂也是一个需要特别考虑的问题【19】。一般有两种方式, 第一种方式是,当某一结点的分枝所覆盖的样本都属于同一类别的时候,则该结点 停止分裂,那么该结点的类别就是这些样本所属的类别;第二种方式是,如果该结 点所覆盖的样本的数目小于某一事先设定的阈值,则该结点停止分裂,该结点的类 别就取占多数的样本所属的类别。 222决策树的修剪 按照上一节的方法生成的决策树称为完全生长的树。在大数据量的情况下,完 全生长的决策树规模往往很庞大,每个属性都会被详细地加以考虑,即使是分类错 误的样本也会被当成是正确的样本来看待,再加上噪声数据和孤立数据的影响,容 易导致“过度拟合的问题。“过度拟合表现为,生成的决策树对于训练样本集 青岛大学硕士学位论文 具有很高的准确度,但是对于测试集的效果就没那么好了,会造成错分或者误分。 为了防止“过度拟合的发生,需要对完全生成树进行剪枝,也称为树的修剪或简 化。修剪方法通常是利用统计方法删去最不可靠的分枝,以达到提高分类的速度和 分类准确率的目的。总的来说,决策树的修剪可以分为预剪枝和后剪枝两大类。预 剪枝【20】就是在对训练集进行分类之前,按照某种标准提前停止树的生长。由于预剪 枝技术不必生成整棵决策树,实现相对简单,效率高,所以这种方法的应用还是很 广泛的。与预剪枝不同,后剪枝是在树完全生成后再对树进行剪枝【2。该方法最初 由Breiman等人提出,主要是通过不断的修改子树为叶结点,以达到剪枝的目的。 下面介绍几种常用的剪枝算法【22J: l、基于代价复杂度的修剪 CostComplexityPruning,CCP 。该算法是后剪枝 算法,由Breiman等人在著名的CART系统中使用。该算法中的代价被定义 为决策树错误分类的总和,复杂度则被定义为决策树的叶子结点数目。可以 通过一个参数来平衡代价和复杂度之间的关系。 2、悲观修剪 Pessimistic 出。其主要思想是借用二项式分布中的连续修正对训练集中的错分率进行修 正,以得到更加符合实际的错误率ll引。 3、最小描述长度 Minimum Description MMehta等人在1995年提出来的一种决策树剪枝算法。在该算法中,对决 策树进行二进位编码,编码所需二进位最少的树即为“最佳修剪树”。 Error 另外还有减少错误修剪法 Reduced Pruning,REP 、基于错误的修剪法 Error-Based Error Pruning,MEP 和 Pruning,EBP ,最少错误修剪法 Minimal Value 关键值修剪法 CriticalPruning,CVP 等等后修剪算法。 也有人认为,对一棵完全生成的树进行简化,过程繁琐,效率低,因此,可以 Pruning TDP 算法。 将预剪枝和后剪枝进行结合,如TopDown 23常见的决策树分类算法 下面介绍几种常见的决策树分类算法。 231CLS算法 Learning 966年提出,CLS CLS ConceptSystem 最早由HuntEB等人【23】于1 的主要思想是:从一棵空树出发,通过不断添加新结点来完善树,对新结点采用相 同的做法直到该树达到某一标准为止。可见CLS算法递归地调用自己,作用在每个 新的结点上,完成一棵树的构造。Hunt第一次在概念学习系统中利用决策树,CLS 也是后来的许多决策树算法的基础。 6 第二章海冰检测技术和决策树分类技术概述 232 ID3算法 ID3 Iterative 1979年提出。ID3的理论基础是信息理论,基 进算法的基础。ID3由Quinlant241ZE 本思想是自项而下地使用贪心算法递归地搜索训练样本集,在每个结点处测试每一 个属性,从而构建决策树。具体做法是:检测所有的属性,选择信息增益最大的属 性作为当前决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调 用该方法建立决策树结点的分枝,直到所有子集仅包含同一类别的数据为止,最后 得到一棵决策树,它可以对新的样本进行分类。 相关定义如下: 熵,即 z e 一 Pll092 炳 +P2 2- 1 l092 岛 +见l092 以 定义l-2若一个记录的集合丁按照类别属性被分成相互独立的类Cl,C2,G, 1l 则识别丁的一个元素所属类别所需信息量是iI面 丁 可 尸 ,其中P表示 Cl,C2oot9G 的概率分布,即 P IqIIrI,IC2lIT|,IGII丁I 2- 2 定义l-3若先根据非类别属性彳的值将丁分成集合五,乏9009乙,则确定丁中一个 元素类的信息量可通过确定Z的加权平均得到,即info T 的加权平均值为 L ZlI丁Iinfo Z 2- 3 info X,T I i l 定义l-4信息增益Gain X,r 定义为 Gain X,r info T -info X,r 2一 4 信息增益表示两个信息量之间的差值,其中一个信息量需要确定r的一个元素 的信息量,另一个信息量是在已得到属性X值后确定丁的一个元素的信息量,即信 息增益与属性X相关。 给定一个非类别属性马,恐,E的集合,类别属性C及训练集r之后,可以用 ID3算法构造一个决策树,过程如下: 1 ProcedureID3 R,C,T 2 输入:一个非类别属性集合尺,类别属性C,一个训练集丁 3 输出:一棵决策树 4 Begin 5 If T为空, 6 返回一个值为Failure的单个结点; 7 青岛大学硕士学位论文 7 EndIf 8 IfT的记录都属于同一类别 9 返回一个带有该值的单个结点; 10 EndIf 11 IfR为空 12 返回一个单结点,其值为在T的记录中找出的频率最高的类别属性 值; 13 EndIf 14 将R中具有最大Gain R。,T 的属性作为当前的测试属性,记为r,假设有 ol m个取值,分别为rl,吃909,将T分割为互不相交的互,乏,乙。 15 返回一棵树,根结点指向r,分枝指向,i,吃,。 16 For1f朋 17 ID3 R一 r ,C,I ; 18 EndFor 19 End ID3 20 EIld 233 C45算法 C45算法1251是在ID3算法的基础之上发展起来的一种经典决策树算法。C45算 法同样基于信息熵理论,C45算法除了拥有ID3算法的功能外,增加了如下功能: Gain 1 采用信息增益率 InformationRatio 作为结点分裂标准; 2 加入了对 连续型属性的处理; 3 可以处理缺少属性值的训练样本; 4 采用了剪枝技术; 5 使用了交叉验证方法; 6 产生规则。 信息增益率GainRatio反映了属性分裂数据的广度和均匀性。在C45算法中, 采用信息增益率替代信息增益作为选择测试属性的标准。理论和试验都证明,采用 最大信息增益率比采用最大信息增益效果更好,有效地克服ID3算法偏向于选择取 值较多的属性的不足。信息增益率定义为 2- 5 ,丁 GainRa肌器Splitlnfo X 上式中 2一 6 Splitlnfo X,T , 1互Ilrf,l互IITl,l乙IIrl C45算法较之于ID3算法的一大改进表现在对连续型属性的处理上。C45算法 对连续属性值的处理过程如下1261: 1 根据属性值进行预排序; 8 第二章海冰榆测技术和决策树分类技术概述 2 对数据集进行动态划分; 3 当输出值改变时确定一个阈值; 4 取两个实际值的平均值作为一个阈值; 5 取两个划分涵盖所有样本; 6 得到所有可能的阈值、信息增益以及信息增益率; 7 每一个属性就会变为两个取值,在阈值两侧。 可见C45算法对连续型属性值的处理是采用寻找最优阈值,即选择具有最高信 息增益率的阈值,然后以此阈值为分割点对该属性形成两个划分。 对缺失值的处理基本上可以分为两类:一类是直接将属性值缺失的记录丢弃, 该方法简单易行,但是丢弃记录的同时也丢弃了很多对决策分类有意义的数据,有 时候甚至得不偿失;另外就是对缺失值进行补充,补值的方法也有很多种,比如以 平均值,众数,中位数,或者该属性取值范围内的随机值对缺失值进行补充。C45 算法采取的策略是,先不关心含有缺失值的记录,只计算不含有缺失值的记录的信 息增益,然后根据含有缺失值的记录所占的比例对信息增益进行惩罚。 交叉验证 Cross 对训练集进行训练之前,保留一部分数据,等到训练结束之后利用这部分数据对学 习结果进行验证。由于采用了交叉验证,C45算法只需要一个训练集就可以了,不 需要专门的测试集。 一旦决策树被构造,则即可将其转换成IFTHEN的形式形成规则集合。 234 SLIQ算法 In SLIQl271是一种快速可扩展的分类算法,全称是SupervisedLearning Quest 提出。SLIQ采用了一些独特的技术在不降低精度的前提下减少了学习的时间可用于 处理大数据集的分类问题。SLIQ在构造决策树的过程中,采用了“预排序和“广 度优先的方法,不限制序列数据的数量及属性的数量,可以处理离散值和连续值。 SLIQ采用一种可以驻留于内存的类别表数据结构,通过一次排序而非重复排序来求 出最佳分割,但该数据结构的大小与输入记录数成正比,因此也就限制了SLIQ可 处理的记录的数目。 235 SPRINT算法 SPRINT ScalablePaRallelizableINductionofdecision 1996年提出,这是一种可扩展的、可并行的归纳决策树。它兼顾并行处理,允许多 个处理器相互合作而最后生成一致的模型,具有很好的可扩展性。与SLIQ不同的 9 士学位论文 是“深度优先”的策略来生成决策树,而 非SLIQ的“广度优先”。 24本章小结
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!