资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,科学数据挖掘应用系统的研究与初步设计,周园春,2006年9月3日,目 录,背景,数据挖掘系统的发展现状,科学数据挖掘应用系统,科学数据库,中国科学院作为中国自然科学的研究中心,在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量具有重要科学价值和实用意义的科学数据和资料,科学数据的用途,科研人员研究的成果和积累,支持他们做更为复杂的创新研究不可替代的资源,科学数据库,始建于1983年,45个研究所,,几百个专业数据库,几十几百TB的数据量,数据库的内容覆盖了化学、生物、天文、材料、高能物理、光学机械、自然资源、生态、遥感、大气等数据,科学数据库系统平台,各领域的专业人员可能还开发了各种不同的专业数据库数学模型和专家系统,形成了不同专业的专业咨询系统、科研过程和生产过程模拟系统,缺点:独立的、分散的,学科的交叉融合、新型交叉学科的出现和跨学科领域的大型科学问题的研究:共享和集成,运用先进信息技术来支撑科学数据库的发展和应用的软硬件综合平台,其总体目标是:硬件上满足科学数据库的需求的存储、计算、通信和服务能力;软件上实现对科学数据库中大规模、分布式、异构的海量数据进行整合,实现科学数据资源的共享,存在的问题,只是对数据的共享和协同,还没有对数据进行深加工或者分析,随着科学数据库中数据的不断积累,数据的加工处理,从数据中获取有用的知识,充分挖掘数据资源的价值,变得越来越重要,数据量大而且复杂,完全人工去分析或者查看是不现实也是不可能的,科学数据库中开发数据挖掘应用的问题,首先,数据挖掘过程往往与数据挖掘模型、具体挖掘算法紧密关联,这就带来了技术上和应用推广上的困难,其次,数据挖掘与具体应用结合,就会导致应用范围窄,灵活性差,增加数据挖掘应用开发的难度,能否建立一个,科学数据挖掘应用系统?,目 录,背景,数据挖掘系统的发展现状,科学数据挖掘应用系统,什么是数据挖掘?,数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程,数据挖掘的过程,数据挖掘到数据挖掘系统,研究重点的转移,从发现方法到系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。,理论和应用的结合,数据挖掘是面向应用的多学科交叉领域,应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁,对数据挖掘技术的推广起到很大的作用,数据挖掘系统,数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学 。,数据挖掘系统,如何将现有的算法集中在一个统一的框架下,并且与特定的领域相结合,构造出能被各种层次的用户所接受的数据挖掘应用系统,是数据挖掘系统研究需要迫切解决的问题之一,分类:,横向的数据挖掘工具,纵向的数据挖掘工具,横向的数据挖掘工具,数据挖掘软件需要和以下三个方面紧密结合,数据库和数据仓库,多种类型的数据挖掘算法,数据清洗、转换等预处理工作,“工具集”的数据挖掘软件(1995年),对各个领域提供多种数据挖掘算法,包括数据的转换和可视化,并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具 。,典型的系统有IBM的Intelligent Miner、SAS Enterprise Miner、SPSS Clmentine、SGI的MineSet、Oracle Darwin等,缺点,只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,纵向的数据挖掘工具,1999年开始就出现纵向的数据挖掘解决方案,即基于工具集,针对特定的应用提供完整的数据挖掘方案,典型应用,KDI(主要用于零售业)、Options&Choice(主要用于保险业)、HNC(欺诈行为侦测)和Unica Model(主要用于市场),特点,很强的针对性,能够满足特定的应用需求,用户能专注于具体的应用问题,对具体算法无须了解。,缺点,应用范围是纵向的,过于狭窄,灵活性不够。比如为某个银行定制的信用卡数据挖掘方案可能不适合其他银行。,数据挖掘系统,纵向的还是横向的数据挖据应用系统,都很少考虑到科学数据挖掘,大多都是应用于商业、金融等领域,目 录,背景,数据挖掘系统的发展现状,科学数据挖掘应用系统,科学数据挖掘应用系统的目标,希望在“十五”的基础上形成的大规模的科学数据资源上,结合现有的元数据定义的规范,为各个建库单位提供统一的、良好可扩展性和灵活性的科学数据挖掘平台,各建库单位根据自身数据的特征来定制领域模型,平台根据这些业务模型来实现对科学数据进行分析和挖掘,最后以可视化的形式把结果呈现给科研人员和科研管理人员,使得科研人员能够从数据的背后进行更加深入科研的活动,同时也为科研管理人员提供决策的资料来源,科学数据挖掘应用系统的目标,使科学家可以从桌面电脑上访问大量的数据和计算资源,符合e-Science的首要的挑战,从数据的“雪崩”中有效地抽取、集成、探测、分析和表达知识使得科学家能够利用数据的潜能,引发的不同领域的需求,数据资源集成到一起的计算基础设施软件工程师,数据挖掘算法计算机科学家,定义元数据标准和提出挖掘的目标 各个领域的专家,科学数据挖掘系统的设计目标,从多种数据存贮资源中抽取数据,以及跨数据源的集成功能;,管理和维护数据库和数据仓库,包括数据存储的优化及数据的增量维护;,支持多种数据访问接口,包括ODBC、JDBC、OLE DB、Web Service等;,集成多种数据挖掘算法,通过灵活的科学数据挖掘网格服务的方式,提供处理各种数据挖掘任务的功能;并提供开放的接口,提供扩展用户自定义算法的功能。,提供多种可视化方法显示各种数据和数据挖掘结果的功能。,科学数据挖掘系统的体系结构,各层主要功能,数据选择层,数据选择层的功能是把预处理后的数据表示成多维模型的形式,简单的查询,比如SQL语言的条件选择或分组操作;基于联机分析处理的数据立方体模型;无监督的数据分割技术,比如聚类,数据挖掘层:,从数据选择层获取数据,执行数据挖掘任务,产生数据挖掘模型。,算法参数和算法执行,数据和模式表示层,多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化。,科学数据挖掘应用系统的系统框架,科学数据挖掘系统的具体流程,1)利用通用数据预处理工具对需要挖掘的数据进行预处理;,2)基于系统领域模型,进行简单定制或进一步开发,完成领域模型的定制;,3)执行数据挖掘,并将挖掘结果进行可视化显示;,4)评价挖掘结果,如果有必要,可重复2)、3)步,重新定制领域模型参数,进行再次挖掘。,科学数据的预处理,科学数据的预处理就是按照科学数据的规律把各种形式的科学数据(关系数据库/XML/空间格式数据等)经过一定的处理转化成数据挖掘的标准化形式,科学数据的预处理,异常数据,空缺数据,冗余或者重复数据,格式标准化,数据归约/压缩,领域模型库,各建库单位都有一些各自典型的数学模型或者业务逻辑,把这些数学模型或者业务逻辑综合起来组成一个领域模型库,作为科研人员定制领域模型的来源,它是一个开放的库,随时可以补充新领域模型,需要各个领域的专家参与,数据挖掘算法库,科学数据挖掘应用系统的核心,主要包含一些具体的数据挖掘算法,如关联规则、序列模式发现、决策树、聚类、神经元网络、异常检测等,而且还可以增加开发人员针对不同应用改进的一些挖掘算法,目的是供领域模型所调用,数据挖掘算法库,数据挖掘模块,该模块主要包括挖掘算法的选择和具体的数据挖掘过程,挖掘算法的选择:现有很多数据挖掘系统都是需要用户自己选择挖掘算法,在该系统中,挖掘算法的选择是根据科研人员选择的领域模型和预处理后的数据来自动选择挖掘算法,数据挖掘:利用选择好的算法对预处理后的科学数据进行分析和挖掘,并产生结果信息,科学数据挖掘信息的可视化,科学数据挖掘信息的可视化技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质以及规律性起到很强的作用,目的是让用户能够交互浏览数据、挖掘过程等,数据挖掘结果的可视化,将数据挖掘后得到的知识和结果用可视化的形式表示出来,比如二维的(圆、表格、树等)或者三维的(立方体等),数据挖掘过程的可视化,用可视化的形式描述挖掘过程,从中用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎样预处理,怎样挖掘等,科学数据挖掘系统的具体应用,它是科学数据挖掘系统应用的具体实施层,它根据挖掘后的信息和各个建库单位提供的相关背景知识,能够对下一步的科研活动和决策咨询提供一些参考性的建议。比如说根据对黄河流水的水土流失数据的挖掘,能够为这一地区的植树的密度提供一些数据上的参考等,科学数据挖掘系统的具体应用,“黄河流域水文泥沙数据库”和“黄土高原地区数据库”,黄河流域水文泥沙数据库数据库介绍,来源:黄河流域水文泥沙监测站,数据的时间范围:50年代初80年代末,数据的空间范围:黄河流域的主要水文观测站,数据项目:逐日流量(133个站的资料)、逐日泥沙含量(128个站的资料)、逐日降雨量(177个站的资料)、逐日蒸发量(70个站的资料)、逐月河流悬移质颗粒级配(70个站的资料)。,科学数据挖掘系统的具体应用,黄土高原地区数据库介绍,来源:国家气象局,时间范围:1950年2000年,数据的空间范围:黄土高原地区/黄河流域9个省市自治区以县气象站为单元的气候数据,数据项目:气压、气温(平均、最高、最低)、相对湿度、风速、降水量、蒸发量、日照时数、0厘米地温和辐射(总、净、直)的日值资料以及分层地温的月值资料。,科学数据挖掘系统的具体应用,统计功能,关于时间的统计,计算某一时间,不同观测站观测值的算术平均值、最大值、最小值,计算一个时间段内,不同观测站观测值的算术平均值、最大值、最小值,关于地点的统计,按照流域界限划分,既计算某流域界限之内各观测站观测值的算术平均值、最大值、最小值,按照行政界限划分,既计算某行政界限之内各观测站观测值的算术平均值、最大值、最小值,按照生态类型区界限划分,既计算某生态类型区界限之内各观测站观测值的算术平均值、最大值、最小值,科学数据挖掘系统的具体应用,数据挖掘功能,利用关联规则发现算法发现属性之间的关系,例如黄土高原地区气候数据库中各种气候属性之间的关系,利用聚类算法在黄河流域水文泥沙数据库中发现水文特征相似的观测站的集合,在黄土高原地区气候数据库中发现气候特征相似的观测站的集合,利用序列模式发现算法发现属性值的变化规律,利用预测算法预测水文特征和气候特征演变的规律和发展的趋势,黄河流域的水土流失的防治(需要相关的背景知识),水文参数和气候特征的分析预测,谢谢!,请提出宝贵的建议和意见,
展开阅读全文