数据库第12章数据库技术新进展.ppt

资源描述

2020/8/27,兰彬制作,1,数据库技术新进展,面向对象数据库系统分布式数据库系统并行数据库系统空间数据库多媒体数据库系统,随着计算机应用领域的不断拓展，数据库的应用越来越广泛，数据库技术的研究取得了重大突破。各种学科技术与数据库技术有机结合，使数据库领域中新内容、新应用、新技术层出不穷，形成了各种新型的数据库系统。,工程数据库知识数据库系统科学数据库模糊数据库系统,2020/8/27,兰彬制作,2,数据库技术新进展,2020/8/27,兰彬制作,3,面向对象数据库系统,面向对象思想将现实世界中的任何事物均视为“对象”，将客观世界看成是由许多不同种类的对象构成的，不同对象之间的相互联系和相互作用就构成了完整的客观世界。面向对象方法引入了对象、方法、消息、类、实例、继承性、封装性等一系列重要概念。如今，面向对象的技术逐步扩展，逐渐成为程序设计、系统设计的主要方法。面向对象与数据库结合形成了面向对象数据库系统（Object-Oriented Database System，OODBS），它采用面向对象的数据模型，使用面向对象的基本概念，引进类、继承性与封装性等特性。,OODBS=“面向对象系统+数据库”,2020/8/27,兰彬制作,4,面向对象数据库系统满足的标准, 首先是一个数据库系统，具有数据库管理的基本功能，如事务管理、存储管理、永久性、交互式查询、完整性、安全性、并发处理、故障恢复等。其次是一个面向对象的系统，充分支持面向对象的概念和机制。支持面向对象数据模型（Object Oriented数据模型，OO数据模型），具有运用各种构造机制从简单对象组成复杂对象的能力，具有对象标识，具有封装性，具备类和类层次，并且支持继承性这一强有力的建模工具，具有扩充性。,2020/8/27,兰彬制作,5,面向对象数据模型,面向对象数据库支持的数据模型是面向对象数据模型（OO数据模型）。面向对象数据模型是用面向对象的观点来描述对象的逻辑组织、关系等。 OO数据模型的核心概念是对象。对象封装了属性和方法。具有相同属性和方法的所有对象形成类，对象是类的实例。类之间存在继承、泛化、组成等关系。面向对象数据库（OODB）使用面向对象数据库语言（OODB语言）。OODB语言用于描述面向对象数据库模式，包括对象定义语言（ODL）和对象操作语言（OML）。其中ODL用于定义、生成、修改、删除类；OML用于生成、存储、查询、修改、删除类的实例（即对象）。,2020/8/27,兰彬制作,6,面向对象数据库的优点,面向对象数据库很好地克服了传统数据库系统的缺点。它既支持面向对象意义下的对象的创建和管理，又具有传统数据库系统数据管理的便利，尤其适合于需要管理复杂数据和计算繁多的工程类应用。面向对象数据库作为第三代数据库，具有前两代数据库无法比拟的优点，是新型数据库（如工程数据库、多媒体数据库、空间数据库、演绎数据库）实现的基础。,2020/8/27,兰彬制作,7,面向对象数据库的发展,以面向对象的程序设计语言为基础，增加数据库的功能，支持面向对象模型，支持持久对象和实现数据共享。以关系型数据库和SQL为基础扩展关系模型，增加面向对象的特性，把面向对象技术与关系数据库相结合，建立对象关系数据库管理系统（ORDBMS），这种系统既支持已经被广泛使用的SQL，具有良好的通用性，又具有面向对象特性，支持复杂对象和复杂对象的复杂行为，是面向对象技术和传统关系数据库技术的最佳融合。,不少的数据库产品都支持对象模型，这些数据库的体系结构大体可以分为三类。,2020/8/27,兰彬制作,8,面向对象数据库的发展,建立新的面向对象数据库系统，支持面向对象模式。利用类来描述复杂对象，用类中封装的方法来模拟对象的复杂行为，通过继承性来实现对象的结构和方法的重用。,不少的数据库产品都支持对象模型，这些数据库的体系结构大体可以分为三类。,目前，面向对象数据库还缺乏坚实的形式化理论的支持，没有一个切实可行的标准，缺乏数据库的许多功能，以至产品之间的兼容性和可移植性比较差，同时面向对象数据库也不能与关系数据库很好地兼容，所有这些都制约了它的发展与应用，因此需要制定一个统一的标准并加以约束。,2020/8/27,兰彬制作,9,分布式数据库系统,随着计算机网络技术的飞速发展和应用范围的扩充，数据库系统也需要满足网络应用的要求，集中式数据库系统越来越表现出以下不足。数据需要在网络上分布存储，采用集中式处理，造成通信开销大。如果数据和应用程序集中在一台计算机上运行，一旦该计算机发生故障，则整个系统受到影响，可靠性不高。集中式处理导致系统的规模和配置都不够灵活，系统的可扩充性差。,2020/8/27,兰彬制作,10,分布式数据库管理系统,分布式数据库是由一组数据组成的，这些数据分布在计算机网络的不同结点（亦称场地）上，逻辑上是属于同一系统的。物理上分散而逻辑上集中的数据库系统称为分布式数据库系统（Distributed DataBase System，DDBS）。分布式数据库的特点: 分布性。数据库的数据存储在不同结点。逻辑完整性。每个结点是独立的数据库系统，具有独立处理能力，可以执行局部应用，具有高度的自治。同时结点之间又相互协作组成一个整体，对于用户来说，数据存储的分布是透明的，逻辑上如同一个集中式数据库系统，用户可以在任何一个结点执行全局应用。分布式数据库具有数据的分布性和逻辑的自治性与完整性，其中逻辑完整性是非常重要的，不支持全局应用的数据库不能称之为分布式数据库。,2020/8/27,兰彬制作,11,分布式数据库的类型, 同构同质型DDBS：各个场地都采用同一类型的数据模型（譬如都是关系型），并且是同一型号的DBMS。同构异质型DDBS：各个场地采用同一类型的数据模型，但是DBMS的型号不同，譬如DB2、Oracle、Sybase、SQL Server等。异构型DDBS：各个场地的数据模型的型号不同，甚至类型也不同。,2020/8/27,兰彬制作,12,分布式数据库系统的特点,物理分布性与逻辑整体性。数据独立性。集中与自治相结合的控制结构。适当增加数据冗余度。全局的一致性、可串行性和可恢复性。,2020/8/27,兰彬制作,13,分布式数据库系统的优点,局部响应速度快。系统可靠性高，降低风险。数据分散存储后，通过适当的冗余度可以提供较好的可靠性，避免了因为某个结点的故障而造成全部瘫痪的后果。易于集成现有的系统，经济性能好。具有灵活的体系结构，可扩展性好。分布式数据库系统非常容易扩展，在分布式数据库中增加一个新的结点，不影响现有系统的正常运行。,2020/8/27,兰彬制作,14,并行数据库系统,并行数据库系统是并行技术与数据库技术结合的产物，是在并行机上运行的具有并行处理能力的数据库系统，是新一代高性能的数据库系统，具有数据库操作的时间并行性和空间并行性。,2020/8/27,兰彬制作,15,并行数据库系统的特点,高性能并行数据库系统将数据库管理技术与并行处理技术有机结合，通过不同查询的并行执行、同一查询内的子操作并行执行、其他子操作并行执行等方式建立并行执行计划和优化查询，提高了并行数据库的查询效率。另外通过在多个磁盘上分布存储，利用多个处理机对磁盘数据进行并行处理，从而解决了磁盘“I/O”的瓶颈问题。高可用性与可靠性通过数据复制，提高了并行数据库系统数据库的可用性与可靠性。当一个磁盘损坏时，该盘上的数据在其他磁盘上的副本仍可供使用，且无需额外的开销。另外数据复制与数据划分技术相结合，可以保证当磁盘损坏时系统仍能并行访问数据。可扩充性通过增加处理和存储能力，并行数据库系统具有良好的可扩充能力。,2020/8/27,兰彬制作,16,并行数据库研究的问题,并行体系结构。为了更好地将并行计算机与数据库结合，需要研究与并行计算机结构相一致的并行数据库的体系结构及有关实现技术。并行操作算法。为提高并行查询的效率，需要研究连接、聚合统计等数据操作的并行算法。并行查询优化。对并型操作的步骤进行优化组合，以进一步提高系统执行效率。并行数据库的物理设计。包括数据分布算法的研究和数据库设计工具的研究等。并行数据库的数据加载和再组织技术。,2020/8/27,兰彬制作,17,并行数据库系统的体系结构,共享主存储器结构（Shared Memory，SM）由多个处理机、一个共享内存（主存储器）和多个磁盘存储器构成。多处理机和共享内存由高速通信网络连接，每个处理机可直接存取一个或多个磁盘，即所有内存与磁盘为所有处理机共享。SM的优点是实现简单、负载均衡。共享磁盘结构（Shared Disk，SD）多个有独立主存的处理机通过高速通信网络连接磁盘存储器。每个处理机可直接存取任意磁盘存储器。SD成本低、可扩充性好、可用性强、负载均衡、容易从单处理机系统迁移。但是实现起来较复杂。无共享资源结构（Shared Nothing，SN）多个有独立主存和磁盘存储器的处理机通过高速通信网络互连。集群计算环境实际上是一种典型的SN结构。SN结构成本较低；共享资源最小化减少了由资源竞争带来的系统干扰，任意增加处理机而不会增加机间干扰，可伸缩性好；查询过程的网络通信量最小。但是实现复杂、结点负荷难以均衡。,2020/8/27,兰彬制作,18,空间数据库 (1),空间性为了描述现实世界中的地物和地貌特征，每个空间对象都具有空间坐标，描述了空间物体的位置、形态、空间拓扑关系。空间性是空间数据区别于其他数据的标志特征。抽象性空间数据描述的是现实世界中复杂的地物和地貌特征，必须经过抽象处理。不同主题的空间数据库，人们所关心的内容也有差别。多尺度与多态性不同的观察尺度具有不同的比例尺和不同的精度，同一地物在不同的情况下就会有形态差异。,2020/8/27,兰彬制作,19,空间数据库(2),多时空性空间数据具有很强的时空特性，既有同一时间不同空间的数据系列，也有同一空间不同时间序列的数据。空间数据是包括不同时空和不同尺度数据源的集成。非结构化空间对象没有固定的数据结构，属于非结构化数据。多样性空间数据表示的地物不仅具有空间信息，而且具有很多的非空间的附属信息。如城市的人口，国民生产总值等，这些构成了地理元素的属性信息。,2020/8/27,兰彬制作,20,空间数据库模型(1),混合结构模型（Hybrid Model）用两个子系统分别存储和检索空间数据与属性数据，其中属性数据存储在常规的RDBMS中，几何数据存储在空间数据管理系统中，两个子系统之间使用标识符联系。在检索目标时必须同时询问两个子系统，然后将它们的回答结合起来。扩展结构模型（Extended Model）采用同一DBMS存储空间数据和属性数据。在标准的关系数据库上增加空间数据管理层，即利用该层将地理结构查询语言（GeoSQL）转化成标准的SQL查询，借助索引数据的辅助关系实施空间索引操作。这种模型的优点是省去了空间数据库和属性数据库之间的繁琐连接，空间数据存取速度较快，但查询过程复杂。,2020/8/27,兰彬制作,21,空间数据库模型(2),统一模数据型（Integrated Model）在开放型DBMS基础上扩充空间数据表达功能。空间扩展完全包含在DBMS中，用户可以使用自己的基本抽象数据类型（ADT）来扩充DBMS。在核心DBMS中进行数据类型的直接操作很方便、有效，并且用户还可以开发自己的空间存取算法。该模型的缺点是，用户必须在DBMS环境中实施自己的数据类型，对有些应用将相当复杂。,2020/8/27,兰彬制作,22,多媒体数据库系统,多媒体数据库系统是多媒体技术与数据库技术的结合，它研究的对象已从传统的单一的字符类型的信息媒体发展为包括图形、图像、声音和字符的多种类型的信息媒体。多媒体数据库系统需要采用多媒体数据模型反映和管理各种媒体数据的特性，或各种媒体数据之间的空间或时间的关联。多媒体数据库允许对多媒体数据存储、加工、处理，例如能实现媒体的混合、媒体的扩充、媒体的互换等操作。,2020/8/27,兰彬制作,23,多媒体数据库系统,多媒体数据库系统应提供比传统数据库管理系统更强的适合非格式化数据查询的搜索功能，允许对非格式化数据做整体和部分搜索，允许通过范围、知识和其他描述符的确定值和模糊值搜索各种媒体数据，允许同时搜索多个数据库中的数据，允许通过对非格式化数据的分析建立图示等索引来搜索数据，允许通过举例查询（QuerybyExample）和通过主题描述查询使复杂查询简单化。多媒体数据库系统，目前仍然还是处于研究、发展阶段，目前还没有成熟的多媒体数据库管理系统推出。,2020/8/27,兰彬制作,24,工程数据库,工程数据库能存储和管理各种工程设计图形、工程设计文档等工程设计制造领域相关的数据，能为工程设计提供各种服务的数据库，主要用于CAD/CAM、CIM、CASE等工程应用领域。能描述复杂的数据模型。支持模式的动态定义和修改，不需重新编译和数据重载。支持工程长事务的处理。能存储和管理各种类型数据，支持图形标准件的相互转化，具有多库协调管理能力。具有版本管理功能。支持程序控制和交互操作两种工作方式。具有分布式数据库处理能力，支持多用户工作环境。,2020/8/27,兰彬制作,25,知识数据库系统,知识数据库系统把由大量的事实、规则、概念组成的知识存储起来，进行管理，并为用户提供方便快速的检索、查询手段。知识数据库系统应具备以下功能。具有多种知识表示方法。系统化组织管理知识。知识库的操作，可以进行知识库的查询与检索。能进行知识的获取与学习。具有便捷的知识编辑功能。,2020/8/27,兰彬制作,26,科学数据库,科学数据库是将数据库应用到科学技术数据处理领域。在科学数据库中存放的是专业科技人员在基础研究、应用研究、科学实验及新技术研究与开发等各项活动中产生并积累的数据。,2020/8/27,兰彬制作,27,模糊数据库系统,把不完全性、不确定性、模糊性引入数据库系统中，形成模糊数据库。模糊数据库能够存储模糊数据，而且数据结构、数据联系也是模糊的，数据上的运算和操作、对数据的约束（包括完整性和安全性）、数据的一致性、无冗余性的定义等都是模糊的。模糊数据库的研究方面如何在数据库中存放模糊数据定义各种运算，建立模糊数据上的函数,2020/8/27,兰彬制作,28,数据挖掘与数据仓库技术,数据挖掘数据仓库与 OLAP 数据仓库的设计与实施 SQL Server 2000 Analysis Services 使用Analysis Services创建数据挖掘模型开发 OLAP 应用,传统的数据库技术主要用于联机事务处理（Online Transaction Process，OLTP），数据库里保存着大量的日常业务数据和事务数据。由于数据量庞大以及数据库系统中分析方法的严重缺乏，人们很难通过传统的方法发现数据中隐藏的相互联系，更无法根据当前的数据去预测未来的发展趋势。,2020/8/27,兰彬制作,29,数据挖掘（Data Mining，DM）是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但是潜在有用的信息和知识的过程。在不同的信息存储形式上，采用不同的挖掘方法，可以获得不同类型的知识。挖掘的数据源可以是关系型数据库、数据仓库、各种新型数据库甚至包括Web资源通过采用神经网络、决策树、遗传算法等不同方法. 可以挖掘出关联知识、预测知识、分类等知识。,数据挖掘,2020/8/27,兰彬制作,30,数据挖掘的主要步骤,2020/8/27,兰彬制作,31,数据挖掘的主要步骤(1),1数据收集数据可以来自于关系型数据库、数据仓库、Web上非结构化的文件，不同的数据存储，需要不同的数据收集方式。 2数据整理数据收集阶段得到的数据存在一定的“污染”（例如，自身不一致性、存在缺失数据），必须对数据进行一定的整理。通过数据整理，可以对数据做简单的泛化处理，从而在原始数据的基础之上得到更为丰富的数据信息，进而便于下一步数据挖掘的顺利进行。数据清洗一致性处理数据泛化添加缺失数据,2020/8/27,兰彬制作,32,数据挖掘的主要步骤(2),3数据挖掘根据任务要求，选择合适的挖掘方式，产生感兴趣的知识。不同的知识类型所选取的挖掘方法也不同。 4数据挖掘结果的评估根据用户经验，也可以直接用实际数据来验证模型的正确性，进而调整挖掘模型，不断重复进行数据挖掘。 5分析决策决策者可以利用数据挖掘的结果，结合实际情况，调整竞争策略等。,以上数据挖掘经过的各个环节并不是单一流程，只有经过多次的循环反复，才可能达到满意的结果。,2020/8/27,兰彬制作,33,不同存储形式的数据挖掘,1关系型数据库中的数据挖掘。 2数据仓库中的数据挖掘 3面向应用的新型数据源中的数据挖掘 4Web数据源中的数据挖掘,2020/8/27,兰彬制作,34,数据仓库与OLAP,数据仓库是一种为信息分析提供良好基础并支持管理决策活动的分析环境，是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。数据仓库技术让用户能更快、更方便地查询所需要的信息，以便进行决策支持。 OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。,2020/8/27,兰彬制作,35,关系型数据库与数据仓库中的区别,2020/8/27,兰彬制作,36,数据仓库基本术语(1),主题主题是一个较高层次上的数据归类，是将企业信息系统中的数据进行综合、归类并进行分析利用的抽象。它对应企业某一宏观分析领域所涉及的分析对象，每一个主题都是决策者所关心的问题。粒度（Granularity）粒度是指数据仓库中数据单元的详细程度和级别，数据越详细，粒度越小，级别就越低；数据综合度越高，粒度越大，级别就越高。,2020/8/27,兰彬制作,37,数据仓库基本术语(2),维度（Dimension）维度是指人们观察事物的角度。例如，关心产品在不同时间的销售变化情况，时间就是一个维，如果关心产品在不同地区的销售情况，地区就是另外一个维。维是有层次结构的，如描述时间维可以从日期、周、月份、季度、年等不同层次来描述，这里日期、周、月份、季度、年等就是时间维的层次。数据立方体（Cube）数据立方体是指由两个或更多维来描述的数据。数据仓库是多维的，通常数据立方体也不仅仅包含三维，大多数会包含三维以上的维度，这样的数据集称为数据立方体,2020/8/27,兰彬制作,38,OLAP的基本功能,旋转（Pivot）钻取（Drill through）切片和切块（Slice or Dice）。,2020/8/27,兰彬制作,39,OLAP的存储结构,OLAP在物理上分为3种存储结构基于多维数据库的OLAP存储结构（MOLAP）基于关系数据库的OLAP存储结构（ROLAP）混合型的OLAP存储结构（HOLAP）,2020/8/27,兰彬制作,40,OLAP的存储结构,MOLAP是指OLAP数据存储在多维数据库中，使用专用的多维结构存储分区的事实和聚合某个维度。在MOLAP中，所有的聚合都预先计算好，并以文件结构保存。 MOLAP模型导致大量数据负载。有很快的查询反应速度。可以利用多维查询语言（MDX)方便进行多维数据集的查询。 ROLAP是使用关系数据库中的表存储多维结构的存储模式。数据保存在RDBMS中，聚合仅在需要时才计算出来. 这种方法反应虽然较慢，但是最灵活。 HOLAP是MOLAP和ROLAP的结合。这种模型中，一部分聚合是预先计算的，而另一部分则是从保存在DBMS中的数据中计算出来的。这种模型对于大多数常用查询有最快的反应速度，因为它们的聚合是预先算好的，而它又为切分数据保存了所有基本数据。,2020/8/27,兰彬制作,41,数据仓库的设计与实施,数据仓库的设计需要：确定主题确定粒度建立维度确定数据装载策略设计数据存取工具和不间断的维护方案。,2020/8/27,兰彬制作,42,创建数据仓库,建立数据库和数据源建立维度建立多维数据集浏览多维数据集,2020/8/27,兰彬制作,43,使用Analysis Services创建数据挖掘模型,决策树决策树算法是基于分类概念的，以树的结构显示分类形式，树结构中的结点代表进一步对数据进行分类的单个问题。决策树算法可以构造树，并进行预测。聚集聚集是按特定的标准将数据归类成组，它使用迭代完善技术将记录分组到附近区域（聚集），以展示相似性，预测具有的特征。,

展开阅读全文

数据库第12章数据库技术新进展.ppt

最新文档