哈工大数据库课件第七讲数据库系统体系结构

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,教学目的,本章在一个更高的层次上认识数据库系统，首先简要介绍一下数据库的存储结构，然后从传统的集中式系统开始，依次讨论客户,-,服务器系统、并行数据库系统和分布式数据库系统，使学生了解如何根据不同的计算环境搭建与之相适应的数据库系统。,主要内容,数据存储，数据库系统体系结构概述，集中式数据库系统，数据库系统，并行数据库系统，分布式数据库系统,教学方法,课堂讲授为主,重点,集中式数据库系统、数据库系统、并行数据库系统、分布式数据库系统的概念及特点，分布式查询处理,难点,分布式查询处理,第七章数据库系统体系结构,1,第七章数据库系统体系结构,内容出处：,1.Abraham Silberschatz,数据库系统概念,第十一章,1-3,节，第十八章，第十九章,2,，,7,节,2,物理存储介质,特性,数据存取速度,每单位数据的成本,可靠性,电源故障或系统崩溃时的数据丢失,介质故障,介质分类,易失介质（,volatile storage）,电源关时数据丢失,非易失介质（,non-volatile storage）,电源关时数据持久保留，包括二级和三级存储,3,物理存储介质,高速缓冲存储器,（,Cache,）,最快最昂贵的存储介质，一般由操作系统来管理,主存储器,（,Main memory,）,用于存放可被处理的数据的存储介质,快速访问，但一般不能存放整个数据库,如果发生电源故障或系统崩溃，主存储器中的数据会丢失,快闪存储器,（,Flash memory,）,EEPROM,：,电可擦可编程只读存储器,电源故障时数据会保存,读速度：0.1,s;,写速度：10,s,4,物理存储介质,磁盘存储器,（,Magnetic-disk storage,）,用于长期联机数据存储,一般存放整个数据库,数据必须从磁盘移入主存才能访问,直接存取,（,direct-access,）,按任意顺序存取数据,如果发生电源故障或系统崩溃，数据不会丢失,光盘存储,（,Optical storage,）,CD-ROM：,只读，提供预先记录的数据,WORM：,一次写，多次读，用于数据归档,5,物理存储介质,磁带存储,（,Tape storage,）,用于数据的备份和归档,顺序访问（,sequential-access）,速度慢,容量大,价格低,6,存储层次,基本存储,辅助存储,三级存储,易失性存储,非易失,性存储,7,存储层次,基本存储,（,primary storage）,快速但易失,cache, main memory,辅助存储,（,secondary storage）,非易失，相对快速,联机存储（,on-line storage）,flash memory, magnetic disks,三级存储,（,tertiary storage）,非易失，速度慢相对快速,脱机存储（,off-line storage）,magnetic tape, optical storage,8,磁盘结构,9,磁盘性能估计,访问时间,从发出请求到数据开始传输之间的时间,寻道时间,（,Seek time）,磁盘臂定位时间，即磁盘臂移动到正确的磁道所需时间,与移动距离成正比，平均寻道时间是最坏时间的1/3,旋转等待时间,（,Rotational latency ）,寻道结束后，等待被存取的扇区出现在读写头下面的时间,平均旋转等待时间是磁盘旋转一周时间的,1/2,数据传输率,从磁盘获得数据或向磁盘存储数据的速率,平均故障时间（,MTTF,）,预期系统无故障连续运行的时间,是指基于全新磁盘发生故障的可能性,10,RAID,廉价磁盘冗余阵列,（,RAID,）,Redundant Arrays of Inexpensive Disks,是一种利用大量廉价磁盘进行磁盘组织的技术,价格,上，大量廉价的磁盘比少量昂贵的大磁盘合算得多,性能,上，使用大量磁盘可以提高数据的并行存取,可靠性,上，冗余数据可以存放在多个磁盘上，因此一个磁盘的故障不会导致数据丢失,过去,RAID,是大而昂贵的磁盘的替代方法；今天，使用,RAID,是因为它的高可靠性和高数据传输率；因此,“I”,代表,independent，,而非,inexpensive,11,RAID,通过冗余提高可靠性,N,个磁盘组成的集合中某个磁盘发生故障的概率比特定的单个磁盘发生故障的概率高很多,假定单个磁盘的,MTTF,是,100,000,小时,(,约为,11,年,)，,则由100个磁盘组成的阵列的,MTTF,是,1000,小时,(,约为,41,天,),冗余（,Redundancy,）,存储额外的信息，以便当磁盘故障时能从中重建,镜像,(Mirroring or shadowing),一个逻辑磁盘由两个物理磁盘组成，写操作在每个磁盘上执行,如果其中一个发生故障，数据可以从另一个磁盘读出,只有第一个磁盘的故障尚未恢复，第二个磁盘也发生故障，这时才会发生数据丢失,假定一个磁盘的,MTTF,是,100,000,小时，修复时间是10小时，则镜像磁盘系统的,MTTF,是,100,000,2,/（2*10）=500*10,6,小时，约为57000年,12,RAID,通过并行提高性能,负载平衡多个小的存取操作（即页面存取），以提高这种存取操作的吞吐量,并行执行大的存取操作，以减少大的存取操作的响应时间,通过在多个磁盘上对数据进行拆分来提高传输率,比特级拆分（,Bit-level striping）,将每个字节按比特分开，存储到多个磁盘上,例如，对于一个由8个磁盘组成的阵列，将每个字节的第,i,个比特位写到第,i,个磁盘上；它的存取速度是单个磁盘的8倍,对于由4个磁盘组成的阵列，将每个字节的第,i,个比特位和第,i+4,个比特位写到第,i,个磁盘上,块级拆分（,Block-level striping）,对于由,n,个磁盘构成的阵列，文件的第,i,块存放在第,(i mod n) + 1,个磁盘上,13,RAID,RAID,级别,镜像提供高可靠性，拆分提供高数据传输率，通过利用与奇偶校验相结合的磁盘拆分思想，可以实现以较低成本提供冗余的方案,不同的,RAID,级别，具有不同的代价、性能和可靠性,C,P,代表数据的第二个拷贝,表示纠错位,14,RAID,RAID,0,块级拆分且没有任何冗余（如镜像或奇偶校验位）的磁盘阵列,用于高性能访问并且数据丢失不十分重要的应用场合,RAID 0：,无冗余拆分,15,RAID,RAID,1,带块级拆分的磁盘镜像,完全容错，成本高,一般用于类似于数据库系统中日志文件存储的应用场合,RAID 1：,镜像的磁盘,C,C,C,C,16,RAID,RAID,2,按比特级拆分，具有内存风格的纠错码,纠错码（,ECC：Error-Correcting-Codes）,内存中每个字节都有一个奇偶校验位与之相连，它记录这个字节中为1的比特位的总数是偶数（=0）还是奇数（=1），如果字节中有一位被破坏，则字节的,ECC,与存储的,ECC,就不会相匹配；通过,ECC,可以检测到所有的1位错误；通过更多的附加位，当数据遭到破坏时，还可以重建数据,RAID 2：,内存风格纠错码,P,P,P,17,RAID,RAID 3,磁盘控制器能够检测一个扇区是否被正确的读出,如果一个扇区被破坏，我们先能准确地知道是哪个扇区坏了，然后对扇区的每一位，通过计算其他磁盘上对应扇区的对应位的奇偶值来推断该位是1还是0。如果其余位的奇偶值等于存储的奇偶值，则丢失的位是0，反之为1,RAID 3,效果与,RAID 2,一样，但只有一个磁盘的额外开销,使用,N,道数据拆分的,RAID 3,对一个字节的读写散布在多个磁盘中，因此读写一个块的传输率是使用,N,道数据拆分的,RAID 1,的,N,倍,每个磁盘参与每个,I/O,请求，每秒,RAID 3,支持的,I/O,数较少,RAID 3：,位交叉奇偶校验,P,18,RAID,RAID 4,块级拆分，在一个独立的磁盘上为其他,N,个磁盘上对应的块保留一个奇偶校验块,读取一个块只访问一个磁盘,每个存取操作的传输率低，但可以并行地执行多个读操作，从而产生较高的总的,I/O,率,读取大量数据的操作有很高的传输率，因为所有磁盘可以并行地读,RAID 4：,块交叉奇偶校验,P,19,RAID,RAID 5,将数据和奇偶校验位都分布到所有的,N+1,个磁盘上；对每个块，一个磁盘存储奇偶校验位，其余磁盘存储数据,例如由5个磁盘组成的阵列，第,n,块的奇偶校验位存储在第(,n mod 5)+1,上，其余4个磁盘的第,n,块存储了对应这个块的实际数据,奇偶校验块不能和这个块对应的数据存储在同一个磁盘上,所有磁盘都参与对读请求的服务，而,RAID 4,中奇偶校验磁盘不参与读操作,RAID 5,包容了,RAID 4,，,同时在相同成本下，提供了更好的读写性能,RAID 5：,块交叉的分布奇偶校验,P,P,P,P,P,20,RAID,RAID 6,类似于,RAID 5，,存储了额外的冗余信息,不采用奇偶校验位的方法，使用类似,Reed-Solomon,码的编码,对每4位数据存储2位冗余信息,可以容忍两个磁盘发生故障,RAID 6：P+Q,冗余,P,P,P,P,P,P,21,高性能,可靠性差,完全容错,成本高,高数据传输率,大数据量,高的总,I/O,率,适合随机读,大数据量,高可靠性,用于数据安全性不是很重要的高性能应用,相对于,RAID5,，,RAID3,很少使用,适于日志文件的存储,相对于,RAID1,，具有较低的存储开销，但写操作开销高，因此适于经常进行读而很少写的应用,适于数据安全十分重要的应用,22,数据库系统体系结构,23,数据库系统体系结构,数据库系统体系结构概述,集中式数据库系统,数据库系统,并行数据库系统,分布式数据库系统,24,数据库系统体系结构概述,数据库系统的体系结构与计算机系统的体系结构密切相关,集中式体系结构,集中式数据库系统,计算机的联网,客户,/,服务器数据库系统,并行处理能力,并行数据库系统,分布计算能力,分布式数据库系统,25,集中式体系结构,26,集中式系统,集中式系统,运行在一台机器上，,数据集中存储在一台计算机中，,并且不与其他计算机系统交互的数据库系统,单用户系统,个人使用的桌面系统,单,CPU，1,至2个硬盘，,OS,可以只支持单用户,数据库系统不支持并发控制，故障恢复能力没有或非常有限，用户接口类似,QBE,多用户系统,服务大量用户，用户通过终端与之相连,多个磁盘，多个主存储器，多个,CPU，,多用户,OS,具有并发控制、故障恢复等能力,27,客户-服务器系统,PC,的速度更快，能力更强，价格更低,连接到集中式系统的终端被,PC,代替；,以前由集中式系统执行的诸如用户界面功能由,PC,来处理；,集中式系统变成服务器系统的作用，来响应客户系统产生的请求,28,客户-服务器系统,集中式或分布式,-,单服务器与多服务器系统,单服务器系统,:,多个客户共享一个服务器,多服务器系统,:,一个客户可以对多个服务器进行访问。,29,客户-服务器系统,数据库功能的划分,后端（,Back-end）,存取结构、查询计算和优化、并发控制、故障恢复,前端（,Front-end）,表格生成工具、报表书写工具、图形用户界面工具,前端和后端的接口通过,SQL,或应用程序接口,30,客户-服务器系统,客户/服务器优点,有利于充分利用网络中的计算资源,减少网络上的传输量,高性能/价格比,可扩展性,友好的用户接口,易维护,31,客户-服务器系统,服务器系统的分类,事务服务器,又称查询服务器或,SQL,服务器,广泛用于关系数据库系统,客户向服务器发送请求，事务在服务器端执行，结果返回给客户端,可以以,SQL,表达请求，也可以通过应用程序接口，使用远程过程调用,(RPC),机制来表达请求,Open Database Connectivity (ODBC),使用,ODBC,接口的任何客户程序都可以与提供,ODBC,接口的任何服务器连接,32,客户-服务器系统,数据服务器,用于局域网中,客户与服务器之间具有高速连接,客户机与服务器的处理能力相当，并且其执行的任务主要以计算为主,数据传送到客户机器，在客户机上进行所有处理，然后再把数据传回到服务器,多用于面向对象数据库系统,33,并行系统,并行数据库系统,由通过高速互连网络连接在一起的多个,CPU、,存储器和磁盘组成,查询大数据量,处理大数量的事务,粗粒度并行机由几个能力强大的处理器组成,细粒度并行机由数千个小处理器组成,34,并行系统的需求和目的,数据库应用需求,查询非常大的数据库（,1012,字节以上）,处理很大数量的事务（每秒数千个事务）,引入并行的目的,保证即使在数据库的规模和事务的数量都大大增长时，数据库系统仍能以可接受的速度运行。,35,并行系统的需求和目的,关系数据库的固有并行性,数据操作间的流水线并行性,age20,(s),dept,数据操作间的独立并行性,age20,(s),dno,dean,(dept),单数据操作内的并行性,age20,(s),36,并行系统的需求和目的,数据库系统性能的度量,吞吐量,(throughput),：在给定的时间区间里所能完成的任务的数量。,响应时间,(response time),：对于单个任务从提交到完成所需的时间。,对于处理大量小事务的系统，通过并行地处理许多事务可以提高吞吐量。,对于处理大事务的系统，通过并行地执行每个事务中的子任务可以缩短响应时间，同时提高吞吐量。,37,并行系统,加速比（,Speedup）,通过增加并行度来在更短的时间内运行一个给定的任务,目标：使处理任务所需的时间与所分配的处理器和磁盘的数量成反比例。,扩展比,（,Scaleup）,通过增加并行度来处理更大的任务,目标：使能够处理的任务的规模与所分配的处理器和磁盘的数量成正比例。,加速比 =,小系统运行时间,大系统运行时间,扩展比 =,小系统处理小问题运行时间,大系统处理大问题运行时间,38,并行系统,：,加速比,线性的加速比,：当较大的系统的资源是较小的系统的资源的,N,倍，获得的加速比也是,N,时，称并行系统实现了线性的加速比。,亚线性的加速比,：当较大的系统的资源是较小的系统的资源的,N,倍，而获得的加速比小于,N,，则称系统实现了亚线性的加速比。,39,并行系统,：,扩展比,线性的扩展比,：如果,TL = TS,，则称并行系统,ML,对于任务,Q,实现了线性的扩展比。,亚线性的扩展比,：如果,TL TS,，则称系统实现了亚线性的扩展比。,40,并行系统,：负影响因素,启动代价,进程初始化的启动时间，影响加速比,干扰,竞争共享资源，影响加速比和扩展比,偏斜,任务的分配是有偏的,最慢的并行步骤起决定作用,木桶效应,41,互连网络结构,总线（,Bus）,所有系统成分通过单一的通信总线来发送和接收数据,适于少量处理器的情况，不适于并行度增大的情况,网格（,Mesh）,将各种成分都安排成网格中结点，每个结点与网格中它的所有邻接结点相连接,相互间没有直接连接的结点间的通信可以通过一系列相互间有直接连接的结点来传送,有较好的扩展性,超立方体（,Hypercube）,系统各成分按二进制编码，如果某两个成分的二进制编号相差1位，那么它们之间连接起来,每个成分将与,log(n),个其他成分相连接，并且最多经过,log(n),个链可以到达其他成分,42,互连网络结构,43,并行数据库体系结构,44,并行数据库体系结构,共享内存,所有处理器和磁盘通过总线或互连网络访问一个公共主存储器,处理器间的通信效率高，共享内存中数据可以被任何处理器访问,一个处理器通过写共享内存的方式来向其他处理器发送消息,规模有限制，总线会成为瓶颈，一般不能超过64个处理器,缺点,规模不能超过,32,个或,64,个处理器，因为总线或互连网络是由所有的处理器共享的，它会变成瓶颈。,45,并行数据库体系结构,共享磁盘,所有处理器可以通过互联网络直接访问所有的磁盘，每个处理器有自己的主存储器,以较为经济的方式提供一定的容错性,处理器间的通信通过网络来完成,存储器总线不再成为瓶颈，但与磁盘子系统的连接成为瓶颈,46,并行数据库体系结构,无共享,机器的每个结点包括一个处理器，一个存储器，一个或多个磁盘,一个结点上的处理器通过高速网络与另一个结点上的处理器通信,通信代价和非本地磁盘的访问高,层次的,最上层是无共享体系结构,低层是共享内存体系结构,中间是共享磁盘体系结构,47,并行数据库体系结构,无共享的结构是支持并行数据库系统的最好并行结构（,Stonebraker 1986,年提出，得到普遍接受。）,理由,共享资源最少，从而由资源竞争带来的系统干扰最小。,具有高可扩充性，处理器个数可扩展到数千甚至上万个而不增加处理器间的干扰。,在数据库查询处理过程中需要在通讯网络上进行的数据通讯量较小。,在复杂数据库查询处理和联机事务处理中可获得接近线性的加速。,48,分布式数据库系统,49,分布式数据库系统,50,基本定义,背景,数据库系统+计算机网络,DB1,DB1,DB1,计算机1,计算机1,计算机1,通讯网络,北京,重庆,上海,银行系统,51,基本定义,基本特性,分布性,数据存储在不同场地上,与集中式数据库不同,逻辑整体性,数据逻辑上是相互联系的一个整体,与分散在计算机网络不同站点上的一组没有相互联系的本地数据库区别开来,52,基本定义,定义,描述定义,D-DBS,是一个数据集合，这些数据在逻辑上属于同一个系统，但在物理上分布在计算机网络的不同结点上,精确定义,D-DBS,是一个数据集合，这些数据，分布在计算机网络的不同计算机上，网络中每个结点具有独立处理的能力，可以执行局部应用，同时每个结点也能通过网络通讯支持全局应用,分布式数据库强调场地自治性（局部应用）以及自治场地之间的协作性（全局应用）,“在自治的结点之间协同工作”,53,D-DBS,的特点,数据独立性,D-DBS,除了集中式,DBS,的物理独立性及逻辑独立性之外，还有数据分布的独立性，也称分布透明性，即用户不必关心数据物理位置的分布,集中与自治相结合的控制结构,集中式,DBS,中，控制是集中的，统一由,DBA,维护,D-DBS,中，控制是分层的：,全局,DBA：,管理整个数据库,本地,DBA：,管理本地数据库,54,D-DBS,的特点,适当增加数据冗余,集中式,DBS,中，尽可能减少数据冗余以避免不一致性及节省存储空间,D-DBS,中，适当增加冗余，在不同场地存储同一数据的多个副本,提高系统可靠性、可用性：,一场地发生故障，可存取另一场地同一副本,提高系统性能：,存取距离最近的数据副本，减少通讯代价,全局的一致性、可串行性、可恢复性,涉及多个结点,55,D-DBS,的优点,经济上和组织上的理由,数据库的使用单位组织上、地理上是分布的,既有数据库互连,历史继承；数据资源共享,系统规模逐步扩展,增加结点，不影响现有系统运行,减少通讯开销,提高应用的本地化,提高系统的可靠性与可用性,多副本机制,56,D-DBS,的体系结构,G-,外模式,G-,外模式,G-,概念模式,分片模式,分布模式,L-,概念模式,L-,概念模式,L-,内模式,L-,内模式,L-DB,L-DB,G-DBMS,G-DBMS,57,D-DBS,的体系结构,G-,外模式,全局应用的用户视图。,G-,概念模式,定义,D-DBS,中数据的整体逻辑结构，数据如同没有分布一样。,分片模式,每一个关系可以分为若干互不相交的部分，每一部分称为一个片段。,分布模式,定义片段的存放地点,58,分布式数据存储,数据在分布式数据库的存储途径,复制,系统维护关系的几个完全相同的副本，这些副本存储在不同的结点上,分片,关系被划分为几个片段，各个片段存储在不同的结点上,复制+分片,关系被划分为几个片段，系统为每个片段维护几个副本,59,分布式数据存储,数据复制,优点,可用性,增加并行度,缺点,一致性维护,结论,有利于只读事务，增加更新事务开销,60,分布式数据存储,数据分片,优点,将关系分片，有利于按用户需求组织数据的分布。,如产品（内销产品，出口产品）,。,分片方式,水平分片,垂直分片,导出分片,混合分片,61,分布式数据存储,水平分片,将关系,r,按行分为若干子集,r,1,，r,2，,，,r,n，,每个子集,r,i,称为一个水平片段,一个水平片段可以看成是关系上的一个,选择,r,i,=,P（i）,（r）,如,C_S=,DNO=D08,（S）,关系的重构可以通过,并,运算来实现,r= r,1,r,2,r,n,62,分布式数据存储,垂直分片,将关系,r,按列分为若干属性子集,r,1,，r,2，,，,r,n，,每个子集,r,i,称为一个垂直片段,一个垂直片段可以看成是关系上的一个,投影,r,i,=,Ri,（r）,其中,Ri,是,r,的一个属性子集,如,P_S = ,PNO，SAL,（P）,关系的重构可以通过,连接,运算来实现。,r= r,1,r,2,r,n,所有分片都包括每个元组的唯一标识码,tuple_id,63,分布式数据存储,导出分片,导出水平分片，分片的条件不是关系本身属性条件，而是其它关系的属性条件,如,SC（S#，C#，G）,按学生系别分片,混合分片,关系按某种方式分片后，得到的片段再按另一种方式继续分片,如,SC（S#，C#，G）,按学生系别分片，再对每个片段按成绩,（,及格，不及格）分片,64,分布式数据存储,分布（网络）透明性,分片透明性,用户或应用程序只对全局关系进行操作而不必考虑关系的分片。如果分片模式改变了，通过调整全局模式与分片模式之间的映象关系来保持全局模式不变,位置透明性,用户或应用程序不必了解片段的存储位置,局部数据模型透明性,用户或应用程序不必了解局部场地上使用的是哪种数据模型,65,分布式数据存储,示例：,设有全局关系,S，,它被划分为两个片段,S-A（,本科生），,S-B（,研究生），,S-B,有两个副本,S,S-A,S-B,S-A,S-B,S-B,Site-1,Site-2,Site-3,全局关系,片段,物理存储,66,分布式数据存储,写一个查询，输入学号，输出学生姓名,系统具有分片透明性,scanf (“%s”,S_NO);,EXEC SQL,select,SN,into,：S_NAME,from,S,where,SNO= :S_NO;,printf(“%d, %s”,S_NO,S_NAME);,67,分布式数据存储,系统具有位置透明性，但不具有分片透明性,scanf (“%s”,S_NO);,EXEC SQL,select,SN,into,：S_NAME,from,S_A,where,SNO= :S_NO;,if(!FOUND),EXEC SQL,select,SN,into,：S_NAME,from,S_B,where,SNO= :S_NO;,printf(“%d, %s”, S_NO, S_NAME);,68,分布式数据存储,系统具有局部模型透明性，但不具有位置透明性,scanf (“%s”,S_NO);,EXEC SQL,select,SN,into,：S_NAME,from,S_A,at,Site_1,where,SNO= :S_NO;,if(!FOUND),EXEC SQL,select,SN,into,：S_NAME,from,S_B,at,Site_2(,或,Site_3,),where,SNO= :S_NO;,printf(“%d, %s”, S_NO, S_NAME);,69,分布式数据存储,数据项的命名,每个数据项（关系、副本、片段）必须有唯一的名字，在分布式数据库系统中必须保证在,不同的结点上不会用同一个名字来代表不同的数据项,途径1：名字服务器,所有名字都在名字服务器中注册，每个名字对应一个数据项,缺陷：名字服务器成为名字解析的瓶颈；依赖性大,途径2：将结点标识作为前缀加到该结点数据项的名字前面(,site1.Tom, site2.Jerry),保证唯一性，不须中央控制；不能保证网络透明性,70,分布式数据存储,途径3：别名,用户使用简单的别名引用数据，别名被系统翻译成完整的名字,别名到真实名字的映射形成一张别名表被存储在系统的每一个结点上。当用户引用别名时，系统通过查找别名表找到实际的数据项,对照路由表,root,com,edu,org,mil,net,int,gov,ibm,cisco,71,分布式查询处理,假定每条元组100,bit,大小,求供应红色零件的、北京的供应商号码,select S.S# from S, P, SP,where S.CITY = ,北京,and S.S# = SP.S#,and SP.P# = P.P# and P.COLOR = ,红色,Site-A,Site-B,S(S#,CITY),10,4,个元组,SP(S#,P#),10,6,个元组,P(P#,COLOR),10,5,个元组,网络,传输速度,10,4,bps,传输延迟1,s,72,分布式查询处理,把关系,P,从,B,站传送到,A,站，在,A,站进行查询,传送时间,T=1+10,5,100,/10,4,=,10,3,s,S, SP,P,传,P,传送时间,T=,总传输延迟+总数据量/传输速度,73,分布式查询处理,把关系,S，SP,从,A,站传送到,B,站，在,B,站进行查询,传送时间,T=2+(10,4,+10,6,),100/10,4,10,4,s,S, SP,P,传,S,SP,74,分布式查询处理,在,A,站连接,S,与,SP，,选出城市为北京的元组（假定有,10,5,个），然后对其中每个元组的,P#，,询问,B,站，看其是否为红色,传送时间,T=2,10,5,s,S, SP,P,问,答,75,分布式查询处理,在,B,站选出红色零件（假定有,10,个）,，,然后对每个元组询问,A,站，看北京的供应商是否供应此零件,传送时间,T=2,10=20s,S, SP,P,问,答,76,分布式查询处理,在,A,站选出北京的供应商（,10,5,个）,，,传送到,B,站，在,B,站完成查询,传送时间,T=1+ 10,5,100/10,4,=10,3,s,S, SP,P,传,(,S) SP,77,分布式查询处理,在,B,站选出红色零件（,10,个）,，,把结果传送到,A,站，在,A,站完成查询,传送时间,T=1+ 10,100/10,4,=1.1s,S, SP,P,传,(,P),78,分布式查询处理,场地1：,EMP(ENO, ENAME, ADDRESS, SEX, DNO),ENO(9), ENAME(10), ADDRESS(20), DNO(4),有10000条记录，每条记录100字节，共10,6,字节,场地2：,DEPT(DNO, DNAME, MGR, MGRSTARTDATE),DNO(4), DNAME(10), MGR(9), DNO(4),有100条记录，每条记录35字节，共3500字节,在场地2查询每个部门的名字和其经理的姓名和地址,79,分布式查询处理,方法1：,把数据从场地1传到场地2，传输数据量为10,6,字节,方法2：,把数据从场地2传到场地1，再将结果传回场地2，传输数据量为,3500+100*(10+10+20)=7500字节,缺点,以整个关系作为传输单位,有些属性或元组并不参与连接,改进：,只传输有用的数据项,80,分布式查询处理,半连接示例,step1:,在场地2，用投影操作将,DEPT,中参与连接的属性找出来，把投影结果传到场地1，传输数据量为,4*100=400,step2:,在场地1，执行连接操作，用投影求出所需属性，把结果,送到场地2，传输数据量为100*(9+10+20)=3900,step3:,在场地2，执行连接操作：,总传输数据量为,400+3900=4300,81,分布式查询处理,半连接运算,定义,半连接,R S=,R,（R S）,A,B,a1,b1,a2,b1,a2,b3,a2,b4,a3,b3,B,C,b1,c1,b2,c2,b5,c1,b5,c2,b6,c4,b7,c2,b8,c3,A,B,a1,b1,a2,b1,=,82,分布式查询处理,A,B,a1,b1,a2,b1,a2,b3,a2,b4,a3,b3,B,C,b1,c1,b2,c2,b5,c1,b5,c2,b6,c4,b7,c2,b8,c3,B,C,b1,c1,=,83,分布式查询处理,A,B,C,a,b,c,d,b,c,b,b,f,c,a,d,B,C,D,b,c,d,b,c,e,e,b,a,a,d,b,R,S,R S,A,B,C,D,a,b,c,d,a,b,c,e,d,b,c,d,d,b,c,e,c,a,d,b,R S,A,B,C,a,b,c,d,b,c,c,a,d,S R,B,C,D,b,c,d,b,c,e,a,d,b,84,分布式查询处理,半连接作用,找出,R,中能够与,S,中元组相连接的元组来，类似于在连接之前先做选择和投影,半连接的非对称性,R S = （R S） S,R S = （S R） R,R S （S R）,85,分布式查询处理,半连接在分布式数据库中的应用,R,与,S,位于不同场地,S,1,，S,2,上，其属性组分别为,R,1,，R,2,，要在,S,1,场地求,R,和,S,的连接结果,在,S,1,场地对,R,做投影，将,R,缩减为,R,R=,R1R2,（,R）,将,R,送往场地,S,2,在,S,2,场地完成,S,与,R,的半连接操作，将,S,缩减为,S,S = S R,将,S,送回场地,S,1,在,S,1,场地完成,R,与,S,的连接操作,R S = R S,86,分布式查询处理,通讯代价模型,TC（X）= C,0,+X*C,1,其中,X,为数据传输量，,C,0,为两结点初始化一次传输所花费的开销，,C,1,为传输率，即单位数据传输所花费的时间,采用半连接的通讯代价：,C,SJ,=2C,0,+(size(,R,)*card(R,)+size(S,)*card(S,)*C,1,不采用半连接的通讯代价：,C,JN,=C,0,+size(S)*card(S) *C,1,size,（,S,）：,S,中元组的长度；,card,（,S,）：,S,的元组数,当,S,中参与连接的元组足够少时采用半连接策略更有利,87,主要内容,数据存储,磁盘结构，,RAID,数据库系统体系结构,集中式数据库系统,数据库系统,并行数据库系统,分布式数据库系统,学生应掌握的内容,集中式数据库系统、数据库系统、并行数据库系统、分布式数据库系统的概念及特点，分布式查询处理,本章总结,88,

展开阅读全文

哈工大数据库课件第七讲数据库系统体系结构

最新文档