资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,信 息 管 理 学,Information Management,教材:,信息管理学教程,滕佳东著,.,大连:东北财经大学出版社,,2005,主讲:王名扬,办 公 室:信息学院,404,办公电话:,82191525,2,第一节 数据资源管理,第二节 数据通信与计算机网络,第五章 信息管理技术,3,信息技术(,Information Technology,,,IT,)同信息一样,是非常流行的术语。,现代,信息管理从一开始便与信息技术紧密相联。从某种意义上说,现代信息管理必须以现代信息技术为依托。,信息技术是能够,扩展人类信息器官功能,的,帮助完成信息的,获取,(收集、识别和提取)、,传输,(变换、存储和传递)、,加工,(处理和检索)、,再生,(分析)和,利用,等的一类技术的总称。,前 言,4,人的信息器官可以分为:,感觉,器官:视觉、听觉、嗅觉和触觉等;承担对外界信息的,获取,功能。,神经系统,:导入神经网络、中间传导神经网络和导出神经网络;承担信息的,传递,功能。,思维,器官:人的大脑;承担信息的,认知和再生,功能。,效应与执行,器官:操作器官(手)、行走器官(脚)、语言器官(嘴、喉、舌),;,承担信息的,执行或施用,功能,。,5,与人的信息器官对应,信息技术也可以分成四大类:,感测技术,(Collection),:,用于信息获取,其,延长的是感觉器官采集信息的能力,,可以将人类的感觉器官延伸到人力所不能及的微观世界和宏观世界中去提取信息。,通信技术,(Communication),:,用于信息传递,其,延长的是传导神经系统传递信息的能力,,包括信息的时间和空间的传递。,6,计算机技术,(Computer),:,用于信息认识和再生,其,延长的是思维器官处理信息和决策的能力,,包括计算机硬件和软件技术、人工智能、专家系统和人工神经网络等技术。,控制技术,(Control),:,用于信息执行,其,延长的是效应器官的应用信息的能力,,包括服务调节技术和自动控制技术。,7,这四种技术结合起来,称为,“,4C”,技术。,其中,,计算机技术和通讯技术,是整个信息技术的核心。如果说计算机技术是现代社会的“,大脑,”,那么通信技术就是现代社会的“,中枢神经系统,”。对于信息管理领域来说,信息处理技术和通信技术是最重要的两种信息技术工具。,本章主要从,信息处理技术和通信技术,两个角度来讲解信息管理领域用到的信息技术。,8,第一节 数据资源管理,随着信息社会的发展,数据成为一种重要的组织资源,,数据资源管理,是管理活动最基本的内容,也是信息系统最基本的功能。虽然数据处理一般不涉及非常复杂的数学计算,但因要求处理的数据量很大,所以需要专门的技术支持。,9,在信息系统中,,数据资源管理,指的是对数据的收集、加工、检索、存储、传输、利用和维护的过程。它的主要任务是实现对,数据的合理组织、维护和存取,,处理好,应用程序和数据之间的关系,。,10,(一)数据组织的基本概念,数据只有经过组织才能成为有价值的信息,数,据,的,组,织,数据的逻辑组织,数据的物理组织,11,(,1,),数,数,据,据,的,的,逻,逻,辑,辑,组,组,织,织,任,何,何,信,信,息,息,系,系,统,统,都,都,有,有,一,一,个,个数,据,据,组,组,织,织,的,的,层,层,次,次,体,体,系,系,,在,在,该,该,层,层,次,次,体,体,系,系,中,中,,,,,每,每,一,一,后,后,继,继,层,层,次,次,都,都,是,是,其,其,前,前,导,导,层,层,次,次,数,数,据,据,组,组,合,合,的,的,结,结,果,果,,,,,最,最,终,终,所,所,形,形,成,成,的,的,是,是,一,一,个,个,综,综,合,合,的,的数,据,据,库,库。,12,(,1,),数,数,据,据,的,的,逻,逻,辑,辑,组,组,织,织,在,信,信,息,息,系,系,统,统,中,中,形,形,成,成,的,的,数,数,据,据,的,的,逻,逻,辑,辑,组,组,织,织,层,层,次,次,如,如,下,下,图,图,:,:,图,1,数,据,据,的,的,逻,逻,辑,辑,组,组,织,织,层,层,次,次,13,数,据,据,项,项:,组,组,成,成,数,数,据,据,库,库,系,系,统,统,的,的,有,有,意,意,义,义,的,的最,小,小单位,用于,描,描述一个数,据,据处理对象,的,的某些属性,处于最底,层,层,具有不可分割性。如:,若数据处理,的,的对象是公,司,司员工,公,司,司员工的属,性,性包括员工,姓,姓名、工作,证,证号、职位,、,、月份和薪,金,金,则在数,据,据库系统中,,,,可通过设,置,置数据项表,示,示这些属性,。,14,记录:是与数据处,理,理的某一具,体,体对象相关,的,的数据项的集,合,合,用于表示,一,一个具体的,数,数据处理对象。如:,如果把每一,个,个员工的所,有,有数据项排,列,列在一起就,形,形成了这个,员,员工的一条,记,记录,,每一条记,录,录都有主关,键,键字,即,唯,唯一,标,标示,一,一条,记,记录,的,的属,性,性。,如,,在,在公,司,司员,工,工记,录,录中,,,,工,作,作证,号,号可,以,以作,为,为员,工,工记,录,录的,主,主关,键,键字,。,。,15,文件,:,:是与,某,某个,特,特定,的,的主,题,题相,关,关的,同,同类记录,的,的集,合,合,用,于,于表,示,示一,个,个数,据,据处,理,理的对象,集,集。,如,,员,员工,薪,薪金,文,文件,包,包含,有,有关,员,员工,薪,薪金,的,的记,录,录,。文,件,件按,其,其各,记,记录,的,的长,度,度是,否,否相,同,同又,可,可分,为,为:,定长,记,记录,文,文件:,是指,文,文件,中,中所,有,有记,录,录的,长,长度,都,都相,同,同。,变长,记,记录,文,文件:,是指,文,文件,中,中各,记,记录,的,的长,度,度不,相,相同,。,。,如,,姓,姓名,、,、单,位,位地,址,址、,文,文章,的,的标,题,题等,,,,有,长,长有,短,短,,并,并不,完,完全,相,相同,。,16,数据,库,库:按一,定,定方,式,式组,织,织起,来,来的,逻,逻辑,相,相关,的,的文件,集,集合。,如,,公,公司,员,员工,数,数据,库,库中,可,可包,含,含员,工,工薪,金,金文,件,件、,员,员工,工,工作,考,考核,文,文件,、,、员,工,工个,人,人资,料,料文,件,件这,三,三个,不,不同,的,的文,件,件,。,数据,库,库是,数,数据,组,组织,的,的最高,形,形式,也,是,是应,用,用最,广,广泛,的,的数,据,据组,织,织的,管,管理,方,方法,和,和技,术,术。,17,(,2,)数,据,据的,物,物理,组,组织,数据,的,的物理,组,组织指的,是,是数,据,据在,存,存储,设,设备,上,上的物理,存,存取方式,,,,依,赖,赖于,存,存取,的,的介质。,在基,于,于计,算,算机,的,的信,息,息系,统,统中,,,,文,件,件是,数,数据,库,库组,织,织的,基,基础,,,,任,何,何对数据,库,库的,操,操作,最,最终,都,都要,转,转化,为,为对,文,文件,中,中数,据,据的操,作,作。,不同,的,的数,据,据物,理,理组,织,织形,式,式对,应,应着,不,不同,的,的数,据,据处,理,理方,式,式,,同,同时,也,也将,直,直接,影,影响,着,着整,个,个系,统,统的,存,存取,效,效率,。,。,18,如,企业,的,的人,事,事系,统,统,存储,了,了大,量,量的,职,职工,数,数据,,,,这,些,些数,据,据一,般,般不,会,会经,常,常改,动,动,,其,其主,要,要目,的,的是,进,进行查询,采,用,用的,组,组织,形,形式,应,应尽,量,量使,查,查询,响,响应,的,的时,间,间变,短,短。,而,商店,的,的销,售,售系,统,统,,存,储,储大,量,量的,销,销售,数,数据,,,,每,天,天结,束,束后,要,要进,行,行相,关,关的,统,统计,操,操作,,,,其,主,主要,目,目的,是,是对,数,数据,的,的相,关,关处理,采,用,用的,组,组织,形,形式,应,应使,数,数据,处,处理,的,的效,率,率高,。,。,对于,这,这两,种,种用,途,途,,数,数据,的,的物,理,理组,织,织形,式,式应,是,是怎,样,样的,呢,呢?,提出,问,问题,?,?,19,数据,的,的存,取,取方,式,式有顺序,存,存取,和,和直,接,接存,取,取。,顺序,存,存取:按照,数,数据,存,存储,的,的顺,序,序来,访,访问。,顺序,存,存取,的,的文,件,件的逻辑,顺,顺序,与,与物,理,理顺,序,序一,致,致,一,个,个逻,辑,辑上,连,连续,的,的文,件,件信,息,息被,存,存放,在,在连,续,续变,化,化的,物,物理,块,块或,物,物理,记,记录,中,中,,数,数据,在,在存,储,储设,备,备上,占,占有,一,一段,连,连续,的,的存,储,储空,间,间。,如:,磁,磁带,顺序,存,存取,存,存放,的,的文,件,件结,构,构简,单,单,,便,便于,程,程序,设,设计,;,;但,缺,缺点,是,是操,作,作效,率,率低,,,,若,文,文件,较,较大,,,,对,记,记录,的,的查,询,询、,插,插入,操,操作,所,所花,费,费的,时,时间,较,较长,。,。,数据,的,的存,取,取方,式,式,20,直接,存,存取,:,不需,要,要经,过,过其,他,他的,数,数据,而,而直,接,接访,问,问所,需,需要,的,的数,据,据的,方,方式,。,直接,存,存取,的,的文,件,件只,能,能存,储,储在,磁,磁盘,等,等随,机,机存,储,储设,备,备上,,,,其,逻,逻辑,顺,顺序,与,与物,理,理顺,序,序不,一,一致,。,。只,要,要确,定,定了,某,某个,记,记录,的,的存,储,储地,址,址,,就,就可,直,直接,对,对其,进,进行,存,存取,操,操作,,,,而,不,不必,考,考虑,和,和其,他,他记,录,录之,间,间的,关,关系,。,。,如磁,盘,盘、,光,光盘,、,、,U,盘等,。,。,21,对,商店,的,的销,售,售数,据,据,,逻,辑,辑上,需,需要,销,销售,数,数据,按,按时,间,间先,后,后排,列,列,,这,这样,便,便于,对,对数,据,据进,行,行统,计,计分,析,析,,因,因此,,,,商,店,店销,售,售系,统,统采,取,取的,存,存取,方,方式,可,可以,采,采用顺序,存,存取方式,。,。,对,企业,人,人事,系,系统,,,,,要求,数,数据,的,的存,取,取效,率,率高,,,,查,询,询速,度,度快,,,,插,入,入、,删,删除,简,简单,,,,因,此,此,,可,可以,采,采取直接,存,存取方式,。,。,答案,是,是:,销,销售,数,数据,顺序,存,存取,;,;,人事,数,数据,直接,存,存取,你想,到,到了,吗,吗?,问题,的,的答,案,案,22,(二,),)数,据,据组,织,织的,发,发展,过,过程,数据管理,技,技术的发,展,展,与计,算,算机硬件,和,和软件技,术,术发展有,密,密切的关,系,系,并随,着,着信息处,理,理需求的,发,发展而不,断,断发展,。,。,总起来讲,,,,数据组,织,织的发展,经,经历了四,个,个阶段:,人工管理阶段(,1946,年,20,世纪,50,年代中期,之,之前),文件系统管理阶段,(,(,20,世纪,50,年代后期,到,到,60,年代中期,),),数据库阶段(,20,世纪,60,年代后期,- 80,年代中期,之,之前),高级数据,库,库阶段(,20,世纪,80,年代中期,),),23,(,1,) 人工,管,管理阶段,(,20,世纪,50,年代中期,前,前),人工管理,阶,阶段又称,为,为数据库,系,系统的简单应用,阶,阶段。,在,20,世纪,50,年代中期,以,以前,计,算,算机主要,用,用于科学,计,计算。,外部存储,器,器大多采,用,用的是顺,序,序存取设,备,备,如磁,带,带、卡片,等,等,没有,磁,磁盘等直,接,接存取设,备,备。,软件只有,汇,汇编语言,,,,没有操,作,作系统软,件,件,更没,有,有数据管,理,理方面的,软,软件,数,据,据的管理,者,者是人。,24,特 点,数据和程,序,序依赖性,强,强,数据均由,应,应用程序,直,直接管理:数据是,面,面向应用,的,的,每一,个,个应用程,序,序都自带,数,数据,数,据,据和程序,紧,紧密相连,,,,成为程,序,序的一个,重,重要组成,部,部分。,数据不能,长,长期保存:主要原,因,因是这个,时,时候的计,算,算机主要,用,用于计算,,,,将原始,数,数据连同,程,程序一起,输,输入内存,,,,计算完,毕,毕后输出,结,结果,同,时,时释放数,据,据空间。,且,且没有软,件,件系统对,数,数据进行,管,管理。,数据无,法,法共享:数据,完,完全分,散,散,大,量,量重复,,,,数据,存,存在的,形,形式和,时,时间长,短,短完全,依,依赖于,所,所依附,的,的应用,程,程序,,数,数据之,间,间的相,关,关性无,法,法处理,。,。,25,数据程序无独立性,数据不能长期保存,数据无法共享,人工管理阶段,人工管,理,理阶段,26,(,2,)文件,管,管理阶,段,段,(,20,世纪,50,年代后,期,期到,60,年代中,期,期,),计算机,应,应用范,围,围逐渐,扩,扩大,,不,不光用,于,于计算,,,,还用,到,到了信,息,息管理,上,上。,计算机,硬,硬件有,了,了磁盘,、,、磁鼓,等,等直接,存,存取的,存,存储设,备,备,数,据,据可长,期,期存储,在,在这些,外,外部存,储,储器的,磁,磁盘上,。,。,软件领,域,域有了,高,高级语,言,言和操,作,作系统,,,,操作,系,系统中,的,的文件系,统,统作为,专,专门的,数,数据管,理,理软件,这使,得,得数据,不,不再属,于,于某个,特,特定的,程,程序,,具,具备一,定,定的独,立,立性,,但,但是由,于,于此时,文,文件结,构,构的设,计,计仍然,是,是基于,某,某些特,定,定的用,途,途,程,序,序也基,于,于某些,特,特定的,物,物理结,构,构和存,取,取方法,,,,因此,数,数据和,程,程序的,依,依赖关,系,系没有,从,从根本,上,上改变,。,。,27,特 点,数据、程序,分,分开存储:,数据被组织,成,成文件的形,式,式保存在外,存,存上,实现,了,了以文件为,单,单位的数据,共,共享,文件,可,可保存,可,反,反复使用。,数据、程序,仍,仍相互依赖:,程序和数据,分,分离,但数,据,据和应用程,序,序独立性不,高,高,因为文,件,件系统的逻,辑,辑结构是对,应,应于某个具,体,体的应用程,序,序的,为某,个,个应用所组,织,织的数据与,其,其它应用所,组,组织的数据,不,不兼容,若,文,文件结构发,生,生变化,则,相,相应的应用,程,程序也要进,行,行修改。,28,数据冗余和,数,数据不一致:,数据文件是,面,面向应用的,,,,多个文件,间,间无相关性,,,,同样的数,据,据可能存放,在,在不同的文,件,件中,造成,数,数据冗余的,现,现象。,如,宿舍管,理,理处,财务,处,处,学生管,理,理处都会保,存,存学生文件,,,,而像学生,名,名、性别、,联,联系方式等,数,数据项几乎,在,在每个文件,中,中都重复出,现,现,。导致在更,新,新时容易产,生,生数据的不,一,一致。,管理困难:,各个数据文,件,件相互独立,,,,分散保管,,,,文件所有,者,者很难对它,们,们进行管理,。,。文件之间,的,的联系只有,通,通过程序才,能,能实现。当,用,用户需要的,信,信息来自不,同,同文件时,,就,就需要对多,个,个不同文件,的,的信息内容,进,进行提取、,比,比较、组合,。,。,29,文件管理阶段,数据程序分开存储,数据程序相互依赖,数据冗余度大,数据不一致性,文件管理阶,段,段,30,(,3,),数据库阶段,(,20,世纪,60,年代后期到,80,年代早期,),随着组织管,理,理规模的扩,大,大,处理的,数,数据量急剧,增,增加,文件,系,系统的数据,冗,冗余和数据,不,不一致使得,数,数据管理变,得,得非常困难,,,,数据库系,统,统和大容量,外,外存设备的,出,出现又使数,据,据管理技术,得,得到了进一,步,步发展。,数据库技术,是,是在文件系,统,统上发展起,来,来的一种理,想,想的数据管,理,理技术,是,一,一个相关数,据,据的集合,,可,可实现数据,被,被多个应用,程,程序共享。,如,如,,它可以将一,个,个单位或一,个,个部门所需,的,的数据综合,组,组织在一起,,,,由数据库,管,管理系统软,件,件实现对数,据,据库的定义,,,,操作和管,理,理。,31,特 点, 采用复,杂,杂的数据模,型,型表示数据,结,结构:,数据库中数,据,据模型不仅,描,描述了数据自身的,特,特征,还描述了数据间的关,系,系,使数据结,构,构化,这是,数,数据库和文,件,件系统的本,质,质区别。, 数据冗,余,余度小,能,够,够实现数据,共,共享:,数据库系统,允,允许多个用,户,户或多个应,用,用程序同时,访,访问数据库,中,中的相同数,据,据,数据不,再,再面向特定,的,的某个或多,个,个应用,而,是,是面向整个系,统,统,相关数据,集,集合可由多,个,个应用程序,共,共享,节省,了,了存储空间,,,,避免了数,据,据间的不一,致,致现象 。,32, 具有较,高,高的数据独,立,立性:,数据库系统,提,提供了三层数据抽,象,象(视图级抽,象,象、概念级,抽,抽象、物理,级,级抽象)能,力,力和三种数据库,模,模式(外模式、,模,模式和内模,式,式),实现,了,了数据的物,理,理独立性和,逻,逻辑独立性,。,。数据和程,序,序相互独立,,,,数据的存,取,取和交换均,由,由数据库管,理,理系统统一,管,管理,用户,以,以简单的逻,辑,辑结构操作,数,数据而无需,考,考虑数据的,物,物理存储结,构,构。, 为用户,提,提供了方便,的,的接口,:,用户可以使,用,用查询语言,如,如,SQL,或终端命令,访,访问数据库,,,,也可以用,程,程序指令操,作,作数据库。,33, 提供统,一,一的数据控,制,制功能:为了适应,数,数据共享的,环,环境,数据,库,库管理系还,提,提供了以下,四,四种数据控,制,制功能:,并发,控,控制,:,:控制,多,多个,事,事务,的,的并,发,发运,行,行,,避,避免,并,并发,程,程序,间,间相,互,互干,扰,扰,,保,保证,每,每个,事,事务,产,产生,正,正确,的,的结,果,果。,数据,恢,恢复,:,:当数,据,据库,由,由于,意,意外,故,故障,被,被破,坏,坏时,,,,系,统,统有,能,能力,把,把数,据,据库,回,回复,到,到最,近,近某,已,已知,的,的正,确,确状,态,态。,数据,完,完整,性,性:通过,完,完整,性,性约,束,束保,证,证数,据,据的,正,正确,性,性、,有,有效,性,性和,相,相容,性,性,,如,如将,数,数据,控,控制,在,在有,效,效的,范,范围,内,内,,如设,定,定工,资,资的,范,范围,;,数据,安,安全,性,性:为不,同,同用,户,户设,置,置不,同,同权,限,限,,保,保证,数,数据,的,的安,全,全,。,34,数据程序完全独立,数据可以共享,数据模型表示数据结构,数据库阶段,数据,库,库阶,段,段,35,图,2,银行,文,文件,处,处理,系,系统,示例,:,:银,行,行事,务,务处,理,理,客户财务,报表,帐户核对,处理,存款处理,分期贷款,处理,贷款分析,报告,客户票据,存款,文件,帐户核对文件,帐户核,对程序,存款,程序,客户交易,分期贷,款程序,分期贷款,文件,36,客 户 交 易 处 理,数 据 库 管 理 系 统,核对帐,户程序,存款帐,目程序,分期贷,款程序,客户数据库,.,图,3,银行,数,数据,库,库系,统,统,37,(,4,),高级,数,数据,库,库阶,段,段,(,20,世纪,80,年代,中,中期,至,至今,),随着,管,管理,环,环境,的,的变,化,化,,企,企业,中,中的,数,数据,和,和信,息,息的,类,类型,发,发生,了,了变,化,化;,而,而随,着,着多,媒,媒体,技,技术,和,和网,络,络技,术,术的,成,成熟,,,,企,业,业中,的,的数,据,据和,信,信息,的,的处,理,理方,式,式也,发,发生,了,了变,化,化,,从,从而,导,导致,数,数据,库,库技,术,术出,现,现了,新,新的,发,发展,趋,趋势,,,,这,些,些新,趋,趋势,允,允许,组,组织,在,在不,同,同的,场,场所,对,对数,据,据进,行,行处,理,理,,允,允许,数,数据,库,库中,存,存放,声,声音,,,,图,像,像等,,,,并,允,允许,在,在大,量,量的,,,,杂,乱,乱无,章,章的,数,数据,中,中找,出,出某,些,些相,关,关性,。,。这,使,使得,数,数据,库,库技,术,术发,展,展到,了,了高,级,级,数,数,据,据,库,库阶,段,段,。,。,38,分,分,布,布,式,式,数,数,据,据,库,库,分,布,布,式,式,数,数,据,据,库,库,是,是,由,由,一,一,组,组物,理,理,位,位,置,置,分,分,散,散的,数,数,据,据,库,库,构,构,成,成,的,的,,,,,它,它,们,们,在,在逻,辑,辑,上,上,属,属,于,于,同,同,一,一,个,个,系,系,统,统,。,分,布,布,式,式,数,数,据,据,库,库,系,系,统,统,可,可,以,以,简,简,单,单,地,地,被,被,看,看,成,成,是,是,“,“,数,数,据,据,库,库,系,系,统,统,+,计,算,算,机,机,网,网,络,络,”,”,,,,,但,但,它,它,又,又,不,不,是,是,二,二,者,者,的,的,简,简,单,单,结,结,合,合,,,,,而,而,是,是,两,两,种,种,技,技,术,术,的,的,互,互,为,为,渗,渗,透,透,与,与,融,融,合,合,。,。,它,要,要,管,管,理,理,的,的,不,不,是,是,单,单,个,个,数,数,据,据,库,库,系,系,统,统,,,,,而,而,是,是,分,分,布,布,在,在,许,许,多,多,不,不,同,同,地,地,域,域,上,上,的,的多个数,据,据库系,统,统。使用,计,计算机,网,网络也,不,不仅仅,是,是为了,简,简单的,传,传输文,件,件,而,是,是为了,更,更能适,应,应于一,个,个特定,组,组织高,效,效地管,理,理信息,。,。,39,分布式,数,数据库,系,系统具,有,有分布性,和,和逻辑,协,协调性的特点,。,。,分布性:,是指数,据,据不是,存,存放在,单,单一场,地,地为单,个,个计算,机,机配置,的,的存储,设,设备上,,,,而是按全局,需,需要将,数,数据划,分,分成一,定,定结构,的,的数据,子,子集,分散的,存,存储在各个,节,节点上,,,,提高,了,了数据,的,的处理,效,效率。,逻辑协,调,调性:,是指各,节,节点上,的,的数据,子,子集,,相,相互间,由,由严密,的,的约束,规,规则加,以,以限定,,,,它们,既,既相互,独,独立又,逻,逻辑相,关,关,在逻辑上,形,形成一,个,个整体。,40,需关注,的,的问题,:,:,分布式,数,数据库,的,的性能,取,取决于高质量,的,的网络,通,通信线,路,路,线路,的,的脆弱,会,会严重,影,影响分,布,布式数,据,据库的,运,运行功,效,效。,同时由,于,于远程,数,数据库,要,要不断,从,从中央,数,数据库,取,取数据,,,,这样,就,就牵涉,到,到一个,敏,敏感的,数,数据的,安,安全性,保,保护的,问,问题,,也,也需要,建,建立有,效,效的手,段,段加以,保,保证。,41, 多,媒,媒体数,据,据库,随着信,息,息数量,和,和多媒,体,体数据,的,的引入,,,,信息,的,的管理,和,和检索,变,变得越,来,来越困,难,难,给,数,数据库,技,技术带,来,来了新,的,的挑战,。,。,20,世纪,80,年代,,由,由于计,算,算机在,处,处理声,音,音和图,像,像信息,方,方面的,发,发展,,出,出现了,声,声音文,件,件和图,像,像文件,,,,于是,就,就诞生,了,了多媒,体,体数据,处,处理的,新,新方法,-,多媒体,数,数据库。,42,多媒体是指多,种,种媒体,,,,如数,字,字,正,文,文,图,形,形,图,像,像和声,音,音的有,机,机集成,。,。,多媒体,数,数据库,,,,是指在,数,数据库,中,中不仅,可,可以存,储,储文本,和,和数据,,,,而且,还,还可以,存,存储图像,,音,音频和,视,视频信,息,息以及这,些,些不同,类,类型数,据,据间的,复,复杂关,系,系。,43,数,数据,仓,仓库,随着,市,市场,竞,竞争,的,的加,剧,剧和,信,信息,社,社会,需,需求,的,的发,展,展,,从,从大,量,量数,据,据中,提,提取,(,(检,索,索和,查,查询,等,等),制,制定,相,相应,策,策略,的,的信,息,息就,显,显得,越,越来,越,越重,要,要。,如,,超,超市,的,的经,营,营者,希,希望,知,知道,哪,哪些,商,商品,经,经常,被,被同,时,时购,买,买;,保,保险,公,公司,想,想知,道,道购,买,买保,险,险的,客,客户,的,的一,般,般特,征,征;,医,医学,研,研究,人,人员,希,希望,从,从已,有,有的,成,成千,上,上万,份,份病,历,历中,找,找出,患,患有,某,某种,疾,疾病,的,的病,人,人的,共,共同,特,特征,,,,从,而,而为,治,治愈,这,这种,疾,疾病,提,提供,帮,帮助,等,等。,1.,为什,么,么要,建,建立,数,数据,仓,仓库,?,?,45,从数,据,据库,到,到数,据,据仓,库,库,管理,信,信息,的,的处,理,理类,型,型:,(,1,)事,务,务型,处,处理,:,:,业务,操,操作,处,处理,,,,用,来,来协,助,助企,业,业对,相,相应,事,事件,或,或事,务,务的日常,商,商务,活,活动进行,处,处理,。,。是,事,事件,驱,驱动,、,、面,向,向应,用,用的,,,,通,常,常是,对,对一,个,个,/,组记录的,增,增、删、,改,改以及简,单,单查询等,,,,以满足,组,组织特定,的,的日常管,理,理需要;,(,2,)分析型,处,处理:,用于管理,人,人员的决策分析,例如,DSS,、,EIS,和多维数,据,据分析等,。,。帮助决,策,策者分析,数,数据以察,看,看趋向、,判,判断问题,。,。分析型,处,处理经常,要,要访问大,量,量的历史,数,数据,支,持,持复杂的,查,查询分析,。,。,1,)数据库,的,的局限,数据库作,为,为数据资,源,源,主要,用,用于管理,业,业务中的,事务处理,。,如,电信,部,部门的计,费,费数据库,用,用于记录,客,客户的通,信,信消费情,况,况;银行,的,的数据库,用,用于记录,客,客户的账,号,号、密码,、,、存入和,支,支出等一,系,系列业务,行,行为,。,数据库中,存,存放的数,据,据基本上,是,是保存,当前数据,,并随业,务,务的变化,随,随时更新,数,数据库中,的,的数据。,不同的管,理,理业务需,要,要建立,不同的,数据库。,例如,银,行,行中储蓄,业,业务、信,用,用卡业务,分,分别要建,立,立储蓄数,据,据库和信,用,用卡数据,库,库。,1,)数据库,的,的局限,当事务型,处,处理环境,和,和分析型,处,处理环境,在,在,同一个,数据库系,统,统中,,事务型处,理,理对数据,的,的存取操,作,作频率高,,,,操作处,理,理的时间,短,短,而分,析,析型处理,可,可能需要,连,连续运行,几,几个小时,,,,从而消耗大量,的,的系统资,源,源,。,决策型分,析,析数据的,数,数据量大,,,,这些数,据,据有来自,企,企业内部,的,的,也有,来,来自企业,外,外部的。,来,来自企业,外,外部的数,据,据又可能,来,来自不同,的,的数据库,系,系统(,异构,),在分,析,析时如果,直,直接对这,些,些数据操,作,作会造成,分,分析的混,乱,乱。对于,外,外部数据,中,中的一些,非,非结构化,数,数据,数,据,据库系统,常,常常是无,能,能为力的,。,。,48,2,)操作型,与,与分析型,环,环境的分,离,离,要摆脱传,统,统数据库,面,面临的困,境,境,必须,将,将用于事务处理,的,的数据环,境,境和用于,数,数据分析,的,的数据环,境,境分离:,(,1,)事务型,处,处理:,以传统,数据库为,中,中心,进行企业,的,的日常业,务,务处理,,其,其使用人,员,员通常是,企,企业 的,具,具体操作,人,人员;处,理,理企业业,务,务的,细节,信息,以,实,实现企业,的,的业务运,营,营;,(,2,)分析型,处,处理:,分析数据,背,背后的关,联,联和规律,,,,为企业,决,决策提供,可,可靠依据,,,,其使用,人,人员通常,是,是企业的,中,中高层管,理,理者,或,从,从事数据,分,分析的工,程,程师;处,理,理企业的,宏观,信息,而,非,非具体细,节,节,以为,企,企业的决,策,策者提供,支,支持信息,。,。,49,分离示意,图,图,50,2,)操作型,与,与分析型,环,环境的分,离,离,操作型处,理,理和分析,型,型处理的,分,分离,划,清,清了数据,处,处理的分,析,析型环境,与,与操作型,环,环境之间,的,的界限,,从,从而由原,来,来的以单,一,一数据库,为,为中心的,数,数据环境,发,发展为以,数,数据库为,中,中心的业,务,务处理系,统,统和以数,据,据仓库为,基,基础的分,析,析系统。,企业的生,产,产环境,,也,也由以数,据,据库为中,心,心的环境,发,发展为以,数据仓库,为,为中心,的环境。,51,52,转换同时,进,进行的集,成,成,2.,什么是数,据,据仓库?,数据仓库,(,(,DataWarehouse,),数据仓库,是,是为构建分析型数,据,据处理环境而出,现,现的一种,数,数据存储,和,和组织技,术,术。用来,保,保存从多,个,个数据库,或,或其它信,息,息源选取,的,的数据,,并,并为上层,应,应用提供,统,统一用户,接,接口,完,成,成数据查,询,询和分析,。,。,在数据仓,库,库的发展,过,过程中,,许,许多人作,出,出重要贡,献,献:,Devlin &Murphy,(,1988,):发表,关,关于数据,仓,仓库论述,的,的最早文,章,章;,WilliamH.Inmon,(,1993,):,Building the Data Warehouse,,首次系,统,统阐述数,据,据仓库的,思,思想、理,论,论,被尊,为,为“,数据仓库,之,之父,”。,数据仓库,(,(,DataWarehouse,),数据仓库,的,的定义很,多,多,但却,很,很难有一,种,种严格的,定,定义,:,它是一个,提,提供决策,支,支持功能,的,的数据库,,,,它与公,司,司的操作,数,数据库分,开,开维护。,为统一的,历,历史数据,分,分析提供,坚,坚实的平,台,台,对信,息,息处理提,供,供支持。,数据仓库,是,是一个面,向,向主题的,、,、集成的,、,、随时间,而,而变化的,、,、不容易,丢,丢失的数,据,据集合,,支,支持管理,部,部门的决,策,策过程,3.,数据仓库,有,有哪些特,点,点?,数据仓库,的,的关键特,征,征,关键特征,:,:,面向主题;,集成的;,随时间而变,化,化的(时变的);,不容易丢失,的,的(稳定的)。,58,面向主题,面向主题,,是,是数据仓库,显,显著区别于,关,关系数据库,系,系统的一个,特,特征,;,给出数据仓,库,库中数据组,织,织的基本原,则,则,数据仓,库,库中所有数,据,据都是围绕,某,某一主题组,织,织、展开的,;,;,主题在逻辑,上,上对应的是,企,企业中,某一宏观分,析,析领域,所,涉及的分析,对,对象,;要能刻画,分,分析对象所,涉,涉及的企业,各,各项数据,,以,以及数据间,的,的联系。,如,一个生,产,产企业的数,据,据仓库所组,织,织的主题可,能,能是产品订,货,货分析和货,物,物发运分析,,,,而按应用,组,组织的话可,能,能为财务子,系,系统、供应,子,子系统、销,售,售子系统、,人,人力资源子,系,系统和生产,调,调度子系统,等,等。,典型的主题,领,领域:客户,、,、产品、交,易,易、账目等,。,。,59,面向主题,关注决策者,的,的数据建模,与,与分析,而,不,不是集中于,组,组织机构的,日,日常操作和,事,事务处理。,60,集成性,一个数据仓,库,库是通过集,成,成多个异种,数,数据源来构,造,造的;,关系数据库,,,,一般文件,,,,联机事务,处,处理记录,数据仓库中,的,的综合数据,不,不能从原有,的,的数据库系,统,统直接得到,,,,需使用数,据,据清理和数,据,据集成技术,对,对数据进行,处,处理:,统一元数据,中,中矛盾之处,:,:确保命名,约,约定、编码,结,结构、属性,度,度量等的一,致,致性。,当数据被移,到,到数据仓库,时,时,它们要,经,经过转化:,进,进行数据综,合,合和计算。,61,随时间而变,化,化的(时变,的,的),数据仓库从,历,历史的角度,来,来提供信息,:,:,时间范围比,操,操作数据库,系,系统要长的,多,多,操作数据库,系,系统,:,主要保存当,前,前数据;,数据仓库,:,从历史的角,度,度提供信息,(,(比如过去,5-10,年),62,数据不易丢,失,失(稳定的,),),尽管数据仓,库,库中的数据,来,来自于操作,数,数据库,但,他,他们却是在,物,物理上分离,保,保存的,操作数据库,的,的更新操作,不,不会出现在,数,数据仓库环,境,境下。,只进行两种,数,数据访问:,数据的初始,装,装载;,查询操作。,数据仓库与,传,传统数据库,的,的区别,比较项目,传统数据库,数据仓库,总体特征,高效的事务处理,提高决策支持,存储内容,当前数据为主,历史的、存档的、归纳的数据,面向对象,普通的业务处理人员,高级的决策管理人员,功能目标,面向业务操作,面向主题,注重分析,主要任务,联机事务处理,OLTP,联机分析处理,OLAP,汇总情况,原始数据,不做汇总,多层次汇总,数据库设计,实体联系模型,(ER),和面向应用的数据库设计,星型,/,雪花模型和面向主题的数据库设计,数据视图,当前的,企业内部的数据,演化的、集成的数据,访问模式,事务操作,只读查询,数据规模,较小(,100MB1GB,),较大(,10GB,以上),数据访问量,数十条记录,数百万条记录,响应要求,很高的实时性,对实时性要求不高,度量,事务吞吐量,查询吞吐量、响应时间,64,数据集市(,DataMart,)的产生,数据仓库的,局,局限:,企业级应用,,,,涉及的范,围,围和投入的,成,成本非常巨,大,大;,而企业的部,门,门,/,工作组常要,求,求在企业内,部,部获得一种,适,适合自身应,用,用、容易使,用,用,且自行,定,定向、方便,高,高效的开放,式,式数据接口,工,工具。,这种需求使,得,得“,数据集市,”应运而生,。,。,65,数据集市的,定,定义,业界对数据,集,集市的定义,差,差别较大,,但,但普遍认为,:,:,数据集市是,一,一种,更小、更集,中,中的数据仓,库,库(子集),;,它为企业提,供,供了一条部,门,门,/,工作组级的,分,分析商业数,据,据的廉价途,径,径。,与数据仓库,相,相比,数据,集,集市的数据,量,量要小得多,。,。,66,数据集市与,数,数据仓库的,区,区别,数据仓库,:企业级的,能为整,个,个企业各个,部,部门的运行,提,提供决策支,持,持手段;,数据集市,:微型的数,据,据仓库,通,常,常有更少的,数,数据,更少,的,的主题区域,,,,更少的历,史,史数据,因,此,此是部门级的,只能为,某,某个局部范,围,围内的管理,人,人员服务,,因,因此被称为,“,“,部门级数据,仓,仓库,”。,67,数据集市的,分,分类,数据集市有,两,两种类型:,独立型数据,集,集市,:,为满足企业,内,内部各部门,的,的分析需求,而,而建立的微,型,型数据仓库,。,。可实施集,成,成,以构建,完,完整的数据,仓,仓库,。,从属型数据,集,集市,:,其内容不直,接,接来源于外,部,部数据源,,而,而是从中央,数,数据仓库中,得,得到。在数,据,据仓库内部,,,,数据根据,分,分析主题,,被,被划分为若,干,干子集,而,面,面向某一具,体,体主题在逻,辑,辑上或物理,上,上划分形成,的,的子集,就,是,是从属型数,据,据集市。,68,独立型数据,集,集市,从属型数据,集,集市,69,数据仓库是,信,信息技术领,域,域谈论的一,个,个热门话题,。,。,数,据,据,仓,仓,库,库,概,概,念,念,是,是,对,对,数,数,据,据,库,库,概,概,念,念,的,的,进,进,一,一,步,步,深,深,化,化,。,。,数,数,据,据,仓,仓,库,库,的,的,建,建,立,立并,不,不,是,是,要,要,取,取,代,代数,据,据,库,库,,,,,它,它,建,建,立,立,在,在,一,一,个,个,较,较,全,全,面,面,和,和,完,完,善,善,的,的,信,信,息,息,应,应,用,用,基,基,础,础,之,之,上,上,,,,,用,用,于,于,支,支,持,持,高,高,层,层,决,决,策,策,的,的,分,分,析,析,。,。,注,意,意,:,:,70,数,据,据,仓,仓,库,库,是,是,现,现,有,有,的,的,数,数,据,据,库,库,系,系,统,统,中,中,的,的,数,数,据,据,和,和,其,其,它,它,一,一,些,些,外,外,部,部,数,数,据,据,的,的,一,一,次,次,重,重,组,组,,,,,重,重,组,组,时,时,要,要,以,以,数,数,据,据,仓,仓,库,库,能,能,更,更,好,好,地,地,为,为,决,决,策,策,分,分,析,析,应,应,用,用,提,提,供,供,数,数,据,据,支,支,持,持,为,为,原,原,则,则,。,。,简,单,单,地,地,说,说,,,,,数,数,据,据,仓,仓,库,库,就,就,是,是,一,一,个,个,为,为特,定,定,的,的,决,决,策,策,分,分,析,析,而,而,建,建,立,立,的,的,数,数,据,据,仓,仓,储,储。,71,(,三,三,),),商,商,务,务,智,智,能,能,技,技,术,术,如,何,何,对,对,数,数,据,据,进,进,行,行,快,快,速,速,和,和,准,准,确,确,分,分,析,析,,,,,从,从,而,而,为,为,企,企,业,业,做,做,出,出,更,更,好,好,的,的,商,商,业,业,决,决,策,策,,,,,带,带,来,来,竞,竞,争,争,优,优,势,势,,,,,这,这,是,是,商,商,务,务,智,智,能,能,研,研,究,究,的,的,问,问,题,题,。,。,任何好,的,的商务,决,决策都,需,需要事,实,实和数,字,字支持,。,。一个,决,决策的,正,正确程,度,度取决,于,于所使,用,用的事,实,实和数,字,字的正,确,确程度,。,。随着,竞,竞争的,加,加快,,需,需要在,较,较短的,时,时间内,做,做出决,策,策。因,此,此,在,该,该时间,段,段内,,能,能够尽,可,可能多,地,地获得,相,相关信,息,息就变,得,得越来,越,越关键,。,。,72,在这些,实,实践的,需,需求下,,,,人们,发,发明了,许,许多数,据,据分析,的,的技术,。,。总起,来,来讲,,数,数据分,析,析技术,的,的发展,可,可分为三个阶,段,段:,(,1,)报表,查,查询;,(,2,)联机,分,分析处,理,理(,OLAP,);,(,3,)数据,挖,挖掘。,73,(,1,)联机分,析,析处理,OLAP,联机分,析,析处理,(,(,On-Line Analysis Processing,),简,写,写为,OLAP,。,OLAP,是关系,数,数据库,的,的奠基,人,人在,1993,年提出,来,来的,,主,主要用,于,于对大,量,量多维数,据,据的动态,综,综合,,分,分析和,归,归纳。,74, 什,么,么是多,维,维分析,“,多维分,析,析,”,是,OLAP,中的一,个,个主要,操,操作。,维是人们,观,观察数,据,据的特,定,定角度,。,。,如,一,个,个企业,在,在考虑,产,产品的,销,销售情,况,况时,,通,通常从,时,时间、,地,地区和,产,产品的,不,不同角,度,度来深,入,入观察,产,产品的,销,销售情,况,况。这,里,里的时,间,间、地,区,区和产,品,品就是,维,维,。而,这,这些,维,维的,不,不同,组,组合,和,和所,考,考察,的,的度,量,量指,标,标构,成,成的,多,多维,数,数组,则,则是,报,报表,分,分析,的,的基,础,础,,可,可形,式,式化,表,表示,为,为(,地,地区,、,、时,间,间、,产,产品,、,、销,售,售额,),)。,75,多维,分,分析,是指,对,对以,多,多维,形,形式,组,组织,起,起来,的,的数,据,据通,过,过各,种,种分,析,析动,作,作,,剖,剖析,数,数据,,,,使,用,用户,能,能从多个,角,角度,、,、多,侧,侧面地观,察,察数,据,据库,中,中的,数,数据,,,,从,而,而深,入,入理,解,解包,含,含在,数,数据,中,中的,信,信息,。,。,76,切片,和,和切,块,块,(sliceanddice),切片,:,:在多,维,维视,图,图中,,,,如,果,果某,个,个维,度,度上,的,的取,值,值选,定,定了,一,一个固定,值,值,原,视,视图,就,就降,低,低了,一,一个,维,维度,,,,可,能,能就,把,把原,来,来的,三,三维,视,视图,变,变成,了,了二,维,维,,四,四维,变,变成,了,了三,维,维,,即,即进,行,行了切片操作,。,。,切块,:,:如果,某,某个,维,维度,上,上的,取,取值,范,范围,缩,缩小,到,到一,个,个区间,原,视,视图,的,的维,度,度没,有,有降,低,低,,但,但内,容,容减,少,少了,,,,即,进,进行,了,了切块操作,。,。,多,多维,分,分析,的,的方,法,法,77,切片,与,与切,块,块,78,钻取,(drill),多维,视,视图,中,中的,每,每个,维,维度,的,的取,值,值可,以,以分,层,层,,如时,间,间维,的,的取,值,值可,以,以按,年,年,-,季,-,月,-,日分,层,层;,地,地区,可,可以,按,按州,-,国家,-,地区,-,城市,分,分层,。,钻取就是,按,按某个维,度,度上的不,同,同取值层,次,次变换多,维,维视图,,钻,钻取包括向上钻取(,rollup,)和向下钻取(,drilldown,)。,rollup,:在某一维,上,上将低层,次,次的细节,数,数据概括,到,到高层次,的,的汇总数,据,据,或者,减,减少维数,;,;,drilldown,:从汇总,数,数据深入,到,到细节数,据,据进行观,察,察或增加,新,新维。,如从月份,到,到年为向,上,上钻取,,反,反之为向,下,下钻取。,79,钻取,80,旋转(,rotate,),变换维的,方,方向,即在表,格,格中重新,安,安排维的,放,放置(例,如,如行列互,换,换 )。,通过对多,维,维视图中,各,各个坐标,的,的旋转变,化,化可以得,到,到不同视,角,角的数据,。,。,如,从分,析,析产品在,不,不同月份,的,的销售情,况,况,旋转,为,为某月份,哪,哪些产品,的,的销售情,况,况较好。,81,旋转,/,转轴,82,(,2,)数据挖掘,DM,数据挖掘(,DataMining,,,DM,)是从数,据,据库中抽,取,取隐含的,,,,以前未,知,知的,具,有,有潜在应,用,用价值的,信,信息的过,程,程,。,数据挖掘建立在数,据,据仓库基础之上,,,,面向非,专,专业用户,,,,支持即,兴,兴的随机,查,查询,能,自,自动分析,数,数据,对,它,它们进行,归,归纳性推,理,理和联想,,,,寻找数,据,据间内在,的,的某些关,联,联,从中,发,发掘出潜,在,在的,对,信,信息预测,和,和决策行,为,为起着十,分,分重要作,用,用的模式,,,,从而建,立,立新的业,务,务模型,,以,以帮助决,策,策者制定,市,市场策略,,,,做出正,确,确决策。,83,数据挖掘,的,的主要方,式,式:,分类,(classification),分类是从,大,大量数据,中,中找出不,同,同类别对,象,象的特征,,,,从而对,新,新加入的,对,对象能自,动,动分类。,首先从数,据,据中选出,已,已经分好类的,训,训练集,在该训,练,练集上运,用,用数据挖,掘,掘分类的,技,技术,建,立,立分类模,型,型,对那,些,些没有分,类,类的数据,进,进行分类,。,。因此,,分,分类是一,种,种“有监督” 的学,习,习。,例如银行,会,会根据各,类,类客户的,数,数据特征,,,,把客户,分,分为低、,中,中、高信,誉,誉度三类,,,,以后就,能,能快速判,断,断一个新,客,客户的信,用,用类别;,还,还可用于,预,预测可能,流,流失投奔,竞,竞争对手,的,的客户等,。,84,数据分类,过,过程,数据分类,是,是一个两,步,步的过程,:,1,)建立分,类,类模型,:机器学习,过,过程,通,过,过某种分,类,类算法对,训,训练集进,行,行训练,,得,得到分类,模,模型;,“有指导,的,的学习”,、,、“有监,督,督的学习,”,”,假定每,个,个元组,属,属于一,个,个预定,义,义的类,,,,由一,个,个称为,类标号,属,属性,的属性,确,确定;,训练数,据,据集:,为,为建立,分,分类模,型,型而被,分,分析的,数,数据元,组,组,2,)使用,模,模型进,行,行分类,:,测试数,据,据集:,用,用于评,估,估模型,的,的预测,准,准确率,。,。模型,在,在测试,集,集上的,准,准确率,是,是正确,被,被模型,分,分类的,测,测试样,本,本所占,的,的百分,比,比。,如认为,模,模型的,准,准确率,可,可以接,受,受,就,可,可以用,它,它来对,类,类标号,未,未知的,数,数据元,组,组或对,象,象进行,分,分类。,85,图分类示,意,意图,86,分类过,程,程的第,一,一步:,学,学习建,模,模,87,分类过,程,程的第,二,二步:,分,分类测,试,试,88,聚类,(clustering),聚类是,一,一个将,数,数据集,划,划分为,若,若干组,(,(,class,)或类,(,(,cluster,)的过,程,程,并,使,使得同,一,一个组,内,内的数,据,据对象,具,具有较,高,高的相,似,似度;,而,而不同,组,组中的,数,数据对,象,象是不,相,相似的,。,。,相似或,不,不相似,是,是基于,数,数据描,述,述属性,的,的取值,来,来确定,的,的,通,常,常利用,各,各数据,对,对象间,的,的,距离,来进行,表,表示,。,例如通,过,过聚类,将,将超市,的,的客户,划,划分成,互,互不相,交,交的客,户,户群,,以,以后超,市,市可以,为,为不同,的,的客户,群,群推荐,不,不同的,目,目标商,品,品;对,租,租,VCD,影碟的,客,客户进,行,行聚类,,,,可能,得,得到属,于,于不同,的,的文化,群,群的客,户,户。,聚类与,分,分类的,主,主要区,别,别:,聚类是,一,一种,无(教,师,师)监,督,督,的学习,方,方法。,
展开阅读全文