数据仓库与数据挖掘简介

上传人:f21****12 文档编号:243914087 上传时间:2024-10-01 格式:PPTX 页数:53 大小:655.92KB
返回 下载 相关 举报
数据仓库与数据挖掘简介_第1页
第1页 / 共53页
数据仓库与数据挖掘简介_第2页
第2页 / 共53页
数据仓库与数据挖掘简介_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/1/21,#,数据仓库 与 数据,挖掘,转,自,-,同济大学,经济与管理学院,黄立平 教授,目录,一、数据库,相,相关,1.1数据库技术的发展,1.2数据库应用中,存,存在的问题,1.3海量数据要,求,求强有,力,力的数,据,据分析工具,二、数,据,据仓库,2.1什么是数据,仓,仓库DW,(,( datawarehouse)?,2.2数据仓库的,主,主要特征,2.3DW概念总,结,结,2.4操作型数据库,系,系统与,数,数据仓,库,库的区,别,别,2.5数据仓库的,数,数据模,型,型,2.6OLTP和OLAP的主要区别,目录,2.7数据仓,库,库与操,作,作数据,库,库为什,么,么是分,离,离的?,2.8多维数据模,型,型,三、数,据,据挖掘,3.1什么是数据,挖,挖掘?,3.2数据挖掘的,特,特点,3.3数据挖掘的,分,分类,3.4数据挖,掘,掘的两,种,种功能,3.5数据挖掘和,知,知识发,现,现的联系,3.6数据挖,掘,掘实例,一、数据库相关1.1数据库,技,技术的,发,发展,收集和数据,库,库创建( 20世纪60年代和,更,更早),-原始文,件,件处理,数据库,管,管理系,统,统(20世纪70年代),-层次、,网,网状、,关,关系数,据,据库系,统,统,-数据建,模,模工具,:,:实体-联系(ER)模型等,-索引和,数,数据组,织,织技术,-查询语,言,言:SQL、用户,界,界面:表单、,报,报告等,-查询处,理,理和查,询,询优化,、,、事务,并,并发控,制,制等,-联机事,务,务处理(OLTP),1.1数据库,技,技术的,发,发展,高级数,据,据库系,统,统(80年代中,期,期现在),-高级数,据,据模型:扩充关,系,系、面,向,向对象,、,、对象-关系,-面向应,用,用:空,间,间的、,时,时间的,、,、多媒,体,体的、,主,主动的,、,、科学,的,的、知,识,识库,数据仓,库,库和数,据,据挖掘(80年代后,期,期现在),-数据仓,库,库和OLAP技术,-数据挖,掘,掘和知,识,识发现,基于Web的数据,库,库系统(90年代现在),-基于XML的数据,库,库系统,-Web挖掘,1.2数据库,应,应用中,存,存在的,问,问题,“数据丰,富,富,信,息,息贫乏”。存储了,大,大量数,据,据的数,据,据库变,成,成了“,数,数据坟,墓,墓”难以再,访,访问的,数,数据档,案,案;,在大型,数,数据库,中,中快速,增,增长着,海,海量数,据,据,理解数,据,据的含,义,义已经,远,远远超,出,出了人,的,的能力;,领导者,的,的重要,决,决策往往无法、,及,及时获,得,得信息,因为缺乏从,海,海量数,据,据中提,取,取有价,值,值知识,的,的工具;若在,当,当前运,行,行的操,作,作数据,库,库中获,取,取信息,,,,则影,响,响数据,库,库的使,用,用和性,能,能,1.3海量数,据,据要求,强,强有力,的,的数据,分,分析工,具,具,以前的,专,专家系,统,统依赖用,户,户或某,领,领域的,专,专家人工地,将,将知识,输,输入知,识,识库;这一,过,过程常,常,常有偏差,和,和错误,并且耗时、费用高,;,;,使用数,据,据挖掘,工,工具进,行,行数据,分,分析;,可,可以发现重,要,要的数,据,据模式,对商,务,务决策,、,、知识,库,库、科,学,学和医,学,学研究,作,作出了,巨,巨大贡,献,献;,数据和,信,信息之,间,间的差,距,距,要,求,求系统,地,地开发,数,数据挖,掘,掘工具,,,,将沉寂,的,的数据,转,转换成,宝,宝贵的,知,知识。,二、数,据,据仓库2.1什么是,数,数据仓,库,库DW,(,( datawarehouse ),?,?,数据仓,库,库可以看,作,作是一,种,种特殊,的,的关系数,据,据库。,DW是一个面向主,题,题的、集成的、不更新的、随时间,变,变化的数据,集,集合,,用,用于支持管,理,理部门,的,的决策过,程,程。,DWS允许将各种,应,应用系,统,统集成在一起,为,为统一,的,的历史,数,数据分,析,析提供,坚,坚实的,平,平台,,对,对信息,处,处理、,决,决策提,供,供支持,。,。,2.2数据仓,库,库的主,要,要特征,面向主题的( subject,oriented,),):,(1),所谓主题(宏观,领,领域),,,,如顾,客,客、供,应,应商、,产,产品和,销,销售组,织,织;是,在,在高层,次,次上将,企,企业IS中的数,据,据综合,、,、归类,并,并进行,分,分析利,用,用的抽,象,象。面向主,题,题,是指,数,数据仓,库,库内的,信,信息是,按,按主题,进,进行组,织,织的,,为,为按决,策,策的过,程,程提供,信,信息。,(2),DW关注决,策,策者的数据建,模,模与分,析,析,而传,统,统数据,库,库是面,向,向应用,的,的,集,中,中于组,织,织机构,的,的日常,操,操作和,事,事务处,理,理。,(3),DW排除对,于,于决策,无,无用的,数,数据,提供特,定,定主题,的,的简明,视,视图。,2.2数据仓,库,库的主,要,要特征,(4)传统数,据,据库使,用,用OLTP联机事,务,务处理,方,方式,进行,数,数据组,织,织时考,虑,虑记录,每,每一笔,业,业务的,情,情况;,数据仓,库,库使用OLAP联机分,析,析处理,方,方式,进行,数,数据分,析,析处理,,,,以主,题,题为单,位,位组织,数,数据,,例,例如:,供,供应商,、,、商品,、,、顾客,等,等。,(5)面向主,题,题的数据,组,组织方,式,式要求将数据,组,组织成,主,主题域,各主,题,题域之,间,间有明,确,确的界,限,限(独,立,立性),,,,在某,一,一主题,内,内的数,据,据应该,包,包括分,析,析处理,所,所要求,的,的一切,数,数据(,完,完备性,),)。,2.2数据仓,库,库的主,要,要特征,集成的(integrated),:,:,(1)构造数,据,据仓库是将多个不,同,同的数,据,据源,如关,系,系数据,库,库、一,般,般文件,和,和联机,事,事务处,理,理记录,,,,集成在一起,。,。,(2)将多个系,统,统的数,据,据进行计算和,整,整理,,保,保证DW的数据,是,是关于整,个,个系统,的,的、一致的、全局的。,使用数据清,理,理和数,据,据集成,技,技术,确保,命,命名约,定,定、编,码,码结构,、,、属性,等,等的数,据,据结构一致性,。,保证各,数,数据源,中,中数据的一致性。,2.2数据仓,库,库的主,要,要特征,不更新,的,的,(nonvolatile,),):,(1)访问,数,数据仓,库,库主要,是,是两种,方,方式:数据的,插,插入和,查,查询。修改和,删,删除操,作,作很少。,(2)DW的数据与操作,环,环境下,的,的应用,数,数据分开存,放,放。因此,,,,数据,仓,仓库不,需,需要在,操,操作环,境,境下事,务,务处理,、,、恢复,和,和并发,控,控制等,机,机制。,2.2数据仓,库,库的主,要,要特征,随时间,变,变化的,(time-variant,),):,(1)数据仓,库,库记录了,从,从过去某,一,一时间,到,到目前,的,的各个,阶,阶段的,信,信息,通过,这,这些信,息,息,可,以,以表明,发,发展历,程,程并对,未,未来的,趋,趋势作,出,出定量,分,分析和,预,预测。,(2)DW的数据,结,结构,,隐,隐式或,显,显式地,包,包含时,间,间元素,;,;其包,含,含的大,量,量综合,数,数据也,与,与时间,相,相关,,例,例如:,月,月产量,。,。,(3)DW随时间,变,变化不,断,断增加,新,新的数,据,据内容;去掉超,过,过时限(例如,:,:510年)的数据。,2.3DW概念总,结,结,DW概念总,结,结:,数据仓,库,库是一,种,种语义,上,上一致,的,的数据,存,存储体,系,系结构,;,;,DW是决策,支,支持数,据,据模型,的,的物理,实,实现,,并,并存放,企,企业战,略,略决策,所,所需信,息,息;,DW通过将,异,异种数,据,据源中,的,的数据,集,集成在,一,一起构,造,造而成,;,;,完成各,种,种数据,查,查询、,信,信息分,析,析报告,和,和决策,支,支持。,2.4操作型,数,数据库,系,系统与,数,数据仓,库,库的区,别,别,操作型,数,数据库,系,系统的主要,任,任务是执行联,机,机事务,和,和查询,处,处理,称为,联,联机事,务,务处理(OLTP)系统。,它,它涵盖,了,了一个,组,组织的,大,大部分,日,日常操,作,作,如,采,采购、,制,制造、,库,库存、,销,销售、,财,财务、,银,银行等,事,事务。,DW在数据,分,分析和,决,决策方,面,面为决,策,策者提,供,供服务,。,。可以,用,用不同,的,的格式,去,去组织,和,和提供,数,数据,,以,以便满,足,足不同,用,用户的,形,形形色,色,色需求,。,。这种,系,系统称,为,为联机分,析,析处理(OLAP)系统。,2.5数据仓,库,库的数,据,据模型,数据仓库和OLAP通常是,基,基于多维数,据,据模型。,该模型,将,将数据,看,看作数据立,方,方体(data cube)形式,。,。,数据立,方,方体由,维,维和事,实,实来定,义,义;以多维,的,的形式,对,对数据,建,建模和,观,观察。,维是关于,一,一个组,织,织想要,记,记录的,透,透视或,实,实体。,事实是面向,某,某一主,题,题的数,据,据度量,,,,它表,示,示了多,个,个,分析维,之,之间的,分,分析结,果,果。,多维数,据,据模型通常有星型和雪花型两种形,式,式。,2.5数据仓,库,库的数,据,据模型,1.维维是人,们,们观察,数,数据的,特,特定角,度,度。例,如,如:时,间,间维是,商,商品销,售,售随时,间,间推移,发,发生的,变,变化;,地,地理维,是,是商品,在,在不同,地,地区的,销,销售分,布,布情况,。,。2.维的层,次,次某个维,以,以下存,在,在的对,细,细节的,多,多个描,述,述方面,,,,例如,:,:时间,维,维有年,、,、季度,、,、月、,日,日等不,同,同层次,。,。3.维成员维的一,个,个取值,是,是该维,的,的一个,成,成员。,2.5数据仓,库,库的数,据,据模型,4.多维数,组,组,一个多,维,维数组,可,可以表,示,示为(,维,维1,维2,维3,维n,变量);例如:,(,(地区,、,、时间,、,、销售,渠,渠道、,销,销售额,),),5.数据单,元,元多维数,组,组的取,值,值是数据单,元,元。例,如,如:(上海,,,,2002年2月,批,发,发,2188),2.6OLTP和OLAP的主要区别,服务对象:OLTP是面向顾,客,客的,用,于,于办事,员,员、客,户,户和信,息,息技术,专,专业人,员,员的事,务,务和查,询,询处理,。,。OLAP是面向市,场,场的,用,于,于经理,、,、主管,和,和信息,分,分析人,员,员的数,据,据分析,。,。数据内,容,容:OLTP系统管,理,理当前数,据,据。这种,数,数据太,琐,琐碎,,难,难以用,于,于决策,。,。OLAP系统管,理,理大量历史数,据,据,提供,汇,汇总和,聚,聚集机,制,制,并,在,在不同,的,的粒度,级,级别上,存,存储和,管,管理信,息,息。数,据,据易于,用,用作中,、,、高层,的,的决策,过,过程。,2.6OLTP和OLAP的主要,区,区别,数据库,设,设计:,OLTP系统采用E-R,(,(EntityRelationshipDiagram)实体-联系模,型,型和面向,应,应用的,数,数据库,设,设计。,OLAP系统采,用,用星型,或,或雪花,模,模型和,面,面向主,题,题的数,据,据库设,计,计,视图,:,OLTP系统主,要,要关注,一,一个企,业,业或部,门,门内部,的,的当前,数,数据,,而,而不涉,及,及历史,数,数据或,不,不同组,织,织的数,据,据。,OLAP系统由,于,于组织,的,的变化,常,常常跨,越,越数据,库,库模式,的,的多个,版,版本。,OLAP系统也,处,处理来,自,自不同,组,组织的,信,信息,,由,由多个,数,数据存,储,储集成,的,的信息,。,。由于,数,数据量,巨,巨大,OLAP数据也,存,存放在,多,多个存,储,储介质,上,上。,2.6OLTP和OLAP的主要,区,区别,访问模,式,式:,对OLTP系统的,访,访问主,要,要由短,的,的原子,事,事务组,成,成。这,种,种系统,需,需要并,行,行控制,和,和恢复,机,机制。,对OLAP系统的,访,访问大,部,部分是只读操作(由于大,部,部分数,据,据仓库,存,存放历,史,史数据,,,,而不,是,是当前,数,数据),尽管,许,许多可,能,能是复,杂,杂的查,询,询。,OLTP和OLAP的其他区,别,别:包括数,据,据库大,小,小、操,作,作的频,繁,繁程度,、,、性能,度,度量等,。,。,OLTP系统和OLAP系统的,比,比较表,特性OLTPOLAP,特征操作处,理,理,信,信,息,息处理,面向事务,分,分析,用户办事员,、,、客户,、,、数据,库,库专业,人,人员,经,经,理,理、主,管,管、分,析,析员,功能日常操,作,作,长,长,期,期信息,需,需求,,决,决策支,持,持,DB设计基于E-R,面向,应,应用,星,星型/雪花,,面,面向主,题,题,数据当前的,,,,确保,最,最新,历,历史,的,的,跨,时,时间维,护,护,汇总原始的,,,,高度,详,详细,汇,汇总,的,的,统,一,一的,视图详细,,一,一般关,系,系,汇,汇总,的,的,多,维,维的,工作单,位,位短的,,简,简单事,务,务,复,复杂查,询,询,存取读/写,大,大多为,读,读,关注数据输,入,入、存,储,储,信,信息输,出,出,操作主关键,字,字上索,引,引/散列,大,大量扫,描,描,访问记,录,录数量数十个,数,数百,万,万,用户数数千,数,数百,DB规模100MB到GB100GB到TB,优先高性能,,,,高可,用,用性,高,高灵活,性,性,端,点,点用户,自,自治,度量事务吞,吐,吐量,查,查,询,询吞吐,量,量,响,应,应时间,2.7数据仓,库,库与操,作,作数据,库,库为什,么,么是分,离,离的?,操作型数据库,存,存放了,大,大量数,据,据,为,什,什么不,直,直接在,这,这种数,据,据库上,进,进行联,机,机分析,处,处理,,而,而是另,外,外花费,时,时间和,资,资源去,构,构造一,个,个与之,分,分离的,数,数据仓,库,库?,主要原,因,因是提高,两,两个系,统,统的性,能,能。,操作数,据,据库是为已,知,知的任,务,务和负,载,载设计,的,的,如,使,使用主,关,关键字,索,索引,,检,检索特,定,定的记,录,录和优,化,化查询,;,;,数据仓,库,库的查询,通,通常是,复,复杂的,,,,涉及,大,大量数,据,据在汇,总,总级的,计,计算,,可,可能需,要,要特殊,的,的数据,组,组织、,存,存取方,法,法和基,于,于多维,视,视图的,实,实现方,法,法。,2.7数据仓,库,库与操,作,作数据,库,库为什,么,么是分离,的,的?,操作型,数,数据库,:,:支持多,事,事务的,并,并行处,理,理,需,要,要加锁,和,和日志,等,等并行,控,控制和,恢,恢复机,制,制,以,确,确保数,据,据的一,致,致性和,完,完整性,。,。数据仓,库,库:对数据,记,记录进,行,行只读,访,访问,,以,以进行,汇,汇总和,聚,聚集。如果OLTP和OLAP都在操,作,作型数,据,据库上,运,运行,,会,会大大,降,降低数,据,据库系,统,统的吞,吐,吐量。总之,,数,数据仓,库,库与操,作,作数据,库,库分离,是,是由于,这,这两种,系,系统中,数,数据的,结,结构、,内,内容和,用,用法都,不,不相同,。,。,两种系,统,统的数,据,据结构,、,、内容,和,和用法,都,都不相,同,同,操作型数据库一般不,维,维护历,史,史数据,,,,其数,据,据很多,,,,但对,于,于决策,是,是远远,不,不够的,。,。数据仓,库,库系统用于决,策,策支持,需,需要历,史,史数据,,,,将不,同,同来源,的,的数据,统,统一(如聚集,和,和汇总),产生,高,高质量,、,、一致,和,和集成,的,的数据,。,。,操作型,数,数据库只维护,详,详细的,原,原始数,据,据(如事务),这些,数,数据在,进,进行分,析,析之前,需,需要统,一,一。,由于两,个,个系统,提,提供很,不,不相同,的,的功能,需要,不,不同类,型,型的数据,因此,需,需要维,护,护分离的数据,库,库。,2.8多维数,据,据模型,数据仓库,和,和OLAP基于多维数,据,据模型。该模,型,型将数,据,据看作数据立,方,方体(datacube)形式。,数据立方,体,体允许以,多,多维对,数,数据建,模,模和观,察,察。它,由,由维和,事,事实定,义,义。,维是关于,一,一个组,织,织想要,记,记录的,视,视图或,实,实体。,例,例如,,,,商店,可,可能创,建,建一个,数,数据仓,库,库sales,记录,商,商店的,销,销售,,涉,涉及维time,item(商品,类,类),branch(分店,),)和location(地点,),)。这,些,些维使,得,得商店,能,能够记,录,录商品,的,的月销,售,售,销,售,售商品,的,的分店,和,和地点,。,。,2.8多维数,据,据模型,主题,:,多维数,据,据模型,围,围绕中,心,心主题(例如sales)组织。,主题用事实表表示。事实是用数,值,值度量,的,的。根,据,据它们,分,分析维,之,之间的,关,关系。,例,例如,sales销售数,据,据仓库,的,的事实,包,包括dollars_sold,(,(销售的,款,款项),units_sold(销售量)和amount,_,_budgeted(预销,量,量)。,事实表包括事,实,实的名,称,称,以,及,及每个,相,相关维,表,表的关,键,键字。,2.8多维数,据,据模型,例:某连,锁,锁商店,的,的销售,数,数据按,照,照维time季度,,item商品类的2-D视图(其中销,售,售数据,是,是取自Location=,“,“Vancouver”的所有,分,分店,,销,销售金,额,额单位,是,是1000美元)。,item(商品类)_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,_,季度家庭娱,乐,乐,计,计,算,算机,电,电,话,话,安,安全,设,设备,Q160582514400,Q268095231512,Q3812102330501,Q4927103838580,2.8多维数,据,据模型,以三维角,度,度观察该,连,连锁商,店,店的销,售,售数据,。,。例如,,,,根据time,item和location城市观察数,据,据。,location是Chicago,NewYork,Toronto和Vancouver。,location“Chicago”;location“NewYork”,.,.,.,.,(该市,上,上述二,维,维表,略,略),(,(该市,上,上述二,维,维表,略,略),2.8多维数,据,据模型,多维数,据,据库模,型,型:,星,星型、,雪,雪花型,关系数,据,据库设,计,计广泛使,用,用ER数据模,型,型。数据,库,库模式,由,由实体,的,的集合,和,和它们,之,之间的,联,联系组,成,成。这,种,种数据,模,模型适,用,用于联,机,机事务,处,处理。,数据仓,库,库需要,简,简明的,、,、面向主,题,题的模,型,型,便于,联,联机数,据,据分析,。,。,数据仓,库,库数据,模,模型是,多,多维数,据,据模型。这种,模,模型有星型模,式,式、雪花模,式,式等。,2.8多维数,据,据模型,星型模,式,式(starschema,),):是数据,仓,仓库最,常,常见的,数,数据模,型,型,其,中,中包括,:,:,(1)事实表,:,:包含大,批,批数据,和,和不含,冗,冗余的,中,中心表,;,;,(2)一组小,的,的附属,表,表(维表),每一,维,维一个,。,。维表,围,围绕中,心,心表显,示,示在连,线,线上。,例:某,连,连锁商,店,店的星,型,型模式,如,如下图,所,所示。sales有四个,维,维,分,别,别是time,item,branch(分店,),)和location。该模,式,式包含,一,一个中,心,心事实,表,表sales,它包,含,含四个,维,维的关,键,键字和,两,两个度,量,量dollars_sold销售的,款,款项和units_sold销售量,。,。,2.8多维数,据,据模型,在星型,模,模式中,,,,每一,维,维只用,一,一个表,表,表示,,每,每个表,包,包含一,组,组属性,。,。例如,,,,location维表包,含,含属性,集,集location,_,_key,street,city,province_or_state,country。,2.8多维数,据,据模型,sales数据仓,库,库的星,型,型模式,timesalesitem,维表事实表维表,time_key,-,-,-,-,-,-,-,-,-,- time,_,_keyitem_name,dayitem,_,_key -,-,-,-,-,-,- item,_,_key,day,_,_of,_,_the_weekunits_soldbrand,monthdollars,_,_soldtype,quarterlocation_keysupplier_type,yearbranch,_,_key,|,|,|,|,|,branch维表location维表,branch,_,_keylocation,_,_key,branch,_,_namestreet,branch,_,_typecity,province_or_state,country,2.8多维数据模,型,型,雪花模,型,型(snowflake schema),雪花模型是,星,星型模,式,式的变,种,种,其,中,中某些,维,维表是规范化,的,的,因而,把,把数据,进,进一步,分,分解到,附,附加的,表,表中。,结,结果,,模,模型图,形,形成类,似,似于雪,花,花的形,状,状。,雪花模,型,型和星,型,型模型,的,的主要不,同,同在于,,雪,雪花模,型,型的维,表,表可能,是,是规范化形式,,以,以便减少冗,余,余。,这种表易于维,护,护,并节省存,储,储空间,因为,当,当维结,构,构作为,列,列包含,在,在内时,,,,大维,表,表可能,非,非常大,。,。,由于执,行,行查询,需,需要更,多,多的连接操,作,作,雪花,模,模型可,能,能降低浏,览,览的性,能,能。数据,仓,仓库系,统,统的性,能,能可能,受,受到影,响,响。在,数,数据仓,库,库设计,中,中,雪,花,花模式,不,不如星,型,型模式,使,使用广,泛,泛。,2.8多维数,据,据模型,雪花模,型,型(snowflake schema),该连锁商,店,店sales的雪花,模,模型在,下,下图给,出,出。这,里,里,sales事实表,与,与上面,的,的星型,模,模型相,同,同。两,个,个模式,的,的主要,不,不同是,维,维表。,星型模,型,型中的item的单个,维,维表在,雪,雪花模,型,型中被,规,规范化,,,,导致,新,新的item表和supplier供应商表。例,如,如,现,在,在item维表包,含,含属性item_key,item_name,brand,type和supplier_key,supplier_key连接到supplier维表。,而,而supplier维表包,含,含信息supplier_key和supplier_type。,类似地,,,,星型,模,模型中location的单个,维,维表被,规,规范化,成,成两个,表,表:新的location和city。新的location表中的location_key现在连,接,接到city维。根,据,据需要,雪,雪花模,型,型还可,以,以进一,步,步规范,化,化。,2.8多维数,据,据模型,sales数据仓,库,库的雪,花,花模式,timesalesitem,维表事实表维表,time_key,-,-,-,-,-,-,-,-time,_,_keyitem,_,_name,dayitem,_,_key -,-,-,-,-item_key,day,_,_of,_,_the_weekunits,_,_soldbrand,monthdollars_soldtypesupplier维表,quarterlocation,_,_keysupplier_type,-,-,-,-supplier_key,yearbranch_key,|,|(规范化,),)supplier_type,|,|,|,branch维表location维表(规范化,),),branch,_,_keylocation_key,branch,_,_namestreetcity维表,branch,_,_typecity,-,-,-,-,-,-,-,-,-,-,-,-city_key,province_or_state,country,三、数,据,据挖掘,3.1什么是,数,数据挖,掘,掘?,数据挖,掘,掘DM(Data Mining)是从大量,数,数据中,挖,挖掘出,隐,隐含的,、,、先前,未,未知的,、,、对决,策,策有潜,在,在价值,的,的知识,和,和规则。这些,规,规则蕴,含,含了数,据,据库中,一,一组对,象,象之间,的,的特定,关,关系,,揭,揭示出,一,一些有,用,用的信,息,息,为,经,经营决,策,策、市,场,场策划,、,、金融,预,预测等,提,提供依,据,据。,通过数,据,据挖掘,,,,有价,值,值的知,识,识、规,则,则或高,层,层次的,信,信息能,就,就从数,据,据库的,相,相关数,据,据集合,中,中抽取,出,出来,,并,并从不,同,同角度,显,显示,,从,从而使,大,大型数,据,据库作,为,为一个,丰,丰富可,靠,靠的资,源,源为知,识,识管理,服,服务。,3.1什么是,数,数据挖,掘,掘?,数据挖,掘,掘在一些,文,文献中,也,也有其,他,他名称,,,,如数,据,据开采,、,、知识,挖,挖掘、,知,知识抽,取,取、知,识,识考察,等,等。数据挖,掘,掘是知,识,识发现KDD的一个关键步,骤,骤,它包,括,括特定,的,的数据,挖,挖掘算,法,法,具,有,有可接,受,受的计,算,算效率,,,,生成,特,特殊的,模,模式。KDD是利用,数,数据挖,掘,掘算法,,,,按指,定,定方式,和,和阈值,抽,抽取有,价,价值的,知,知识,,包,包括数,据,据挖掘,前,前对数,据,据的预,处,处理、,抽,抽样及,转,转换和,数,数据挖,掘,掘后对,知,知识的,评,评价解,释,释过程,。,。,3.2数据挖,掘,掘的特,点,点,所处理,的,的数据,规,规模十,分,分巨大。,寻找决,策,策所需,的,的信息。,数据挖,掘,掘既要,发,发现潜,在,在规则,,,,还要,管,管理和,维,维护规,则,则。,数据挖,掘,掘中规,则,则的发,现,现主要,基,基于大,样,样本的,统,统计规,律,律,发现,的,的规则,不,不必适,用,用于所,有,有数据,,,,当达,到,到某一阈值时便可,认,认为有,此,此规律,。,。,3.3数据挖,掘,掘的分,类,类,根据所开采,的,的数据,库,库类型,、,、发现,的,的知识,类,类型、,采,采用的,技,技术类,型,型,数,据,据挖掘,有,有不同,的,的分类,方,方法。,(1)按数据,库,库类型,分,分类,从关系,数,数据库,中,中发现,知,知识;,从面向,对,对象数,据,据库中,发,发现知,识,识;,从多媒,体,体数据,库,库、空,间,间数据,库,库、历,史,史数据,库,库、Web数据库,中,中发现,知,知识。,3.3数据挖,掘,掘的分,类,类,(2)按挖掘,的,的知识,类,类型分,类,类,按挖掘,的,的知识,类,类型可分为,关,关联规,则,则、特,征,征规则,、,、分类,规,规则、,偏,偏差规,则,则、聚,集,集规则,、,、判别,式,式规则,及,及时序,规,规则等,。,。按知识,的,的抽象,层,层次可分为,归,归纳知,识,识、原,始,始级知,识,识、多,层,层次知,识,识。一,个,个灵活,的,的规则,挖,挖掘系,统,统能够,在,在多个,层,层次上,发,发现知,识,识。,3.3数据挖,掘,掘的分,类,类,(3)按利用,的,的技术,类,类型分,类,类,根据开,采,采方法分为自,发,发知识,开,开采、,数,数据驱,动,动开采,、,、查询,驱,驱动开,采,采和交,互,互式数,据,据开采,。,。,根据开,采,采途径分为基,于,于归纳,的,的开采,、,、基于,模,模式的,开,开采、,基,基于统,计,计和数,学,学理论,的,的开采,及,及集成,开,开采等,。,。,3.3数据挖,掘,掘的分,类,类,(4)按挖掘,的,的深度,分,分类,在较浅的,层,层次上,利,用,用现有,数,数据库,管,管理系,统,统的查,询,询/检索及,报,报表功,能,能,与,多,多维分,析,析、统,计,计分析,方,方法相,结,结合,,进,进行OLAP,从而,得,得出可,供,供决策,参,参考的,统,统计分,析,析数据,。,。,在深层次上,从,数,数据库,中,中发现,前,前所未,知,知的、,隐,隐含的,知,知识。,OLAP的出现,早,早于数,据,据挖掘,,,,两者,都,都是从,数,数据库,中,中抽取,有,有用信,息,息的方,法,法,就,决,决策支,持,持的需,要,要而言,两,两者可,以,以起到,相,相辅相,承,承的作,用,用。OLAP可以作,为,为一种,广,广义的,数,数据挖,掘,掘方法,,,,它旨,在,在简化,和,和支持,联,联机分,析,析,而,数,数据挖,掘,掘的目,的,的是使,这,这一过,程,程尽可,能,能自动,化,化。,3.4数据挖,掘,掘的两,种,种功能,数据挖,掘,掘有两,种,种功能:,(1)预测/验证功,能,能。用数,据,据库的,若,若干已,知,知字段,预,预测或,验,验证其,他,他未知,字,字段值,;,;,(2)描述功,能,能指找到,描,描述数,据,据的可,理,理解模,式,式。,3.5数据挖,掘,掘和知,识,识发现,的,的联系,知识发,现,现KDD,(,(knowledgediscovery)是指识,别,别出存,在,在于数,据,据库中,有,有效的,、,、新颖,的,的、具,有,有潜在,效,效用的,、,、最终,可,可理解,的,的、模,式,式的、,非,非平凡,过,过程。,KDD的整个,过,过程包,括,括在指,定,定的数,据,据库中,用,用数据,挖,挖掘算,法,法提取,模,模型,,以,以及围,绕,绕数据,挖,挖掘进,行,行的预,处,处理和,结,结果表,达,达等一,系,系列的,计,计算步,骤,骤。尽,管,管数据,挖,挖掘是,整,整个过,程,程的中,心,心,但,它,它通常,只,只占整,个,个过程15%25%的工作,量,量。,知识发,现,现是从数,据,据库中,发,发现知,识,识的全,部,部过程,,,,而数据挖,掘,掘则是此,全,全过程,的,的一个,特,特定的,关,关键步,骤,骤,3.5数据挖,掘,掘和知,识,识发现,的,的联系,KDD的步骤,:,:,1熟悉应,用,用领域,、,、背景,知,知识及,用,用户的KDD任务性,质,质;,2数据的,选,选择:确定与,发,发现任,务,务相关,的,的数据,集,集合;,3数据清,理,理和预,处,处理,,包,包括除,去,去错误,和,和冗余,数,数据、,处,处理丢,失,失数据,、,、更新,数,数据和,时,时序信,息,息并将,其,其准备,成,成数据,挖,挖掘工,具,具所需,的,的表达,式,式;,4数据缩,减,减和投,影,影,寻,找,找依赖,于,于发现,目,目标的,、,、表达,数,数据的,有,有用特,征,征,通过降,低,低维数,和,和数据,转,转换以缩减,数,数据规,模,模;降低数,据,据复杂,性,性;,5确定KDD目标,,选,选择合,适,适的算,法,法如聚,集,集、分,类,类、线,性,性回归,等,等;,3.5数据挖,掘,掘和知,识,识发现,的,的联系,6选择数,据,据挖掘,算,算法,,选,选择适,当,当的模,型,型和参,数,数;7执行数,据,据挖掘,过,过程,,发,发现模,式,式并表,达,达成易,理,理解的,形,形式如,分,分类规,则,则等;8评价和,解,解释发,现,现的模,式,式,必,要,要时反,复,复执行,步,步骤1到7;9将模式,提,提交给,用,用户或,应,应用到,系,系统中,。,。KDD整个过,程,程是一,个,个以知,识,识工作,者,者为中,心,心、人,机,机交互,的,的探索,过,过程。,3.6数据挖,掘,掘实例,1生物医,学,学和DNA数据分,析,析的数,据,据挖掘,人类有,约,约10万个基,因,因。一,个,个基因,通,通常由,成,成百个,核,核苷按,一,一定次,序,序组织,而,而成。,核,核苷按,不,不同的,次,次序和,序,序列可,以,以形成,不,不同的,基,基因,,几,几乎是,不,不计其,数,数。,具,具有,挑,挑战性,的,的问题,是,是从中,找,找出导,致,致各种,疾,疾病的特定基,因,因序列,模,模式。由于在,数,数据挖,掘,掘中己,经,经有许,多,多有意,义,义的序,列,列模式,分,分析和,相,相似检,索,索技术,,,,因此,数,数据挖,掘,掘成为DNA分析中,的,的强有,力,力工具,3.6数据挖,掘,掘实例,2针对金,融,融数据,分,分析的,数,数据挖,掘,掘,(1)为银行,和,和金融,数,数据构,造,造其数,据,据仓库,:,:多维,数,数据分,析,析用于,分,分析这,些,些数据,的,的一般,特,特性。,例,例如,,人,人们可,能,能希望,按,按月,,按,按地区,,,,按部,门,门,以,及,及按其,他,他因素,,,,查看,负,负债和,收,收人的,变,变化情,况,况,同,时,时希望,能,能提供,最,最大、,最,最小、,总,总和、,平,平均和,其,其他统,计,计信息,。,。数据,仓,仓库,,数,数据立,方,方体,,多,多特征,和,和发现,驱,驱动数,据,据立方,体,体,特,征,征和比,较,较分析,,,,以及,孤,孤立点,分,分析等,,,,都会,在,在金融,数,数据分,析,析和挖,掘,掘中发,挥,挥重要,作,作用。,3.6数据挖,掘,掘实例,(2)贷款偿,还,还预测,和,和客户,信,信用政,策,策分析:有很多,因,因素会,对,对贷款,偿,偿还效,能,能和客,户,户信用,等,等级计,算,算产生,不,不同程,度,度的影,响,响。,数,数据,挖,挖掘的,方,方法,,如,如特征,选,选择和,属,属性相,关,关性计,算,算,有,助,助于识,别,别重要,因,因素,,剔,剔除非,相,相关因,素,素。例,如,如,与,贷,贷款偿,还,还风险,相,相关的,因,因素包,括,括贷款,率,率,贷,款,款期限,,,,负债,率,率,收,入,入比率,,,,客户,收,收入水,平,平,受,教,教育水,平,平,居,住,住地区,,,,信用,历,历史,,等,等等。,3.6数据挖,掘,掘实例,分析客,户,户偿还,的,的历史,信,信息,可以,发,发现,,偿,偿还与,收,收入比,率,率可能,是,是主导,因,因素,,而,而受教,育,育水平,和,和负债,率,率则不,是,是。银,行,行于是,可,可以据,此,此调整,贷,贷款发,放,放政策,,,,以便,将,将贷款,发,发放给,那,那些以,前,前曾被,拒,拒绝,,但,但根据,关,关键因,素,素分析,,,,其基,本,本信息,显,显示是,相,相对低,风,风险的,申,申请。(3)对目标,市,市场客,户,户的分,类,类与聚,类,类:分类与,聚,聚类的,方,方法可,用,用于用,户,户群体,的,的识别,和,和目标,市,市场分,析,析。例,如,如,通,过,过多维,聚,聚类分,析,析,可,以,以将具,有,有相同,储,储蓄和,贷,贷款偿,还,还行为,的,的客户,分,分为一,组,组。有,效,效的聚,类,类和协,同,同过滤,方,方法有,助,助于识,别,别客户,组,组,将,新,新客户,关,关联到,适,适合的,客,客户组,,,,以及,推,推动目,标,标市场,。,。,3.6数据挖,掘,掘实例,(4)金融犯,罪,罪的侦,破,破:把多个,数,数据库,的,的信息(如银行,交,交易数,据,据库、,联,联邦或,州,州的犯,罪,罪历史,数,数据库,等,等)集成起,来,来。,然,然后,可,可以采,用,用多种,数,数据分,析,析工具,来,来找出,异,异常模,式,式,如,在,在某段,时,时间内,,,,通过,某,某一组,内,内发生,大,大量现,金,金流量,,,,等等,。,。这些,工,工具可,以,以识别,出,出一些,重,重要的,活,活动关,系,系和模,式,式,有,助,助于调,查,查人员,聚,聚焦可,疑,疑线索,,,,做进,一,一步的,处,处理。,有,有,用,用的工,具,具包括:数据可,视,视化工,具,具(用图形,方,方式按,时,时间和,一,一定人,群,群显示,交,交易活,动,动);链接分,析,析工具(识别不,同,同人和,活,活动之,间,间的联,系,系),分类工,具,具(滤掉不,相,相关的,属,属性,,对,对高度,相,相关属,性,性排级);聚类分,析,析工具(将不同,案,案例分,组,组);孤立点,分,分析工,具,具(探测异,常,常资金,量,量的转,移,移或其,他,他行为);序列模,式,式分析,工,工具(分析异,常,常访问,模,模式的,特,特征)。,THANKYOU,臧赛龙,2015/1,/,/21,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!