资源描述
单击此处编辑母版标题样式,*,杭州斯凯网络科技有限公司,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,杭州斯凯网络科技有限公司,#,数据仓库,顾 安 宁,2024/10/2,杭州斯凯网络科技有限公司,1,内容,数据仓,库,库一些,特,特点,数据仓,库,库的架,构,构,OracleRAC架构,GreenPlum架构,MapReduce的概念,架构比,较,较,风险评,估,估,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,2,数据仓,库,库的目,前,前的现,状,状,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,3,软件架,构,构,硬件架,构,构,硬软架,构,构又可,以,以分成,封,封闭式,和,和开放,式,式。封,闭,闭式硬,件,件架构,代,代表厂,商,商有teradata,其硬,件,件是专,属,属的,,必,必须使,用,用特殊,的,的硬件,才,才能运,行,行。开,放,放式硬,件,件架构,的,的代表,有,有oracle,可以,运,运行在,各,各种硬,件,件上,,不,不过开,放,放和封,闭,闭之间,的,的界限,也,也逐步,的,的融合,。,。,数据仓,库,库的目,前,前的现,状,状,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,4,Greenplum在这两,方,方面取,长,长补短,,,,所提,供,供的该,公,公司的,旗,旗舰产,品,品Greenplum数据引,擎,擎就是,特,特别为,支,支持新,型,型数据,仓,仓库和,大,大规模,分,分析处,理,理而设,计,计开发,的,的,可,以,以同时,支,支持SQL和MapReduce技术。Greenplum数据引,擎,擎对有PB量级数,据,据的大,型,型公司,提,提供数,据,据处理,能,能力。,基,基于Greenplum数据引,擎,擎的解,决,决方案,的,的核心,优,优势在,于,于可将,原,原来长,达,达数小,时,时甚至,数,数天的,运,运算时,间,间缩短,为,为几分,钟,钟。,数据仓,库,库的软,件,件架构,数据仓,库,库的软,件,件架构,选,选择更,加,加丰富,数据库,软,软件,ETL软件,展现软,件,件,数据挖,掘,掘软件,每一种,类,类型里,面,面都具,备,备非常,多,多的选,择,择。,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,5,ETL约占整,个,个项目,的,的70%,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,6,ETL,Extraction-Transformation-Loading的缩写,,,,中文,名,名称为数据抽,取,取、转,换,换和加,载,载。,ETL负责将,分,分布的,、,、异构,数,数据源,中,中的数,据,据如关,系,系数据,、,、平面,数,数据文,件,件等抽,取,取到临,时,时中间,层,层后进,行,行清洗,、,、转换,、,、集成,,,,最后,加,加载到,数,数据仓,库,库或数,据,据集市,中,中,成,为,为联机,分,分析处,理,理、数,据,据挖掘,的,的基础,。,。,如果说,数,数据仓,库,库的模,型,型设计,是,是一座,大,大厦的,设,设计蓝,图,图,数,据,据是砖,瓦,瓦的话,,,,那么ETL就是建,设,设大厦,的,的过程,。,。在整,个,个项目,中,中最难,部,部分是,用,用户需,求,求分析,和,和模型,设,设计,,而,而ETL规则设,计,计和实,施,施则是,工,工作量,最,最大的,,,,约占,整,整个项,目,目的60%80%,,数据仓,库,库的架,构,构设计,一,一些考,虑,虑因素,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,7,1.成本。成本,永,永远是,企,企业关,心,心的一,个,个核心,问,问题,,特,特别在,如,如今经,济,济寒冬,,,,更是,如,如此。,2.效率。能否,高,高效的,处,处理海,量,量的数,据,据是一,个,个基础,要,要素,,搞,搞数据,仓,仓库的,都,都知道,,,,数据,量,量永远,是,是一个,经,经常被,拿,拿出来,讨,讨论的,话,话题。,3.线性扩,展,展。能,支,支持线,性,性扩展,的,的系统,在,在计划,支,支撑多,年,年的系,统,统中特,别,别重要,,,,可以,非,非常方,便,便的做,出,出年度,预,预算。,4.协同工,作,作。解决,多,多人协,同,同开发,问,问题。,数据仓,库,库的架,构,构设计,一,一些考,虑,虑因素,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,8,5.调度。能否,很,很方便,的,的一目,了,了然的,看,看到整,体,体调度,,,,站在,一,一个非,常,常高的,高,高度来,管,管理各,种,种数据,流,流。,6.兼容性。能否,兼,兼容各,种,种异构,数,数据。,7.准,确,确的监,控,控系统,。,。,8.高,效,效的开,发,发框架,。,。,数据仓,库,库的架,构,构类型,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,9,Oracle数据仓,库,库的架,构,构,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,10,GreenPlum数据仓,库,库的架,构,构,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,11,GreenPlum数据仓,库,库的架,构,构,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,12,MapReduce概念,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,13,MapReduce是一种,编,编程模,型,型(并不是google自己开,发,发的编,程,程工具),用于,大,大规模,数,数据集,(,(大于1TB)的并,行,行运算,。,。概念Map(映射,),)和Reduce(化简,),),和他,们,们的主,要,要思想,,,,都是,从,从函数,式,式编程,语,语言里,借,借来的,,,,还有,从,从矢量,编,编程语,言,言里借,来,来的特,性,性。他,极,极大地,方,方便了,编,编程人,员,员在不,会,会分布,式,式并行,编,编程的,情,情况下,将自己,的,的程序,运,运行在,分,分布式,系,系统上,。,。,当前的,软,软件实,现,现是指,定,定一个Map(映射,),)函数,,,,用来,把,把一组,键,键值对,映,映射成,一,一组新,的,的键值,对,对,指,定,定并发,的,的Reduce(化简,),)函数,,,,用来,保,保证所,有,有映射,的,的键值,对,对中的,每,每一个,共,共享相,同,同的键,组,组。,MapReduce映射概念,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,14,简单说,来,来,一,个,个映射,函,函数就,是,是对一,些,些独立,元,元素组,成,成的概,念,念上的,列,列表(,例,例如,,一,一个测,试,试成绩,的,的列表,),)的每,一,一个元,素,素进行,指,指定的,操,操作(,比,比如前,面,面的例,子,子里,,有,有人发,现,现所有,学,学生的,成,成绩都,被,被高估,了,了一分,,,,他可,以,以定义,一,一个“,减,减一”,的,的映射,函,函数,,用,用来修,正,正这个,错,错误。,),)。,事实上,,,,每个,元,元素都,是,是被独,立,立操作,的,的,而,原,原始列,表,表没有,被,被更改,,,,因为,这,这里创,建,建了一,个,个新的,列,列表来,保,保存新,的,的答案,。,。这就,是,是说,Map操作是,可,可以高,度,度并行,的,的,这,对,对高性,能,能要求,的,的应用,以,以及并,行,行计算,领,领域的,需,需求非,常,常有用,。,。,MapReduce化简概念,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,15,而化简,操,操作指,的,的是对,一,一个列,表,表的元,素,素进行,适,适当的,合,合并(,继,继续看,前,前面的,例,例子,,如,如果有,人,人想知,道,道班级,的,的平均,分,分该怎,么,么做?,他,他可以,定,定义一,个,个化简,函,函数,,通,通过让,列,列表中,的,的元素,跟,跟自己,的,的相邻,的,的元素,相,相加的,方,方式把,列,列表减,半,半,如,此,此递归,运,运算直,到,到列表,只,只剩下,一,一个元,素,素,然,后,后用这,个,个元素,除,除以人,数,数,就,得,得到了,平,平均分,。,。)。,虽,虽然他,不,不如映,射,射函数,那,那么并,行,行,但,是,是因为,化,化简总,是,是有一,个,个简单,的,的答案,,,,大规,模,模的运,算,算相对,独,独立,,所,所以化,简,简函数,在,在高度,并,并行环,境,境下也,很,很有用,。,。,MapReduce的分布,和,和可靠,性,性,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,16,MapReduce通过把,对,对数据,集,集的大,规,规模操,作,作分发,给,给网络,上,上的每,个,个节点,实,实现可,靠,靠性;,每,每个节,点,点会周,期,期性的,把,把完成,的,的工作,和,和状态,的,的更新,报,报告回,来,来。如,果,果一个,节,节点保,持,持沉默,超,超过一,个,个预设,的,的时间,间,间隔,,主,主节点,(,(类同GoogleFileSystem中的主,服,服务器,),)记录,下,下这个,节,节点状,态,态为死,亡,亡,并,把,把分配,给,给这个,节,节点的,数,数据发,到,到别的,节,节点。,每,每个操,作,作使用,命,命名文,件,件的原,子,子操作,以,以确保,不,不会发,生,生并行,线,线程间,的,的冲突,;,;当文,件,件被改,名,名的时,候,候,系,统,统可能,会,会把他,们,们复制,到,到任务,名,名以外,的,的另一,个,个名字,上,上去。,(,(避免,副,副作用,),)。,MapReduce的分布,和,和可靠,性,性,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,17,化简操,作,作工作,方,方式很,类,类似,,但,但是由,于,于化简,操,操作在,并,并行能,力,力较差,,,,主节,点,点会尽,量,量把化,简,简操作,调,调度在,一,一个节,点,点上,,或,或者离,需,需要操,作,作的数,据,据尽可,能,能近的,节,节点上,了,了;这,个,个特性,可,可以满,足,足Google的需求,,,,因为,他,他们有,足,足够的,带,带宽,,他,他们的,内,内部网,络,络没有,那,那么多,的,的机器,。,。,MapReduce的用途,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,18,在Google,MapReduce用在非,常,常广泛,的,的应用,程,程序中,,,,包括,“,“分布grep,分布,排,排序,web连接图,反,反转,,每,每台机,器,器的词,矢,矢量,web访问日,志,志分析,,,,反向,索,索引构,建,建,文,档,档聚类,机器学,习,习,基,于,于统计,的,的机器,翻,翻译.,”,”值得注,意,意的是,,,,MapReduce实现以,后,后,它,被,被用来,重,重新生,成,成Google的整个,索,索引。,MapReduce会生成,大,大量的,临,临时文,件,件,为,了,了提高,效,效率,,它,它利用Google文件系,统,统来管,理,理和访,问,问这些,文,文件。,数据仓,库,库的架,构,构比较,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,19,硬件物,理,理架构,比,比较,2020-02-11,杭州斯,凯,凯网络,科,科技有,限,限公司,20,数据仓,库,库的物,理,理架构,,,,包含,硬,硬件物,理,理架构,和,和软件,物,物理架,构,构。硬,件,件物理,架,架构包,含,含集中,式,式和分,布,布式两,种,种,在,企,企业里,面,面都有,运,运用。,
展开阅读全文