大数据时代设计

上传人:i****c 文档编号:249302873 上传时间:2024-10-28 格式:PPTX 页数:23 大小:1,012.46KB
返回 下载 相关 举报
大数据时代设计_第1页
第1页 / 共23页
大数据时代设计_第2页
第2页 / 共23页
大数据时代设计_第3页
第3页 / 共23页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,大数据时代,班级:电信111,大数据简介,数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。,哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”,大数据简介,随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce,(分布式计算),一样的框架来向数十、数百或甚至数千的电脑分配工作。,大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖出的手机为37.8万台,这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。,科技的进步已经使创造、捕捉和管理信息的成本降至,2005,年的六分之一,而从,2005,年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整,50%,,达到了,4000,亿美元。,四个特征,数据量大(Volume),第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。,类型繁多(Variety),第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。,价值密度低(Value),第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。,速度快时效高(Velocity),第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。,大数据分析与处理方法介绍,众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。,大数据分析的五个基本方面,1.Analytic Visualizations(可视化分析),不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。,2.Data Mining Algorithms(数据挖掘算法),可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。,3.Predictive Analytic Capabilities(预测性分析能力),数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。,大数据分析的五个基本方面,4.Semantic Engines(语义引擎),我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。,5.Data Quality and Master Data Management(数据质量和数据管理),数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理,可以保证一个预先定义好的高质量的分析结果。,大数据处理,周涛博士说:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。,具体的大数据处理方法其实有很多,但是根据长时间的实践,此处总结了一个基本的大数据处理流程。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。,采集:,大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。,大数据处理,导入/预处理:,虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。,统计/分析:,统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。,大数据处理,挖掘:,与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。,该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。,处,理,理,和,和,分,分,析,析,工,工,具,具,用,于,于,分,分,析,析,大,大,数,数,据,据,的,的,工,工,具,具,主,主,要,要,有,有,开,开,源,源,与,与,商,商,用,用,两,两,个,个,生,生,态,态,圈,圈,。,。,开,源,源,大,大,数,数,据,据,生,生,态,态,圈,圈,:,:,1,、,、HadoopHDFS,、,、HadoopMapReduce,HBase,、,、Hive,渐,渐,次,次,诞,诞,生,生,,,,,早,早,期,期Hadoop,生,生,态,态,圈,圈,逐,逐,步,步,形,形,成,成,。,。,2,、,、.Hypertable,是,是,另,另,类,类,。,。,它,它,存,存,在,在,于,于Hadoop,生,生,态,态,圈,圈,之,之,外,外,,,,,但,但,也,也,曾,曾,经,经,有,有,一,一,些,些,用,用,户,户,。,。,3,、,、NoSQL,,,,membase,、,、MongoD,B,商,用,用,大,大,数,数,据,据,生,生,态,态,圈,圈,:,:,1,、,、,一,一,体,体,机,机,数,数,据,据,库,库/,数,数,据,据,仓,仓,库,库,:,:IBMPureData(Netezza),OracleExadata,SAPHana,等,等,等,等,。,。,2,、,、,数,数,据,据,仓,仓,库,库,:,:TeradataAsterData,EMCGreenPlum,HPVertica,等,等,等,等,。,。,3,、,、,数,数,据,据,集,集,市,市,:,:QlikView,、,、Tableau,、,、,以,以,及,及,国,国,内,内,的,的YonghongDataMart,。,。,处,理,理,和,和,分,分,析,析,工,工,具,具Hadoop,据,IDC,的,预,预,测,测,,,,,全,全,球,球,大,大,数,数,据,据,市,市,场,场,2015,年,将,将,达,达,170,亿,美,美,元,元,规,规,模,模,,,,,市,市,场,场,发,发,展,展,前,前,景,景,很,很,大,大,。,。,而,而,Hadoop,作,为,为,新,一,一,代,代,的,的,架,架,构,构,和,和,技,技,术,术,,,,,因,因,为,为,有,有,利,利,于,于,并,并,行,行,分,分,布,布,处,处,理,理,“,“,大,大,数,数,据,据,”,”,而,而,备,备,受,受,重,重,视,视,。,。,ApacheHadoop,是,一,一,个,个,用,用,java,语,言,言,实,实,现,现,的,的,软,软,件,件,框,框,架,架,,,,,在,在,由,由,大,大,量,量,计,计,算,算,机,机,组,组,成,成,的,的,集,集,群,群,中,中,运,运,行,行,海,海,量,量,数,数,据,据,的,的,分,分,布,布,式,式,计,计,算,算,,,,,它,它,可,可,以,以,让,让,应,应,用,用,程,程,序,序,支,支,持,持,上,上,千,千,个,个,节,节,点,点,和,和,PB,级,别,别,的,的,数,数,据,据,。,。,Hadoop,是,项,项,目,目,的,的,总,总,称,称,,,,,主,主,要,要,是,是,由,由,分,分,布,布,式,式,存,存,储,储,(,(,HDFS,),、,、,分,分,布,布,式,式,计,计,算,算,(,(,MapReduce,),等,等,组,组,成,成,。,。,优,点,点,:,:,可,扩,扩,展,展,:,:,不,论,论,是,是,存,存,储,储,的,的,可,可,扩,扩,展,展,还,还,是,是,计,计,算,算,的,的,可,可,扩,扩,展,展,都,都,是,是,Hadoop,的,设,设,计,计,根,根,本,本,。,。,经,济,济,:,:,框,架,架,可,可,以,以,运,运,行,行,在,在,任,任,何,何,普,普,通,通,的,的,PC,上,。,。,可,靠,靠,:,:,分,布,布,式,式,文,文,件,件,系,系,统,统,的,的,备,备,份,份,恢,恢,复,复,机,机,制,制,以,以,及,及,MapReduce,的,任,任,务,务,监,监,控,控,保,保,证,证,了,了,分,分,布,布,式,式,处,处,理,理,的,的,可,可,靠,靠,性,性,。,。,高,效,效,:,:,分,布,布,式,式,文,文,件,件,系,系,统,统,的,的,高,高,效,效,数,数,据,据,交,交,互,互,实,实,现,现,以,以,及,及,MapReduce,结,合,合,LocalData,处,理,理,的,的,模,模,式,式,,,,,为,为,高,高,效,效,处,处,理,理,海,海,量,量,的,的,信,信,息,息,作,作,了,了,基,基,础,础,准,准,备,备,。,。,处,理,理,和,和,分,分,析,析,工,工,具,具Hadoop,Hadoop,原,原,本,本,来,来,自,自,于,于,谷,谷,歌,歌,一,一,款,款,名,名,为,为MapReduce,的,的,编,编,程,程,模,模,型,型,包,包,。,。,谷,谷,歌,歌,的,的MapReduce,框,框,架,架,可,可,以,以,把,把,一,一,个,个,应,应,用,用,程,程,序,序,分,分,解,解,为,为,许,许,多,多,并,并,行,行,计,计,算,算,指,指,令,令,,,,,跨,跨,大,大,量
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!