资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,什么是大数据?,前言,赢在大数据时代,“,大数据,”,是指以多元形式,许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。,内容,大数据,(big data),的定义,概,论,意义,Click To,H,如何奠定数据基础的概念,02,01,03,04,大数据,(big data),的,定义,01,个人认为,,大数据是具备容量大、价值低、实时性强且形式多样复杂的物质与信息作为意识的基础,意识决定物质与信息集中表现在社会总支出与社会总产量的比值,。,E,网络定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。,.,知乎,大数据,只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说,大数据,没有意义,只是对于不同的人有不同的,含义,。,百度百科,大数据,(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托,迈尔,舍恩伯格及肯尼斯,库克耶编写的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的,5V,特点:,Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值密度)、,Veracity,(真实性)。,.,大数据,(big data),的,定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。,实时性,客观性,数据性,无法在一定时间内,用常规软件工具,数据集合,复杂性,高效率,判断性,有价值信息的能力,快速获得,从各种各样类型的数据中,网络定义,商业术语,A,C,有意义,B,空洞无物,D,因人而异,B,C,A,只是一个空洞的商业术语,D,不是说,大数据,没有意义,跟所谓的商业智能一样空洞无物,知乎定义,大数据,只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说,大数据,没有意义,只是对于不同的人有不同的,含义,。,对于不同的人有不同的,含义,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的,信息资产,。,大数据的,5V,特点:,Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值密度)、,Veracity,(真实性)。,百度百科定义,大数据,(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托,迈尔,舍恩伯格及肯尼斯,库克耶编写的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。,B,经济,A,低价值,C,相对,个人对大数据的定义,个人认为,大数据是具备容量大、价值低、实时性强且形式多样复杂的物质与信息作为意识的基础,意识决定物质与信息集中表现在社会总支出与社会总产量的相对比值。,概,论,02,它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和,/,或虚拟化技术。,(,在维克托,迈尔,-,舍恩伯格及肯尼斯,库克耶编写的大数据时代,4,中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的,4,大特点:,Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值),概论,概论,早在,1980,年,著名未来学家阿尔文,托夫勒便在第三次浪潮一书中,将大数据热情地赞颂为,“,第三次浪潮的华彩乐章,”,。不过,大约从,2009,年开始,,“,大数据,”,才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长,50%,,每两年便将翻一番,而目前世界上,90%,以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。,3,概论,大数据的,意义,是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。,2013,年,5,月,10,日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,卸任阿里集团,CEO,的职位,并在晚会上做卸任前的,演讲,,马云说,大家还没搞清,PC,时代的时候,,移动互联网,来了,还没搞清移动互联网的时候,大数据时代来了。,概论,借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为,工程建设,节约资源提高效率。在这个过程里可以为世界节约,40%,的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。,“,给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。,”,微软史密斯这样说。而智能建筑正是他的团队专注的事情,。,大数据时代已经来临,它将在众多领域掀起变革的巨浪。但我们要冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信,在国家的统筹规划与支持下,通过各地方政府因地制宜制定大数据产业发展策略,通过国内外,IT,龙头企业以及众多创新企业的积极参与,大数据产业未来发展前景十分广阔。,概论,概论,大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神化它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。,意义,03,+,+,=,经济,思维,工具,数据资产,大数据的意义,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物,。,科技发达,信息流通,交流密切,生活方便,现在的社会,高速发展的社会,意义,现在的社会,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。,阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是,IT,时代,而是,DT,的时代,,DT,就是,Data Technology,数据科技,显示大数据对于阿里巴巴集团来说举足轻重。,有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在,“,大,”,,而在于,“,有用,”,。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键,。,1),对大量消费者提供产品或服务的企业可以利用大数据进行精准营销,2),做小而美模式的中长尾企业可以利用大数据做服务转型,3),面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值,大数据的价值体现在以下几个方面:,“,大数据,”,在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家,路德维希冯米塞斯,曾提醒过:,“,就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。,”,这确实是需要,警惕,的。,在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生,:,1,)及时解析故障、问题和缺陷的根源,每年可能为企业节省高额开支。,2,)为成千上万的快递车辆规划实时交通路线,躲避拥堵。,3,)分析所有,SKU,,以利润最大化为目标来定价和清理库存。,4,)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。,5,)从大量客户中快速识别出金牌客户。,6,)使用点击流分析和,数据挖掘,来规避欺诈行为。,随着云时代的来临,大数据(,Big data,)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(,Big data,)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到,关系型数据库,用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像,MapReduce,一样的框架来向数十、数百或甚至数千的电脑分配工作。,数据体量巨大,数据类型,繁多,价值密度低,处理速度快,大,数据的,4,个,“V”,,或者说特点有四层面:,大数据的,4,个,“V”,,或者说特点有四层面:,第一,数据体量巨大,从,TB,级别,跃升到,PB,级别。,第二,,数据类型,繁多,前文提到的网络日志、视频、图片、地理位置信息等等。,第三,价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。,第四,处理速度快,1,秒定律。最后这一点也是和传统的,数据挖掘,技术有着本质的不同。业界将其归纳为,4,个,“V”Volume,,,Variety,,,Value,,,Velocity,。,物联网、,云计算,、移动,互联网,、,车联网,、手机、,平板电脑,、,PC,以及遍布地球各个角落的各种各样的,传感器,,无一不是数据来源或者承载的方式。,大数据,分析方法理论,技术,大数据的处理加工,一、,Hadoop,二、,HPCC,三、,Storm,四、,Apache Drill,五,、,Rapid Miner,六、,Pentaho BI,1,。可视化分析。,2,。数据挖掘算法。,3,。预测性分析。,4,。语义引擎。,5,。数据质量和数据管理。,一、,Hadoop,Hadoop,是一个能够对大量数据进行分布式处理的软件框架。但是,Hadoop,是以一种可靠、高效、可伸缩的方式进行处理的。,Hadoop,是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。,Hadoop,还是可伸缩的,能够处理,PB,级数据。此外,,Hadoop,依赖于社区服务器,因此它的成本比较低,任何人都可以使用。,Hadoop,是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在,Hadoop,上开发和运行处理海量数据的应用程序。它主要有以下几个优点:,高可靠性。,Hadoop,按位存储和处理数据的能力值得人们信赖。,高扩展性。,Hadoop,是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。,高效性。,Hadoop,能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。,高容错性。,Hadoop,能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。,Hadoop,带有用,Java,语言编写的框架,因此运行在,Linux,生产平台上是非常理想的。,技术,二、,HPCC,HPCC,,,High Performance Computing and Communications(,高性能计算与通信,),的缩写。其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络
展开阅读全文