大数据时代-120631

上传人:无*** 文档编号:120774628 上传时间:2022-07-18 格式:PPTX 页数:33 大小:5.54MB
返回 下载 相关 举报
大数据时代-120631_第1页
第1页 / 共33页
大数据时代-120631_第2页
第2页 / 共33页
大数据时代-120631_第3页
第3页 / 共33页
点击查看更多>>
资源描述
大数据时代Is coming全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据在web 2.0的时代,人们从信息的被动接受者变成了主动创造者Big Data时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临.Big Data时代到来1.VolumeVolume2.VarietyVariety3.value4.VelocityVelocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是Big Data数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念Big Data名词由来1 1 并购进行技术整合2 2 自身提高研发实力相较于“大数据”一词在 2011 年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT 巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT 企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势Big Data名词由来大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么是Big Data技术云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!分布式“云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。百度百科AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个Eric BrewerEric BrewerCConsistencyPPartition Tolerance分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。CAP博弈分区容错性是不能牺牲的Amazon Dynamo是一个经典的分布式Key-Value 存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致Key Valuel 分布式存储系统l 查询速度快、存放数据量大、支持高并发l 不能进行复杂的条件查询l 辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量B+TreeHash算法大数据时代下的系统需求High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High Scalability&High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务RDBMS VS.NoSQL高并发读写大数据存储的大数据存储的 核心需求核心需求高效率存储 和访问高可扩展性和高可用性低成本建设运维l 保证一致性的开销过大,难以实现高并发l 存储性能受限于控制器,性能难以保证l 关系型表单存储难以适应不同数据类型l 上亿行数据的超级达标效率极低l 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高l 许可和维护花费高昂l 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展l 数据库升级需要停机维护和数据迁移,导致服务中断l 不保证遵循ACID原则,提高并发读写性能l Schema-Free存储适应不同数据类型l舍弃SQL标准功能,尽量简化数据操作,提升效率lMapReduce实现高效访问l 基于X86设备,价格低廉l开源系统,节省许可费用l 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力l数据库升级不影响服务持续NoSQLNoSQL运动两个核心理论基础:Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。Big Table 为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Key-Value映射:(row:string,column:string,time:int64)string 数据模型支撑技术Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。l用GFS来存储日志和数据文件l按SSTable文件格式存储数据l用Chubby管理元数据参考文献:The Chubby lock service for loosely-coupled distributed systems Google论文Big Table l一个供客户端使用的库l一个主服务器(master server)l许多片服务器(tablet server)Big Table集群片的定位lB+树lChubby file:保存root tablet的位置lroot tablet:元数据表的第一个分片l其它的元数据片NoSQL数据库NoSQL数据库 使用现状腾讯在天津投资建立亚洲最大的数据中心;腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。新浪推出企业微博产品,提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术SAP中国区企业信息 管理咨询资深顾问 杜韬Hadoop数据应用策略、数据流技术机器学习算法百度首席科学家 威廉.张Hadoop数据采集、数据存储、数据处理Yahoo!北京全球软件研发中心架构师 韩轶平持续创新传统的企业级数据仓库产品线收购Aster DataHadoop、MapReduceTeradata首席客户官 周俊凌马马云的判云的判断来断来自于自于数数据分析据分析商业价值淘宝双双“十一十一”背后的技背后的技术讨论术讨论系系统逻辑统逻辑架架构构系系统统物理架物理架构构性能性能对对比比Ocean Base政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。标;应用到制造等更多行业。商业价值结构化数据向非结结构化数据向非结构化数据演进,使构化数据演进,使得未来得未来IT投资重点投资重点不再是建系统为核不再是建系统为核心,而是围绕大数心,而是围绕大数据为核心;据为核心;海量数据可以在各海量数据可以在各个部门创造重大的个部门创造重大的财物价值,未来投财物价值,未来投资倾斜。资倾斜。商业价值用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析演讲完毕,谢谢观看!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!