资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,大,数据基本概念与行业发展,大数据的起源,1,2,数据发展简史,3,国内行业发展,基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;,打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;,布拉德,皮特主演的,点球成金,是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。,电影,点球成金,仅供开采,162,年,仅供开采,45,年,仅供开采,60,年,2013,年,,,10,分钟的信息总量将达,1.8ZB,2010,年全球数据总量,1.2ZB,,年增长,50%,数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。,不可再生资源,VS,数据,2020,年全球数据总量将达到,40ZB,数据爆炸式增长(每分钟,),Twitter,上发布,98000+,新微博,13000+,个,iPhone,应用下载,Skype,上,37,万,+,分钟的语音通话,上传,6600,张新照片到,flickr,发出,1.68,亿,+,条,Email,YouTube,上上传,600+,新视频,淘宝光棍节,10680+,个新订单,12306,出票,1840,+,张,传统处理方式所无法解决的挑战,1,2,3,4,5,挑战,数据体量越来越大,非结构半结构混杂,处理速度要求越来越快,数据应用模式创新,更丰富的视觉元素,需要性价比更高的储存方式,数据库,数据仓库,85%,半,/,非结构化的,Log/Web page/Email/PDF/,Image/Full-text/MS-Office,file,需要不同的数据管理策略,当我们想要扩充时,,才,发觉:,架构只能,scale-up,,,scale-out,不易,处理时间过长,,time-to-value,受限,成本过高,,cost-efficiency,受,限,15%,结构化的,DB/DW,遗憾,残缺,需要更高效的计算方式,规模,时间,传统,大数据,什么是大数据?,维基百科:大,数据是需要,新处理模式,才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息,资产,。,大,数据就是“未来的新石油,”,容量,Volume,多样,Variety,价值,Value,速度,Velocity,数据体量巨大。从,TB,级别,跃升到,PB,级以上。,数据类型繁多。日志、视频、图片、,GIS,等。,秒级定律。一般要求在秒级内给出分析结果。,利用低价值密度数据,可以带来高价值回报。,大数据的“,4V,”,特征,更多的“,V,”,可变性,Variability,真实性,Veracity,可视化,Visualization,数据的含义总是,在快速变化的。要考虑具体的上下文。,确保数据的真实性,才能保证数据分析的正确性。,只有正确的可视化,原始数据才可被投入使用。,大数据的起源,1,2,数据发展简史,3,国内行业发展,数据概述,在人类发展历程中,数据表现方式分为两类:,模拟数据(声音,文件,图像,视频),数字数据(文字,符号),自从计算机发明以来,数据在计算机中都是以二进制,0,和,1,的形式进行保存。,鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。,数据仓库,NoSQL,NewSQL,关系型,数据库,集群化,大数据,数据发展的五个阶段,第一阶段 关系型数据库,第二阶段 数据仓库,DW,-Data Warehouse,面向主题,数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统,相关。,集成的,必须保证数据仓库内的信息是关于整个企业的一致的全局,信息,。,相对稳定,某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作,很少。,反映历史变化,仓库,中的数据通常包含历史信息,反映过去某一时点到目前的各个阶段的,信息。,用于支持,管理决策,ETL,BI,第三阶段,NoSQL,、,NewSQL,事务,分析,互联网,OldSQL,大,数据时代,架构多元化,NewSQL,分析,OldSQL,事务,NoSQL,互联网,键值,存储数据库,No,SQL,互联网,列式,存储数据库,文档存储数据库,图像存储数据库,文件存储数据库,消息队列系统,NewSQL,分析,第四阶段 集群化,高可用,通常采用,Master-Slave,或者,P2P,模式,保障数据的灾备。,分片,将大规模数据按照一定规则拆分,不同的分片存储在不同的结点。,复制,数据通常会在集群的多个结点中留存多个数据副本,以保证可靠。,混合应用,不同的业务场景,会混合使用多种不同的数据存储系统。,服务器,1,分片处理前,分片处理后,片服务器,1,片服务器,2,片服务器,3,服务器,1,复制前,复制,后,服务器,1,服务器,2,服务器,3,主从复制,or,对等复制,第五阶段 大数据,让大象跳舞,Hadoop2.0,生态,流式计算框架,搜索引擎框架,某政务大数据项目架构,大数据的起源,1,2,数据发展简史,3,国内行业发展,大数据是如何成为网红的?,2005,年,2008,年,2011,年,2015,年,2016,年,2012,年,2014,年,第一款商用,Hadoop,项目诞生,在美国发表第一,个,关于大,数据的,白皮书,国家工信部,发布,物,联网十二五规划,成为,世界经济,论,坛重要主题之一,在,我国政府报告,中,大数据首次出现,国务院印发,促进大,数据发展行动纲要,大,数据“十三五”规划出台,我国大数据的发展阶段,时间,探索起步期,快速推进器,规模发展期,产业消化期,应用成熟期,市场认可度,1,)大数据产业在中国出现,并逐步受到关注,互联网企业率先将应用落地,2,),2015,年我国提出,大数据发展行动纲要,大力支持大数据产业发展,并于,2016,年提升为国家战略,3,)大数据概念广泛普及,企业用户不断提升,资本市场高度关注,大数据企业规模化发展,4,)大数据市场相对成熟,市场热度逐渐消化,大数据企业整合,5,)行业标准建立、监管规范完善,被广泛应用,行业将趋于稳定发展,我国大数据产业市场规模,2017,年我国大数据市场规模已达,358,亿元,年增速达到,47.3,%,。,预计,2020,年,我国大数据市场规模将达到,731,亿元,。,我国大数据主要应用领域,市场吸引力,应用成熟度,教育,物流,电信,交通,医疗,政府公共服务,金融,电子商务,我国大数据区域分布,京津冀地区依托北京,,培育了一大批大数据企业,是目前我国大数据企业集聚最多的,地方。,珠三角地区依托广州和深圳两个国家超级计算中心的集聚作用,在腾讯、华为、中兴等一批骨干企业的带动下,逐渐形成了大数据集聚发展的趋势。,长三角地区依托上海、杭州、南京,,吸引,了大批大数据企业,,上海,发布,上海推进大数据研究与发展三年行动计划,,推动大数据在城市管理和民生服务领域应用。,大西南地区以贵州、重庆为代表城市,通过积极吸引国内外龙头骨干企业,实现大数据产业在当地的快速,发展。,基础资源,/,云平台,数据存储,数据采集,数据处理,数据分析,展示应用,管理工具,实时接入、海量堆积,多种结构、海量存储,离线统计、实时计算,数据仓库、机器学习,图形、报表等工具库,高可用、高性能集群,数据安全,大数据的一般利用过程(生命周期),大数据产业链及细分领域,数据采集,基础软件,硬件,应用,软件,信息服务,数据存储,数据处理,数据分析,展示应用,采集设备,存储设备,服务器,咨询与服务,采集、监测软件,智能搜索与分析软件,系统集成,数字交易,云,计算,信息安全,数据库软件,大数据,-,让大象跳舞,演讲完毕,谢谢观看!,内容总结,大数据基本概念与行业发展。2010年全球数据总量1.2ZB,年增长50%。非结构半结构混杂。Log/Web page/Email/PDF/。Image/Full-text/MS-Office file。处理时间过长,time-to-value受限。维基百科:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。日志、视频、图片、GIS等。利用低价值密度数据,可以带来高价值回报。数据的含义总是在快速变化的。确保数据的真实性,才能保证数据分析的正确性。鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。DW-Data Warehouse。数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。必须保证数据仓库内的信息是关于整个企业的一致的全局信息。某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少。系统集成 数字交易,
展开阅读全文