大数据概述ppt课件

上传人:29 文档编号:240785194 上传时间:2024-05-08 格式:PPT 页数:97 大小:15.62MB
返回 下载 相关 举报
大数据概述ppt课件_第1页
第1页 / 共97页
大数据概述ppt课件_第2页
第2页 / 共97页
大数据概述ppt课件_第3页
第3页 / 共97页
点击查看更多>>
资源描述
认识和改造世界的第四范式?-大数据翟岩龙翟岩龙 博士博士北京理工大学北京理工大学 计算机学院计算机学院Acknowledgement:Some of the materials are from internet,thanks to the authors.Thanks to Yabo from SYSU,Google and Baidu.认识和改造世界的第四范式?-大数据翟岩龙 博士Ac1采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物电影点球成金基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;布拉德皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。电影点球成金基于历史数据,利用数据建模定量分析不同球员特采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物数据本质是生产资料和资产仅供开采162年仅供开采45年仅供开采60年不可再生资源VS数据过去3年数据总量被以往4万年还多2013年,10分钟的信息总量将达1.8ZB2010年全球数据总量1.2ZB,年增长50%数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。数据本质是生产资料和资产仅供开采162年仅供开采45年仅供开4采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物数据爆炸式增长(每分钟)数据爆炸式增长(每分钟)5采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物数据资产管理的挑战数据资产管理的挑战数据资产管理的挑战6采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物数据资产管理的挑战数据资产管理的挑战数据资产管理的挑战7采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物需要不同“看”数据的方式8可视:结构化资料 15%未视:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的需要不同“看”数据的方式8可视:结构化资料 15%未视:半/8采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物10万 GB10万 TB需要更高性价比的数据计算与储存方式9数据库数据仓库计算更快 存储更省10万10万需要更高性价比的数据计算与储存方式9数据库数据仓9采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物需要需要不同的数据管理策略不同的数据管理策略当我们想要扩充时,才发觉:架构只能 scale-up,scale-out 不易处理时间过长,time-to-value 受限成本过高,cost-efficiency 受限15%结构化的 DB/DW遗憾残缺需要不同的数据管理策略当我们想要扩充时,遗憾残缺采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物每天几百 GB、几 TB 的资料,且持续成长中储存储存StoringStoring 在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算计算ProcessiProcessingng如何有效的避免因硬件毁坏所导致的资料损毁管理管理ManaginManaging g如何从中挖掘出所关注事件的 pattern 或 behavior分析分析AnalyziAnalyzingng超越企业现有 IT 的数据解决能量11每天几百 GB、几 TB 的资料,且持续成长中储存 在收11采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物中央政府对大数据的重视程度习近平近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克李克强强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克李克强强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋汪洋数据为王,财政工作离不开大数据中央政府对大数据的重视程度习近平政府管理不仅要讲究策略,还要12采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物14Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall LogLog什么是数据?半半结结构化构化/非非结结构化数据构化数据14Social MediaMachine/Sensor14采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物3/13/20124什么是大数据?什么是大数据?3/13/20124什么是大数据?15采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物何为大?数据度量1Byte=8 Bit1KB =1,024 Bytes1MB =1,024 KB=1,048,576 Bytes1GB =1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB =1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB =1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB =1,024 PB=1,048,576 TB=1,152,921,504,606,846,976 Bytes1ZB =1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB =1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes什么是大数据?什么是大数据?何为大?数据度量什么是大数据?16采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB 约等于 671部红楼梦1TB 约等于 631,903 部1PB 约等于 647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB1EB=40004000倍倍 美国国会图书馆存储的信息量美国国会图书馆存储的信息量600600美元的硬盘就可以存储全世界所有的歌曲美元的硬盘就可以存储全世界所有的歌曲MGIMGI估计估计,全球企业全球企业 20102010 年在硬盘上存储了超过年在硬盘上存储了超过 7EB(1EB7EB(1EB 等于等于 1010 亿亿 GB)GB)的新数据的新数据,同时同时,消费者在消费者在 PCPC 和笔记本等设备上存储了超过和笔记本等设备上存储了超过 6EB6EB 新数据新数据7数据没有数据没有办办法在可容忍的法在可容忍的时间时间下使用常下使用常规软规软件方法完成存件方法完成存储储、管理和、管理和处处理任理任务务什么是大数据?什么是大数据?红楼梦含标点87万字(不含标点853509字)7数据没有17采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的解释大数据的解释大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。大数据的解释大数据是需要新处理模式才能具有更强的决策力、洞18采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革更好不是因果关系而是相关关系更多不是随机样本而是全部数据更杂不是精确性而是混杂性大数据带来的思维变革更好更多更杂19采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更多)大数据应用全数据模式大数据时代大数据带来的思维变革(更多)人口大普查随机采样大数据应用是指20采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更多)大数据应用全数据模式大数据时代大数据带来的思维变革(更多)人口大普查随机采样大数据应用人口21采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更多)大数据应用全数据模式我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代大数据带来的思维变革(更多)人口大普查随机采样大数据应用我们22采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更多)Google利用网络大数据预测流感基于全数据进行相扑比赛的作弊分析埃齐奥尼的Farecast有10万亿条数据预测机票价格乔布斯的癌症抗争,自身所有DNA和肿瘤DNA排序大数据带来的思维变革(更多)Google利用网络大数据预测流23采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追24采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据带来的思维变革(更好)原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据带来的思维变革(更好)原因和结果是揭示客观世界中普遍联25采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的4V特征Volume非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍Value大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效 Variety大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义BigData大数据TBTBPBPBEBEBStreamsStreamsReal timeReal timeNear timeNear timeBatchBatchStructuredStructuredUnstructured Unstructured Semi-structuredSemi-structuredAll the aboveAll the above大数据的4V特征Volume非结构化数据的超大规模和增长Va26采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的4V特征(Volume)1Byte1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和一般情况下,大数据是以PB、EB、ZB为单位进行计量的大数据的4V特征(Volume)1Byte1KB1MB1GB27采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的4V特征(Velocity)82254132215327现在及未来几年内美国的移动网络数据流量增长(PB/月)源自英国Coda研究咨询公司大数据的增长速度快大数据的处理速度快实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;大数据的4V特征(Velocity)82254132215328采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的4V特征(Variety)行业/企业内数据互联网数据物联网数据大数据数据来源多企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。数据类型多保存在关系数据库中的结构化数据只占少数,7080%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。关联性强数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。大数据的4V特征(Variety)行业/企业内互联网数据物联29采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的4V特征(Value)挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体大数据的4V特征(Value)挖掘大数据的价值类似沙里淘金,30采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物行业行业数据处理方式数据处理方式价值价值银行/金融贷款、保险、发卡等多业务线数据集成分析、市场评估新产品风险评估股票等投资组合趋势分析增加市场份额提升客户忠诚度提高整体收入降低金融风险医疗共享电子病历及医疗记录,帮助快速诊断穿戴式设备远程医疗改善诊疗质量加快诊疗速度制造/高科技产品故障、失效综合分析专利记录检索智能设备全球定位,位置服务优化产品设计、制造降低保修成本加快问题解决能源勘探、钻井等传感器阵列数据集中分析降低工程事故风险优化勘探过程互联网/Web2.0在线广告投放商品评分、排名社交网络自动匹配搜索结果优化提升网络用户忠诚度改善社交网络体验向目标用户提供有针对性的商品与服务政府/公用事业智能城市信息网络集成天气、地理、水电煤等公共数据收集、研究公共安全信息集中处理、智能分析更好地对外提供公共服务舆情分析准确预判安全威胁媒体/娱乐收视率统计、热点信息统计、分析创造更多联合、交叉销售商机准确评估广告效用零售基于用户位置信息的精确促销社交网络购买行为分析促进客户购买热情顺应客户购买行为习惯13大数据商业价值大数据商业价值行业数据处理方式价值银行贷款、保险、发卡等多业务线数据集成31采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-大数据为大数据为“未来的新石油未来的新石油”2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。32大数据商业价值-大数据为“未来的新石油”2013年,世采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-企业经营决策企业经营决策某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。33大数据商业价值-企业经营决策某商店卖牛奶,通过数据分析采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-个性化营销个性化营销银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低,34大数据商业价值-个性化营销银行与客户的交流渠道进行了整采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-互联网金融的核心是大数据互联网金融的核心是大数据互联网金融并非简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融发展的核心正是大数据的价值。35大数据商业价值-互联网金融的核心是大数据互联网金融并非采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-所有互联网公司都将是大数据公司所有互联网公司都将是大数据公司36大数据商业价值-所有互联网公司都将是大数据公司36采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据商业价值大数据商业价值-数据列入企业资产负债表只是时间问题数据列入企业资产负债表只是时间问题用资产的要素来盘点一下什么样的数据符合资产的要求:1,从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。2,对于数据资产的货币计量,可以参照无形资产的计量规则。3,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。4,要实现数据的保值增值,就要从扩大数据规模,提高数据活性,提升收集运用数据的能力37大数据商业价值-数据列入企业资产负债表只是时间问题用资产采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据改变生活。大数据对政府、金融机构、企业来说,象空气一样不可或缺!38大数据改变生活。大数据对政府、金融机构、企业来说,象空气一样采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题VolumeVarietyValueVelocity发现数据39采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物软件是大数据的引擎和数据中心(Data Center)一样,软件是大数据的驱动力.软件改变世界软件改变世界!软件是大数据的引擎和数据中心(Data Center)一样40采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分41采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物技术领域的挑战1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-DistributedDatabase),可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。技术领域的挑战1、对现有数据库管理技术的挑战网络架构、数据中42采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)分析技术:一些相关技术存储解决方案:43采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的相关技术ETL数据众包(CrowdSouring)大数据的相关技术ETL44采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数45采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理大数据的相关技术ETL结构化、非结构化和半结构化数据46采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统分布式文件系统(Distributed Fil47采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分布式文件系统Google文件系统(GoogleFileSystem,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统Google文件系统(Google File 48采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分布式文件系统GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、ChunkServer(数据块服务器)。分布式文件系统GFS将整个系统分为三类角色:Client(客49采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统Hadoop是一个分布式系统基础架构,由Apa50采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。分布式文件系统一个HDFS集群是由一个Namenode和一定51采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQL关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的需求难以满足对数据库高可扩展性和高可用性的需求=非关系型数据库NoSQL关系型数据库的局限性NoSQL=52采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLNoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。非关系型数据库NoSQLNoSQL 数据存储不需要固定的表结53采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQL非关系型数据库NoSQL54采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLBigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括GoogleAnalytics、GoogleEarth等。非关系型数据库NoSQLBigtable的设计目的是可靠地处55采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(rowkey)、列键(columnkey)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用(row:string,column:string,time:int64)string来表示一条键值对记录。非关系型数据库NoSQLBigtable是一个键值(key-56采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(rowkey)、列键(columnkey)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用(row:string,column:string,time:int64)string来表示一条键值对记录。非关系型数据库NoSQLBigtable是一个键值(key-57采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLDynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。非关系型数据库NoSQLDynamoDB是Amazon提供的58采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLAmazonDynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。ImageID=1ImageID=1Title=flowerTitle=flowerTags=flower,jasmine,whiteTags=flower,jasmine,whiteRatings=3,4,2Ratings=3,4,2一个属性是一个“名称-值”对(name-valuepair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例:非关系型数据库NoSQLAmazon DynamoDB把数据59采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLHBaseHadoopDatabase,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo的完全分布式的架构于一身。Facebook于2008年将Cassandra开源,此后被Digg、Twitter等知名Web2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。非关系型数据库NoSQLHBase Hadoop Dat60采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物非关系型数据库NoSQLMongoDB是一个基于分布式文件存储的数据库。由C+语言编写,是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,可以存储比较复杂的数据类型。它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。非关系型数据库NoSQLMongoDB是一个基于分布式文件存61采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物云计算和云存储云计算(cloudcomputing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。云计算和云存储云计算(cloud computing),是分62采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是63采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物云计算和云存储云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云计算和云存储云存储是在云计算(cloud computin64采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据65采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据66采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言大数据的相关技术ETL结构化、非结构化和半结构化数据A/B 67采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简MapReduceMapReduce 是Google提出的一个68采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物MapReduceMapReduce69采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物R语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。R语言R语言是一种自由软件编程语言与操作环境,主要用于统计分70采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(TagCloud)聚类图(Clustergram)空间信息流(Spatialinformationflow)热图(Heatmap)大数据的相关技术ETL结构化、非结构化和半结构化数据A/B 71采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物标签云标签云(TagCloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。标签云标签云(Tag Cloud)是一套相关的标签以及与此相72采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物标签云奥巴马布什克林顿林肯标签云奥巴马布什克林顿林肯73采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物标签云标签云74采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。聚类图聚类图(Clustergram)是指用图形方式展示聚类75采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物空间信息流空间信息流(Spatialinformationflow)是展示信息空间状态的一种可视化技术。空间信息流空间信息流(Spatial information76采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。热图热图(Heatmap)是一项数据展示技术,将变量值用不同77采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物热图热图78采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据的安全威胁大数据基础设施安全威胁大数据存储安全威胁隐私泄露问题数据访问安全威胁针对大数据的高级持续性攻击其他安全威胁大数据挑战大数据挑战大数据的安全威胁大数据基础设施安全威胁大数据存储安全威胁隐私采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物大数据业务战略大数据建设目标大数据架构设计大数据实施大数据运维企业战略目标业务目标业务模式大数据目标服务对象服务模式应用场景大数据服务定义大数据信息模型大数据管理定义技术选择容量规划安装、配置验收测试系统上线大数据服务管理系统监控资源调度生命周期管理服务性能管理验证测试大数据持续改进架构优化技术升级服务改进企业大数据建设方法企业大数据建设方法大数据大数据大数据大数据实施大数据运维企业战略目标大数据目标81采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物逐步扩展现有架构,满足大数据要求:第 1 步:更深入地分析当前数据第 2 步:针对数据多样性和数据量进行设计第 3 步:针对高数据速度设计第 4 步:发现新模式提高业务价值企业大数据建设方法企业大数据建设方法逐步扩展现有架构,满足大数据要求:提高业务价值企业大数据建设82采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物信息分析信息供应(In-Database)数据挖掘文本挖掘统计分析语义分析空间地理分析In-DBMapReduce说明性分析预测分析报告仪表板用户层最终客户供应商市场营销管理人员客户服务业务流程合作伙伴应用系统数据沙箱(Sandbox)Distributed File SystemsNoSQLRelationalData Streams文档多媒体网络和社交媒体机器生成大数据处理大数据处理&发现海量非结构化数据&流数据处理信息发现数据转化存储层数据源数据仓库海量非结构化&结构化数据访问,转换和存储分析主题库(数据集市)Faceted UnstructuredSpatial/Relational企业部门应用企业大数据建设方法企业大数据建设方法信息分析信息供应(In-Database)数据挖掘文本挖掘统83采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物商品零售大数据商品零售大数据此事经被纽约时报报道后,塔吉特“大数据”的巨大威力轰动全美在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。85商品零售大数据此事经被纽约时报报道后,塔吉特“大数据”采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物消费大数据消费大数据亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。86消费大数据亚马逊“预测式发货”的新专利,可以通过对用户数采用PP管及配件:根据给水设计图配
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!