资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/12/17,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/12/17,#,智慧楼宇智慧安防一体化管控平台建设方案,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,大数据应用及实践解决方案,2,0,2,0,大数据应用及实践解决方案2020,1,2,目录,2,3,1,大数据行业现状和分析,对大数据的观点及,应,用实践,部分应用场景分析,2目录231大数据行业现状和分析对大数据的观点及应用实践部,3,经济和技术发展大背景,共享经济,经济,关,系,模,式,强制经济,交易经济,1993,-互联网,1973-,以太网,1943-,个人计算机,IT,技术发展,新经济关系形态,/,新,IT,浪潮,工业,4.0,?,中国制造,2025,?,工业互联网,?,机器智能,化系统平台化,整体优化,(,跨产业链),第一,步,连,接,采集数,据,实现数据驱动,3经济和技术发展大背景共享经济经济关系模式1993-互联网,4,大数据通用框架和关键技术,关键技术核心思想,分而治之,Map,&,Reduce,迭,代,Iterating,内存计算,/,数据重用实现实时,全数据,批视图,批视图,Qu,er,y,新数据,实时视图,实时视图,Qu,er,y,批处理层,服务层,大数据技术原理,:,query,=,function(all,data),流处理层,Fig#1,通用Lambda框架,处理大容量数据,快速处理,分析,4大数据通用框架和关键技术关键技术核心思想全数据批视图批视图,5,大数据平台方向,云和大数据的结合,使得支持简单部署的弹性扩展成为可能,“,二八理论,”,80%,的大数据处理是不需要编写大数据程序实现的,既可以自建大数据集群,也可以使用,“,大数据云服务,”,直接使用云端大数据处理与分析能力,易用性:像使用自来水一样的使用,大,数据,大数据与数据仓库技术的结合,适配原有各种数据环境,通用性:复用长期培养的,BI,人,才,与技,术,储备,存储高效,通过压缩等技术节约存储空间与,I,/O,处理时间,性能高效,处理大量数据保证,ROI,运维高效,准确判断问题,迅速替换与重新部署,高效性:性能高效与维护高效并存,紧跟开源社区,充分利用社区力量保证推陈出新,比开源社区,“,快半步,”,,保证企业服务稳定性,开放性:充分利用社区力量,大数据从,Web,Log,数据深入到设备数据、,IoT,数据,文字数据采集与识别处理,图像视频数据采集与识别处理,扩展性:物联网大数据来袭,5大数据平台方向云和大数据的结合,使得支持简单部署的弹性扩展,6,目录,2,3,1,大数据行业现状和分析,对大数据的观点及,应,用实践,部分应用场景分析,6目录231大数据行业现状和分析对大数据的观点及应用实践部,简单易用,遵,循,“,二八理论,”,80%,的大数据处理 是不需要编写大数据 程序实,现,的,7,大数据研发理念和思路,研发理念,让每一个,B,U,人员轻松开发和使,用,大数,据,应用,,做一个大数据,”,电子计算表,“,嵌,入业务中。,秉承思路,紧跟开源社区,并比 社区快,”,半步,”,开放创新高效稳定,存储分类处理,高效 压缩;内存和存储结 合运算提高性能;运 维简单高效。,继承扩展,适配旧环境,保护前 期投资;兼容扩展时 序、非结构化机器数 据和相关分析。,简单易用7大数据研发理念和思路研发理念紧跟开源社区,并比 社,8,Olympia+,平,台,企业大数据采集、存储、处理、展现整体解决方案,Hadoop/Spark,最佳存储方案,流行、易用,ETL,工具采用图,形,化技,术,是的,大,量工,作,无需,MR,编程,灵活可定制的大数据展,示,工具,,,支持,对,接,Spark/Hadoop,Hadoop/Spark,易用,ETL,工具 大数据展示方案,集成的分布式爬虫技术,,,自然,语,言分,析,模块,将,互联,网,文字,结,构化,分,析,爬虫与自然语言技术,SDK,采集与处理技,术,一体化集成的,Android/Windows,SDK,直接获取用户,大,数据,进,行分析,Olympia+,支持端到端的解决方案,可以单独抽取独立模块,售,卖,存储、,ETL,、展示、爬,虫,、,SDK,既,可,以集,成,使用,,,也可,以,单独,使,用,通,过,Portal,集成权限控制系统,8Olympia+平台企业大数据采集、存储、处理、展现,9,大数据平台及其关键特性,原始数据及索引,处理后的数据,Ad-hoc,可视化,报表报告,故事面板,数据挖,掘,(R,ML-Pipeline,NLP),J,SON,J,SON,SO,A,P/REST,网络运维,数据缓存,数据接收层(解压解密),元数据,系统数据,用户安全 管理,批处理,实时处理,用户数据,大数据处理框架,Spark,/,Hadoop,数据存储和索引,HDFS/,column-based,DB,应用开发框架,多租户共,享Portal,其他应用,#1,其他应用,#2,零售分析供应链管理设备使用分析,软件使用分析,联邦数据访问层,SOAP/JSON,JSON,数据建模,多层,多维度,自然语言访问层,(NLA),关键特性,端对端解决方案,各层独立解耦设计,80%,的编程问题通过图形化,拖,拽来,解,决,自然语言访问数据,和数据对话,开放接口,-,支持多数据源融合,,,多种呈 现组件接入,灵活分析故事分享机制,-,和办公软件,,Social,CRM,集成,结构化数,据,日志,网络爬虫,数据库连接器,第三方连接器,9大数据平台及其关键特性原始数据及索引处理后的数据Ad-ho,10,系统底层采集,SDK,平台,支持,Android/Windows,架构,(IOS,需,APP,定制),采集硬件,/,软件数据,动态,SDK,采集方案,数据压缩提升存储,/,处理,效,率,动态格式,无限制用户自定义,集成功能控制,Portal,支持,全,球,30,多,个,国,家,,,8000,多,款设,备,数,据,,,每,天,超,过,6,千,万,数,据,通,过,SDK,及,O+,平台,完成,处,理,10系统底层采集SDK平台支持Android/Windows,11,Olympia+,爬虫平台,网络上大量用户发布数,据,可以,辅,助以,用,户为,中,心的,企,业转型,产品信息价格,用户评论,论,坛,/,微博,百度搜索,关键技术,网页解析与模板集成技术,多类型网页任务爬取:网页、评论、微博、论坛,多项专利技术确保爬取任务顺利进行,多用户,/,用户行为拟合,不间断的任务执行,:,任务自动重启技术、监控,灵活配置横向扩展,支持分布式部署,中国,区,包括京东、,淘宝,、,亚马,逊,、,Pconline,、百度贴,吧等,等,9200,万条,3C,记录,,,包,括,2000,品牌,,,24,万,种,3C,产品数据,,自,然,语言,超,过,200,中,语,言,属,性,11Olympia+爬虫平台网络上大量用户发布数据可以辅助以,12,集成易用的大数据处理工具,易用的大数据处理用户界面,像处理普,通,ET,L,任务一样设计、开发、调度大数据任务,HA,与多集群数据并行处理,支持任务远程发布,/,管理,详细的,Log,日志,方,便,用,户,统一任务调度器监控与,处,理大,数,据任务,提供,API,对接第三方平台,提,供任,务,提交、,删除、任务调度与更改,12集成易用的大数据处理工具易用的大数据处理用户界面,像处理,13,新一代的,Spark,处理集群,急速提,升,大数,据,处,理速度,测试节点,:,4,/,128,核,172G,内存,数据量,:,1.46,billion,rows,100,G,结果比对,:,Qurey1.,Aggregation,Query,Qurey2.,Join,Query,Qurey3.,Distinct,Query,Median Response,Time,(s),Query1,Query2,Query3,Spark-1.4-Mem,21,34,46,Spark-1.4-Disk,180,174,96,Hive-0.13,329.998,513.826,515.863,0,1,0,0,2,0,0,3,0,0,4,0,0,5,0,0,6,0,0,Q,u,e,ry,1,Q,u,e,ry,2,Q,u,e,ry,3,Spark,v.s.,Hive,Spark-1.4-Mem,Spark-1.4-Disk,Hive-0.13,13新一代的Spark处理集群,急速提升大数据处理速度测试节,14,紧随,Hadoop,开源社区脚步,升级最新,稳,定版,紧跟开源路线,修复开源严重问题得以使用,维护期内,每年更新集,群,软件,版,本(,数,据迁,移,工作,量,另外,计,算),修复严重问题,并确保,与,Olympia+,其他组件,兼,容,V2.4.0,features,:,Support,for Access Control,Lists,in,HDFS,Native support,for,Rolling Upgrades in,HDFS,Complete HTTPS support,in,HDFS,Enhanced,YARN,with Application History Server,and,Application,Timeline,Server,V 2.7.1 features:,131,bug,fixes and,patches,drops support,for,JDK6,runtime,and works,with,JDK,Make YARN,authorization,pluggable,Automatic shared,global caching,of,YARN localized,resources,(beta),MAPREDUCE,Ability,to,limit,running,Map/Reduce,tasks of a,job,Speed,up,V2.2.0,features,:,YARN,High Availability,for,HDFS,HDFS,Federation,HDFS,Snapshots,2,0,1,3,.10,2,0,1,4,.4,2,0,1,5,.8,2,0,1,4,.12,V2.4.1,features,:,security,bug,fix,privilege,checks to,HDFS,7+,only,YARN,2,0,1,3,.5,2,0,1,2,.8,Web,services,for,JobTracker,WebHDFS,enhancements,V0.23.1 features,:,V1.2.1,features,:,HDFS,Federatio,n,NextGen,MapReduce,14紧随Hadoop开源社区脚步,升级最新稳定版紧跟开源路线,15,简易灵活的大数据报表系统,目标:提供非技术人员查看大数据和分析大数据能力,软件特性,:,支持大数据和数据库等,多,种数,据,源,(Hadoop,MySQL,SQLServer,etc.),超大规模数据提供大数,据,展示,加,速工,具,,利,用,Spark,特,性,加速,展,示方法,15简易灵活的大数据报表系统目标:提供非技术人员查看大数据和,16,数据挖掘工具,支持在,Spark,上运行,R,语言,大量丰富的统计和分析功,能,-,回归分析,聚类,决策树等,超强的制图能力,Outstanding,graphical,capabilities,在经济,生物信息方面有丰富的插件包,16数据挖掘工具支持在Spark上运行 R语言,17,大数据助力面向用户为中心转型,数字推广分析 社区分析,零售店面管理,使用反馈 反馈分析,竞品分析 零售,O2O,推荐和交叉销售 社会,CRM,品牌感知,产品选择,购
展开阅读全文