大数据前沿技术与应用场景课件

上传人:20****08 文档编号:242445930 上传时间:2024-08-24 格式:PPTX 页数:37 大小:14.50MB
返回 下载 相关 举报
大数据前沿技术与应用场景课件_第1页
第1页 / 共37页
大数据前沿技术与应用场景课件_第2页
第2页 / 共37页
大数据前沿技术与应用场景课件_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/6/24,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/6/24,#,大数据前沿技术与应用场景,大数据前沿技术与应用场景,1,大数据前沿技术,1,2,大数据应用场景,大数据前沿技术12大数据应用场景,大数据的引擎,软件改变世界,软件是大数据的驱动力,大数据的引擎软件改变世界软件是大数据的驱动力,Hadoop,十年,Hadoop十年,大数据技术的关键历史进程,2000,2003,2004,2006,2008,2009,Google File System,Google MapReduce,Google Big Table,Hadoop,开源,HBase,开源,Hive,2010,MongoDB,开源,Spark,开源,大数据技术的关键历史进程200020032004200620,2011,2012,2013,Hadoop1.0,(,HDFS,、,MapReduce,),Storm,初版,阿里巴巴,RocketMQ,Hadoop2.0,(,YARN,),2016,Apache,RocketMQ,2017,2018,Hadoop3.0,Storm1.0,2015,HBase1.0,2014,Apache Spark,201120122013Hadoop1.0(HDFS、Map,大数据常用的关键技术,海量数据存储技术,分布式文件系统,是,Hadoop,项目的核心子项目,面向列的开源数据库,非常适合非结构化数据,是非关系数据库中功能最丰富,最像关系型的,大数据常用的关键技术海量数据存储技术分布式文件系统,是Had,拆分,复制,文件存储,拆分复制文件存储,列式存储,分区存储,列式存储分区存储,文档存储,employees: ,firstName: Bill,lastName: Gates,firstName: George,lastName: Bush,文档存储,其他存储技术,分布式索引技术,百亿级数据秒级查询。,分布式消息队列,融峰缓冲的必备利器。,其他存储技术分布式索引技术,百亿级数据秒级查询。分布式消息队,Apache RocketMQ,是开源的、分布式的、消息和数据流平台,生产者消费者模型,生产者向,1,个或多个消息,主题,生产消息,生产者,和,消费者,彼此不知道对方,0,或多个消费者可能对消息主题感兴趣,Apache RocketMQ是开源的、分布式的、消息和数据,注册信息写入数据库,发送注册邮件,发送注册短信,响应,_ms,6,0ms,50ms,4,0ms,注册信息写入数据库,发送注册邮件,发送注册短信,6,0ms,50ms,40ms,响应,_ms,异步处理,将不必要的业务逻辑,进行异步处理,从而达到,提速,的目的。,150,110,65,60ms,响应,_ms,注册信息写入数据库,发送注册邮件,发送注册短信,发送消息队列,5ms,异步读取,注册信息写入数据库发送注册邮件发送注册短信响应_ms,应用解耦,解除不同系统或模块之间的耦合。,如果库存系统无法访问,则会导致处理失败,而影响下单。,写入,订单系统,库存系统,消息队列,订阅,即使下单时库存系统不能正常使用,也不会影响正常下单。,订单系统,库存系统,调用库存接口,应用解耦解除不同系统或模块之间的耦合。如果库存系统无法访问,,消息队列一般都内置了高效的通讯机制,可用在纯通讯场景。,消息通讯,融峰缓冲,消息队列,最常用,的应用场景。在秒杀或团抢场景广泛应用。,流量瞬间暴涨,,引发服务故障。,可以缓冲高压,,灵活处理请求。,用户请求,秒杀业务处理,发送请求,返回结果,用户请求,秒杀业务处理,发送请求,返回结果,消息队列,按需读取秒杀请求,消息队列一般都内置了高效的通讯机制,可用在纯通讯场景。消息通,分布式索引技术,百亿级数据秒级查询。,优点,缺点,实时性高,易用,支持插件,水平扩展,事务性不强,关联查询效率低,分布式索引技术,百亿级数据秒级查询。优点缺点实时性高易用支持,数据计算处理,技术,分布式计,并行,算,框架,适合时效性较低场景。,一种通用的计算框架,适合时效性较高场景。,流式计算框架,非常适合需实时计算的场景。,数据计算处理技术分布式计并行算框架,适合时效性较低场景。一种,R,G,G,G,R,B,O,P,P,B,O,R,B,P,R,O,split,R,G,R,B,P,B,B,P,G,G,O,P,O,R,R,O,R,G,R,B,P,B,B,P,G,G,O,P,O,R,R,O,map,map,shuffle,R,R,R,R,P,P,P,G,G,G,B,B,B,O,O,O,reduce,R,P,G,B,O,4,3,3,3,3,sort,RGGGRBOPPBORBPROsplitRGRBPBBPG,伪实时,伪实时,外部,存储,外部,数据,Spout,Bolt,T,T,T,T,T,T,T,实时,外部外部SpoutBoltTTTTTTT实时,数据分析,技术,数据分析技术,数据可视化,技术,数据可视化技术,大数据前沿技术,1,2,大数据应用场景,大数据前沿技术12大数据应用场景,商品零售大数据,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿,?,然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。,模型发现,许多孕妇在第,2,个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初,20,周大量购买补充钙、镁、锌的善存片之类的保健品。,最后塔吉特选出了,25,种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,,Target,能够在很小的误差范围内预测到顾客的怀孕情况,因此,Target,就能早早地把孕妇优惠广告寄发给顾客。,商品零售大数据 有一位父亲怒气冲冲地跑到塔吉特卖场,质,大数据,+,政治,在筹备过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。,在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。,比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。,“,Twitter,的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是,59,,而罗姆尼的只有,53,。,大数据 + 政治 在筹备过程中,奥巴马背后的数据分析团,证监会大数据,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达,300,个。,实际上,早在,2009,年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。,而此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了,200,多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。,证监会大数据 回顾“老鼠仓”的查处过程,在马乐一案中,,金融大数据,阿里“水文模型”是按小微企业类目、级别等分别统计一个阿里系商户的相关“水文数据”库。,如过往每到某个时点,该店铺销售会进入旺季,销售额就会增长,同时每在这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统可以判断出该店铺的融资需求;结合该店铺以往资金支用数据及同类店铺资金支用数据,可以判断出该店铺的资金需求额度。,金融大数据 阿里“水文模型”是按小微企业类目、级别等分,金融交易大数据,量化交易,程序化交易,高频交易是大数据应用比较多的领域。,全球,2/3,的股票交易量是由高频交易所创造的,参与者总收益每年高达,80,亿美元。,其中,大数据算法被用来作出交易决定。现在,大多数股权交易都是通过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。,当一个产品可以在多个交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕捉到同一个产品在不同交易所之间的显著价差,谁就能捕捉到瞬间套利机会,技术成为了重要因素。,金融交易大数据 量化交易,程序化交易,高频交易是大数据,制造业大数据,在摩托车生产厂商哈雷,戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷,戴维森同时还使用软件,还寻找制约公司每,86,秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷,戴维森提高了安装该配件的速度。,美国一些纺织及化工生产商,根据从不同的百货公司,POS,机上收集的产品销售速度信息,将原来的,18,周送货速度减少到,3,周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。,制造业大数据 在摩托车生产厂商哈雷戴维森公司位于宾尼,医疗大数据,谷歌基于每天来自全球的,30,多亿条搜索指令设立了一个系统,这个系统在,2009,年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。,谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达,97%,。,这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。,医疗大数据 谷歌基于每天来自全球的30多亿条搜索指令设,能源大数据,国际大石油公司一直都非常重视数据管理。如雪佛龙公司将,5,万台桌面系统与,1800,个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省,5000,万美元,过去,4,年已获得了净现值约为,2,亿美元的回报。,准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯,(Vestas Wind Systems),,通过在世界上最大的超级计算机上部署,IBM,大数据解决方案,得以通过分析包括,PB,量级气象报告潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。,能源大数据 国际大石油公司一直都非常重视数据管理。如雪,交通大数据,UPS,最新的大数据来源是安装在公司,4.6,万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。,大量的在线地图数据和优化算法,最终能帮助,UPS,实时地调配驾驶员的收货和配送路线。该系统为,UPS,减少了,8500,万英里的物流里程,由此节约了,840,万加仑的汽油。,交通大数据 UPS最新的大数据来源是安装在公司4.6万,公安大数据,大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。,中国大数据的概念其实源于最早公安部抓法轮功分子。,大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要通过把不同线索拼凑起来排查疑犯。,通过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。不但有利于警方精准分配警力,预防打击犯罪,也能帮助市民了解情况,提高警惕。,公安大数据 大数据挖掘技术的底层技术最早是英国军情六处,文化传媒大数据,与传统电视剧有别,,纸牌屋,是一部根据“大数据”制作的作品。制作方,Netflix,是美国最具影响力的影视网站之一,在美国本土有约,2900,万的订阅用户。,Netflix,成功之处在于其强大的推荐系统,Cinematch,,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。,Netflix,发布的数据显示,用户在,Netflix,上每天产生,3000,多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出,400,万个评分,以及,300,万次搜索请求。,Netflix,遂决定用这些数据来制作一部电视剧,投资过亿美元制作出,纸牌屋,。,Netflix,发现,其用户中有很多人仍在点播,1991,年,BBC,经典老片,纸牌屋,,这些观众中许多人喜欢大卫,芬奇,观众大多爱看奥斯卡得主凯文,史派西的电影,由此,Netflix,邀请大卫,芬奇为导演,凯文,史派西为主演翻拍了,纸牌屋,这一政治题材剧。,2013,年,2,月,纸牌屋,上线后,用户数增加了,300,万,达到,2920,万。,文化传媒大数据 与传统电视剧有别,纸牌屋是一部根据,航空大数据,Farecast,已经拥有惊人的约,2000,亿条飞行数据记录。用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。,Farecast,预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。,Farecast,票价预测的准确度已经高达,75,,使用,Farecast,票价预测工具购买机票的旅客,平均每张机票可节省,50,美元。,航空大数据 Farecast已经拥有惊人的约2000亿,快递监管大数据,国家邮政安全监管中心汇集了全国所有快递企业的面单及状态数据。,安监中心通过企业实时上报的数据可以任意时间查看任意企业的快递总量、当前时间点所有快递的分布在全国的分布情况。,安监中心通过定期分析快递从寄件到最终送达至用户手中各个环节所花费的时间,来优化快递的配时长,快递的配送速度正在逐步的提升。,还可以通过分析各转运中心的监控视频,查看是否存在暴力分拣的现象。,快递监管大数据 国家邮政安全监管中心汇集了全国所有快递,感谢聆听 批评指导,感谢聆听 批评指导,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!