大数据下的资源整合和知识享(下)课件

资源描述

大数据下大数据下的的资源资源整合和知识共享整合和知识共享（下）（下）大数据下的一、热词解释一、热词解释二、国际大数据案例分析及相关技术介绍二、国际大数据案例分析及相关技术介绍三、大数据实际项目解析三、大数据实际项目解析目目录录（一）国际大数据案例分析（一）国际大数据案例分析（二）大数据相关技术（二）大数据相关技术一、热词解释二、国际大数据案例分析及相关技术介绍三、大数据实二、国际大数据案例分析二、国际大数据案例分析及相关技术介绍及相关技术介绍二、国际大数据案例分析（二）大数据相关技术（二）大数据相关技术（二）大数据相关技术1.数据获取与储存Hadoop是一个能够对大量数据进行分布式处理的开源软件框架。它支持数据密集型分布式应用并以Apache2.0为许可协议发布。它支持在商品硬件构建的大型集群上运行应用程序。Hadoop是以一种可靠、高效、可伸缩的方式对大数据进行处理。1.数据获取与储存Hadoop是一个能够对大量数据进行分布式三个层次底层集群的存储环境，HDFS中间层分布式的数据处理顶层有一个抽象PIG，Hive还有SqoopHADOOP三个层次底层集群的存储环境，HDFS中间层分布式的数据处理顶Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS能提供高吞吐量的数据访问，非常适合于大规模数据集上的应用。HDFS放宽了一部分POSIX的约束，来实现流式读取文件系统数据的目的。HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用HDFS包含了一个Namenodes，还有很多的Datanodes。Namenodes进行一个元数据的管理，Datanodes保存在不同的物理设备上。Datanodes里面绿色的小方框，是存储块。HDFS包含了一个Namenodes，还有很多的Datano10K nodes,100 million files,10 PB规模适合数据批量处理；最大化吞吐率；允许计算向数据迁移特性数据块副本、数据块放置策略、缓存策略等优化10K nodes,100 million files,它是一种并行式的计算模型，用于大规模数据集，通常是大于1TB的并行计算。Map是映射，Reduce是规约。MapReduce它是一种并行式的计算模型，用于大规模数据集，通常是大于1TBMapReduce 流程AmapB reduce两个阶段应用程序开三个线程。一个线程产生Master结点，另外两个Worker结点。MapReduce 流程AmapB reduce两个阶段HBase是一个开源的非关系型分布式数据库(NoSQL)，它参考了谷歌的BigTable建模，实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。HBase是一个开源的非关系型分布式数据库(NoSQL)，它Hive是基于Hadoop的一个数据仓库工具。主要考虑大数据查询效率问题的解决，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。可以将SQL语句转换为MapReduce任务进行运行。HiveHiveHiveHiveHive是基于Hadoop的一个数据仓库工具。Hive说明：Hive具有容错的机制。1首先将任务分配给HDFS之上的三个Node，每个Node代表一个机器。2Node3因为某种原因失败，这个任务只完成了85%。3在 Time3的时候，这个任务可以迁移到另外的一个Node。说明：1首先将任务分配给HDFS之上的三个Node，每个NoPigPig为复杂的海量数据并行计算，提供了一个简单的操作和编程接口。PigPig为复杂的海量数据并行计算，提供了一个简单的操作和Spark是一个高效的分布式计算系统，它有MapReduce所有优点，同时性能比Hadoop高100倍。1在性能上提供比Hadoop更上层的API，同样的算法只有Hadoop的1/10或者1/100的长度。2Shark是一个在Spark上数据仓库的实现，在兼容Hive的情况下，性能最高可以达到Hive的一百倍。3SparkSparkSpark是一个高效的分布式计算系统，它有MapReduce大数据的数据挖掘与机器学习，是大数据技术的核心，也是人工智能的核心。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.数据挖掘与分析核心大数据的数据挖掘与机器学习，是大数据技术的核心，也是人工智能数据挖掘案例：购物篮分析顾客往往喜欢将啤酒和尿布同时购买。数据挖掘案例：购物篮分析顾客往往喜欢将啤酒和尿布同时购买。机器学习机器学习机器学习主要是设计和分析一些让计算机可以自动学习的算法，它是一类从数据中自动分析获得规律，并且利用规律对未知数据进行预测的算法。机器学习机器学习主要是设计和分析一些让计算机可以自动大数据下的资源整合和知识享(下)课件3.数据交互与可视化可视化就是利用计算机图形学以及图像处理技术，将数据转换成图像，显示在电脑的显示器上。3.数据交互与可视化可视化就是利用计算机图形学以及图像处理技信息可视化科学可视化便于对科学技术数据和便于对科学技术数据和模型的实时渲染与处理模型的实时渲染与处理。提高人对大规模提高人对大规模非非结构结构化数据的理解与感知，化数据的理解与感知，降低大数据信息负载降低大数据信息负载。信息可视化科学可视化提高人对大规模非结构化数据的理解与感知，技术：分布式实时渲染（GPU/CPU）多层次交互可视分析(Level of Details)结合数据挖掘/机器学习的智能可视化技术：大数据可视化：以易于人理解的方式展示大数据。三、大数据实际项目解析三、大数据实际项目解析三、大数据实际项目解析（一）智慧城市（一）智慧城市（一）智慧城市城市空气质量全方位实时监控城市空气质量全方位实时监控北京的空气监测站，离散地分布在城区的，空间分辨率是每100平方公里有一个监测站，每个监测站能够监测一平方公里的空气质量。1.空气质量监测城市空气质量全方位实时监控北京的空气监测站，离散地分布在城区存在存在问题和挑和挑战空气质量随着时空变迁非线性变化。1 1受天气、交通、建筑等因素影响。2 2存在问题和挑战空气质量随着时空变迁非线性变化。1受天气、交通POIPOIPOI是地图上一些单位的属性。难题：无法用现有方法建模。POIPOI是地图上一些单位的属性。大数据下的资源整合和知识享(下)课件1将城区划分成若干网格，提取每个网格属性。|2针对每种污染情况，进行区间的分类。|3利用半监督学习模型，构建分类器。|如何做到的？如何做到的？1将城区划分成若干网格，提取每个网格属性。|2针对每种污染情空间分类器时间分类器这两个分类器，互相迭代、互相增强，最终能够推理出未知区域的空气质量。分分类器器空间时间这两个分类器，互相迭代、互相增强，最终能够推理出未知优势忽略了路网数据和POI数据，跟时间不相关，精度低。传统的方法传统的方法考虑到了时间和空间两个因素，精度比较高。我们的方法我们的方法优势忽略了路网数据和POI数据，跟时间不相关，精度低。传统2.智能交通问题一：城市拥堵情况越来越严重，原有的红绿灯控制系统，已表现出明显的缺点。2.智能交通问题一：城市拥堵情况越来越严重，原有的红如何做如何做分析十字路口的拥堵模式。对全城的交通路况进行模拟。通过车的速度，来计算路网的速度，通过路网的速度，来探测拥堵的事件。如何做分析十字路口的拥堵模式。对全城的交通路况进行模拟。通过问题二：全城的汽车油耗与尾气排放实时监控需要解决：需要解决：过去一个小时，全城油耗是多少？排放多少尾气？汽车尾气排放是不是城市污染的主要原因？目标：目标：在任何时间任何路段估计出汽车汽油消耗和尾气排放。使用数据：使用数据：出租汽车GPS轨迹数据路网数据POI数据天气数据问题二：全城的汽车油耗与尾气排放实时监控需要解决：大数据解决方案通过TSE（Travel Speed Estimation），估计其他路网车的速度。通过TVI（Traffic Volume Inference），推断路网上有多少辆车。利用了车的GPS轨迹数据大数据解决方案通过TSE（Travel Speed Esti（二）智能社会（二）智能社会大数据与智能社会，解决的是与城市居民息息相关的问题。（二）智能社会大数据与智能社会，解决的是与城市居民息息相关的1.大数据与智能超市布局是怎么设计的？货物是怎么摆放的？为什么要搞促销活动？ACB1.大数据与智能超市布局是怎么设计的？货物是怎么摆放的？为什目标：探索消费者购物行为，实现对超市科学布局以及商品货架摆放；此外，为营销策划提供决策支持，最终提供春节促销方案。可用数据：可用数据：流水表、会员表、支付表、折扣表宏观统计目标：探索消费者购物行为，实现对超市科学布局以及商品货架摆放大数据解决方案大数据解决方案数据员利用传统的购物篮数据，还有互联网的一些非结构化数据，通过数据的清洗、统计、分析、挖掘、可视化，最终提供春节的促销方案。大数据解决方案数据员利用传统的购物篮数据，还有互联网的一些非策略建议数据挖掘数据统计数据清理4 43 32 21 12012年5月4日的促销受到影响，是因为5月2日发生了大的暴雨，如何进行分析？策略数据数据数据43212012年5月4日的促销受到影响，是2.大数据与电商用户行为信息就是用户在网站上发生的所有行为，如搜索、浏览、打分等，甚至包括在第三方网站上的相关行为。年龄？男/女？喜好？社交？推理用户的性别和年龄。字段字段字段说明字段说明sessionID用户浏览会话IDsessionstarttime会话的起始时间sessionendtime会话的终止时间listofproductIDs会话中访问的商品ID列表gender用户性别2.大数据与电商用户行为信息就是用户在网站上发生的所有行为，推荐推荐好友推荐好友推荐商品推荐商品推荐POIPOI推荐推荐电影推荐电影推荐音乐音乐推荐推荐3.大数据与推荐系统推荐好友推荐商品推荐POI推荐电影推荐音乐推荐3.大数据与推4.大数据与社交媒体one to oneone to one单点对单点的信息的交换。单点对单点的信息的交换。one to manyone to many单点与多点，即广播方式。单点与多点，即广播方式。many to manymany to many多点对多点的交互。多点对多点的交互。传统传统媒体媒体社交社交媒体媒体4.大数据与社交媒体one to one单点对单点的信息的交社交网络分析社交网络分析情感分析是分析一句话是主观的描述还是客观描述；如果是主观的描述，分析表达的是积极情绪还是消极情绪。social tie analysissocial influence analysis分析方法分析方法社交网络分析情感分析是分析一句话是主观的描述还是客观描述；s情感分析的作用情感分析的作用政府监控社交网络上用户的情绪，对社会安全维稳有积极作用。A A商业看用户喜欢什么，然后基于用户的喜好，制定推荐策略。B B情感分析的作用政府监控社交网络上用户的情绪，对社会安全维稳有5.大数据与社会问题监管食品安全问题01环境污染问题02交通违章问题03社会不文明现象045.大数据与社会问题监管食品安全问题01环境污染问题02交通6.大数据与日常运作利用员工的打卡行为，能够找到他们之间的潜在社交网络，精确地对员工的考勤行为进行评估。以打卡为例6.大数据与日常运作利用员工的打卡行为，能够找到他们之间的潜总结总结 B:Big data,Big value Big challenges,M:Data Management,Mining and Machine learning W:Win-Win-Win:people,city and society只有利用大数据的数据管理、挖掘，才能够达到人类社会以及城市的三赢。总结 B:Big data,Big value B

展开阅读全文

大数据下的资源整合和知识享(下)课件

最新文档