大数据处理实现技术简介课件

上传人:仙*** 文档编号:240928652 上传时间:2024-05-18 格式:PPT 页数:54 大小:7.91MB
返回 下载 相关 举报
大数据处理实现技术简介课件_第1页
第1页 / 共54页
大数据处理实现技术简介课件_第2页
第2页 / 共54页
大数据处理实现技术简介课件_第3页
第3页 / 共54页
点击查看更多>>
资源描述
大数据处理技术简介大数据处理实现技术简介课件友情提示上课时间请勿:-请将您手机改为“震动”避免在课室里使用手机-交谈其他事宜-随意进出教室请勿在室内吸烟上课时间欢迎:-提问题和积极回答问题-随时指出授课内容的不当之处友情提示上课时间请勿:请勿在室内吸烟上课时间欢迎:HadoopHadoop 目目 录录1.Hadoop 简介简介2.实例演示实例演示 1.定义定义 2.数据的来源数据的来源 1.分布式储存系统(分布式储存系统(GFS/HDFS)2.分布式计算模型(分布式计算模型(MapReduce)三、大数据开源软件Hadoo 一、大数据背景一、大数据背景 一、大数据背景我们正处在信息爆炸的年代我们正处在信息爆炸的年代2000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据,其余籍、图片等媒介上的模拟数据,其余93%93%全是数全是数字数据(二进制数据)字数据(二进制数据)Google 单日单日数据处理数据处理量量超过超过 24 PB24 PBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万张千万张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB大数据背景大数据背景 定义定义我们正处在信息爆炸的年代2000年 数字数据只占全球数大数据定义大数据定义 “大数据大数据”是指一个是指一个数据集(数据集(Datasets),它的尺,它的尺寸大到已经无法由寸大到已经无法由传统的数据库软件传统的数据库软件去采集、储存、去采集、储存、管理和分析。管理和分析。大数据背景大数据背景 定义定义大数据定义 “大数据”是指一个数据集(Datasets数据的分类数据的分类结构化数据:结构化数据:行数据行数据,存储在数据库里存储在数据库里,可以用二维表可以用二维表结构来逻辑表达实现的数据。结构来逻辑表达实现的数据。例如:二维表半结构化数据:半结构化数据:自描述,数据结构和内容混杂在一起自描述,数据结构和内容混杂在一起的数据。的数据。例如:XML、HTML等。非结构化数据:非结构化数据:除去以上两种类型除去以上两种类型例如:音视频、图片等。大数据背景大数据背景 定义定义数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结2000200020002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景大数据背景 数据的来源数据的来源2000年以后非结构化数据占绝大部分大数据背景 从非结构化数据到结构化数据从非结构化数据到结构化数据非结构非结构化数据化数据行业行业技术技术结构化结构化半结构半结构化数据化数据视频、音视频、音频识别技频识别技术等术等大数据背景大数据背景 数据的来源数据的来源从非结构化数据到结构化数据非结构化数据行业结构化半结构化数据网页爬虫网页爬虫网页爬虫网页爬虫视频识别视频识别视频识别视频识别语音识别语音识别语音识别语音识别等等等等大数据背景大数据背景 数据的来源数据的来源网页爬虫视频识别语音识别等大数据背景 数据的来源传统关系数据库,如传统关系数据库,如传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)将会导致出错(类型不严格)传统方法失效传统方法失效!如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:大数据背景大数据背景 数据的来源数据的来源传统关系数据库,如:Oracle、MYSQL大数据背景 某搜索引擎搜索日志某搜索引擎搜索日志大数据背景大数据背景 数据的来源数据的来源某搜索引擎搜索日志大数据背景 数据的来源 二、大数据处理实现技术二、大数据处理实现技术 二、大数据处理实现技术大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题 如何高效存储大规模文件如何高效存储大规模文件?大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS大数据处理技术面对的第一个问题 大数据处理实现技术 数据读取问题数据读取问题1 T1 T100M/S100M/SOH NO!大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS2.5小时小时 数据读取问题1 T100M/SOH NO!大数据处大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS谷歌文件系统(GFS)大数据处理实现技术 分布式储分而治之分而治之大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS分而治之大数据处理实现技术 分布式储存系统GFS.10G1分分30秒秒100M/S大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS10G10G10G10G.10G1分30秒100M/S大数据处理实现技术 可靠性问题可靠性问题 大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%可靠性问题大数据处理实现技术 分布式储存系统GFS备份备份一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS备份大数据处理实现技术 分布式储存系统GFS/10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10GMasterMasterMasterMaster(主管)(主管)(主管)(主管)Secondary Secondary Secondary Secondary mastermastermastermaster(副主管)(副主管)(副主管)(副主管)ClientClientClientClient(用户程序)(用户程序)(用户程序)(用户程序)读取元数据读取元数据读取元数据读取元数据读取数据读取数据读取数据读取数据云(云(Cloud Cloud)MasterMasterMasterMaster作用:作用:作用:作用:l l储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)l l储存节点的日常维护储存节点的日常维护储存节点的日常维护储存节点的日常维护10G10G10G10G10G10G10G10G数据位置信息数据位置信息数据位置信息数据位置信息读取数据读取数据读取数据读取数据10G10G10G10G10G10G10G10GGoogle File System架构架构大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFSGoogle File System架构大数据处理实现技术 大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce大数据处理技术面对的大数据处理技术面对的第三个问题第三个问题 数据运算问题数据运算问题大数据处理实现技术 分布式计算模型 MapRedu分布式计算(并行计算)分布式计算(并行计算)大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS分布式计算(并行计算)大数据处理实现技术 分布式储大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce谷歌提出 Map/Reduce 模型大数据处理实现技术 MapMap函数:函数:函数:函数:接受接受接受接受一个键值对一个键值对一个键值对一个键值对(key-value pairkey-value pair),),),),产生产生产生产生一组中间键值对一组中间键值对一组中间键值对一组中间键值对。mapmap函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给ReduceReduce函数。函数。函数。函数。ReduceReduce函数:函数:函数:函数:接受接受接受接受一个键一个键一个键一个键,以及相关的,以及相关的,以及相关的,以及相关的一组值一组值一组值一组值,将这组值进行,将这组值进行,将这组值进行,将这组值进行合并合并合并合并产生产生产生产生一一一一组规模更小的值组规模更小的值组规模更小的值组规模更小的值(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceMap函数:接受一个键值对(key-value pair),键(键(Key):):键必须是唯一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写必须对键进行明确定义。他决定了计数是否区分大小写(键由键由Hash值唯一确定值唯一确定)。键值对举例键值对举例键值对举例键值对举例 :通讯录中的姓名(通讯录中的姓名(Key)和联系方式()和联系方式(Value)计算机中各种根据文件名(计算机中各种根据文件名(Key)访问各类文件,如文本、图片)访问各类文件,如文本、图片(Value)年份(年份(Key)温度(温度(value)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceKey-Value(键-值)模型 键(Key):大数据处理实气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceKeyKeyKeyKey(年份)(年份)(年份)(年份)ValueValueValueValue(温度)(温度)(温度)(温度)气象站气象数据的处理(找出最高气温)大数据处理实现技术 大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce大数据处理实现技术 分布式计算模型 MapReduMap/ReduceMap/Reduce特点特点开发简单开发简单 无需处理线程或提供精细的同步逻辑无需处理线程或提供精细的同步逻辑无需处理线程或提供精细的同步逻辑无需处理线程或提供精细的同步逻辑规模大规模大 无需修改程序即可在任意规模机器上运行无需修改程序即可在任意规模机器上运行无需修改程序即可在任意规模机器上运行无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能工作具备自动并行和分发功能 用户只需写好用户只需写好用户只需写好用户只需写好MapMap和和和和ReduceReduce函数即可函数即可函数即可函数即可高容错高容错 失败任务在新节点上会重新运行失败任务在新节点上会重新运行失败任务在新节点上会重新运行失败任务在新节点上会重新运行大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceMap/Reduce特点开发简单大数据处理实现技术 MapMap/ReduceReduce的局限的局限对迭代算法无能为力对迭代算法无能为力不是所有算法都能并行不是所有算法都能并行大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceMap/Reduce的局限对迭代算法无能为力大数据处理实现技 三、大数据开源软件三、大数据开源软件HadoopHadoop简介简介 三、大数据开源软件Hadoop简介谷歌技术开源实现谷歌技术开源实现开源实现开源实现大数据开源软件大数据开源软件HadoopHadoop简介简介谷歌技术开源实现开源实现大数据开源软件Hadoop简介HDF2002年年,Doug Cutting从做开源从做开源Apache Nutch引擎开始引擎开始2003年年,Doug在在看到谷歌发表看到谷歌发表的的GFS之后,开始开源实之后,开始开源实现现 2004年年,谷歌发表谷歌发表,2005年,年,Nutch开发人员开开发人员开源实现源实现2006年,年,Nutch的的和和移出移出Nutch项目,独项目,独立形成独立项目,命名立形成独立项目,命名。Hadoop的得名(的得名(Doug Cutting 的小孩给毛绒玩具象起的的小孩给毛绒玩具象起的名字)名字)2006年,年,Doug Cutting加入雅虎(聘请),雅虎开始资助加入雅虎(聘请),雅虎开始资助Hadoop发展。发展。2008年,年,1月月Hadoop成为成为Apache顶级项目,顶级项目,2月,雅虎宣月,雅虎宣布,布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引应用在自家搜素引擎中(其搜索引擎的索引建立在拥有建立在拥有1万个内核的万个内核的Hadoop集群上),集群上),4月,月,Hadoop在在900个节点上运行个节点上运行1TB排序测试仅需排序测试仅需209秒,成为全球最秒,成为全球最快。快。大数据开源软件大数据开源软件HadoopHadoop简介简介2002年,Doug Cutting从做开源Apache N大数据开源软件大数据开源软件HadoopHadoop简介简介Hadoop 分布式文件系统(HDFS)架构大数据开源软件H安装安装HadoopHadoop1.系统要求:系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装运行环境(安装JDK)3.安装安装SSH4.安装安装Hadoop大数据开源软件大数据开源软件HadoopHadoop简介简介安装Hadoop1.系统要求:Linux(Ubuntu/Ce大数据开源软件大数据开源软件HadoopHadoop简介简介 实例演示实例演示Hadoop启动HDFS演示大数据开源软件Hadoop简介 Hadoop云的实际操作Hadoop云的实际操作1.启动HDFS命令:start-d2.在eclipse中打开HDFS目录(eclipse需安装大数据处理实现技术简介课件大数据开源软件大数据开源软件HadoopHadoop简介简介 实例演示实例演示Map/Reduce单词统频(Wordcount)示例大数1.通过eclipse上传文本至HDFS2.启动MapReduce计算框架,命令:start-yarWordcount JavaWordcount Java程序程序 mapmap部分部分 public class WordCount public static class Map extends MapReduceBase implements Mapper private final static IntWritable one=new IntWritable(1);private Text word=new Text();public void map(LongWritable key,Text value,OutputCollector output,Reporter reporter)throws IOException String line=value.toString();StringTokenizer tokenizer=new StringTokenizer(line);while(tokenizer.hasMoreTokens()word.set(tokenizer.nextToken();output.collect(word,one);/输出:输出:1 Wordcount Java程序 map部分 public大数据处理实现技术简介课件Wordcount JavaWordcount Java程序程序 reducereduce部分部分 public static class Reduce extends MapReduceBase implementspublic static class Reduce extends MapReduceBase implements Reducer Reducer public void reduce(Text key,Iterator values,OutputCollector output,Reporter reporter)throws IOException int sum=0;while(values.hasNext()sum+=values.next().get();/累加统频累加统频 output.collect(key,new IntWritable(sum);Wordcount Java程序 reduce部分 3.3.运行运行wordcountwordcount程序程序 java jar java jar包包 命令命令:hadoop jar jar:hadoop jar 3.运行wordcount程序 java jar包 命令:h大数据处理实现技术简介课件HadoopHadoop的优势的优势廉价廉价 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可可伸缩性好可伸缩性好 通过增加节点即扩展通过增加节点即扩展容错性好容错性好 副本机制副本机制可编程可编程 Map/Reduce框架框架适合一次写入多次读取(适合一次写入多次读取(HDFS)大数据开源软件大数据开源软件HadoopHadoop简介简介Hadoop的优势廉价大数据开源软件Hadoop简介Hadoop 生态系统生态系统Hadoop 生态系统各组件简介各组件简介Hive:为程序员提供类SQL语句编写,底层将HiveQL(Hive-SQL)转换为MapReduce编译运行Pig:提供给用户使用的脚本语言,简化MapReduce代码编写Hbase:低延时、分布式的非关系型数据库ZooKeeper:分布式协同工作系统Hcatalog:向Hadoop应用(Hive/Pig)共享元数据大数据开源软件大数据开源软件HadoopHadoop简介简介各组件简介Hive:为程序员提供类SQL语句编写,底层将Hi大数据开源软件大数据开源软件HadoopHadoop简介简介大数据开源软件Hadoop简介谢谢大家谢谢大家敬请批评指正敬请批评指正谢谢大家
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!