hadoop开发实战培训.ppt

上传人:san****019 文档编号:7327142 上传时间:2020-03-19 格式:PPT 页数:12 大小:1.57MB
返回 下载 相关 举报
hadoop开发实战培训.ppt_第1页
第1页 / 共12页
hadoop开发实战培训.ppt_第2页
第2页 / 共12页
hadoop开发实战培训.ppt_第3页
第3页 / 共12页
点击查看更多>>
资源描述
Hadoop大数据解决方案进阶应用 Hadoop 讲师 迪伦 北风网版权所有 MapReduce高阶实现 11 连接Map端连接Reduce端连接 课程目标 连接 MapReduce能够执行大型数据集间的Join操作除了写MapReduce程序 其他更高级的框架也可以实现 如Pig Hive或Cascading等连接操作的具体实现取决于数据集的规模及分区方式连接操作如果有mapper执行 则称为 map端连接 如果由reducer端执行 则称为 reduce端连接 数据的组织方式决定了采用map端还是reduce端连接 Map端连接 Map端连接会在数据到达map函数之前就执行连接操作各map的输入数据必须先分区并且以特定方式排序各个输入数据集被划分成相同数量的分区 并按相同的key排序 连接键 同一个键的所有记录会放在同一个分区中Map端的连接操作可以连接多个作业的输出 前提是这些reducer数量相同 键相同 并且输出文件是不可切分的利用org apache hadoop mapred join包中的CompositeInputFormat类来运行一个map端连接org apache hadoop examples Join是一个通用的执行map端连接的命令行程序 Map端连接 Reduce端连接 Reduce端连接不要求输入数据集符合特定结构 因而reduce端连接比map端连接更为常用因为两个数据集要经过shuffle过程 所以reduce端连接的效率要低一些基本思路Mapper为各个记录标记源使用连接键作为map输出键 使键相同的记录放在同一reducer中帮助实现reduce端连接的技术多输入 指定多种格式的输入 可以使用MultipleInputs类来方便地解析和标注各个源二次排序实现先将一个源的数据传输到reducer 可更好地执行连接操作 避免将所有数据缓存到内存中 实例 Reduce端连接 要求 在reduce端实现气象站信息和天气数据的连接此mappper类用于reduce端连接中标记气象站记录 实例 Reduce端连接 此mappper类用于reduce端连接中标记天气记录 实例 Reduce端连接 此reducer类用于连接已标记的气象站记录和天气记录 实例 Reduce端连接 对天气记录和气象站名称执行连接操作 实例 Reduce端连接 输出示例 欢迎访问我们的官方网站
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!