hadoop开发实战培训36-MapReduce高阶实现.ppt

上传人:max****ui 文档编号:6349400 上传时间:2020-02-23 格式:PPT 页数:12 大小:1.73MB
返回 下载 相关 举报
hadoop开发实战培训36-MapReduce高阶实现.ppt_第1页
第1页 / 共12页
hadoop开发实战培训36-MapReduce高阶实现.ppt_第2页
第2页 / 共12页
hadoop开发实战培训36-MapReduce高阶实现.ppt_第3页
第3页 / 共12页
点击查看更多>>
资源描述
Hadoop大数据解决方案进阶应用 Hadoop 讲师 迪伦 北风网版权所有 MapReduce高阶实现 10 Terasort算法分析二次排序 课程目标 maptask对数据记录做标记 每个maptask从文件 partition lst读取分割点 并创建trie树 假设是2 trie 即组织利用前两个字节 Maptask从split中一条一条读取数据 并通过trie树查找每条记录所对应的reducetask编号 二次排序 辅助排序 MapReduce在记录到达reducer之前按key排好序 但key所对应的value并没有被排序由于值来自不同的map任务 多次运行程序时 值出现的顺序并不固定二次排序是通过对键进行排序和分组以实现对值的排序二次排序就是首先按照第一字段排序 然后再对第一字段相同的行按照第二字段排序实例 设计一个MapReduce程序以计算每年最高气温思路 实现全部记录按照年升序排列 按照气温降序排列 则只需获取各年份的首条记录即可 实例 二次排序 处理过程构建一个同时包含年份和气温信息的组合键 期望所有记录先按年份升序排列 再按气温降序排列设定一个按照键的年份进行分区的partitioner 以确保同一年的记录被发送到同一个reducer中 实例 二次排序 进行分组设置 如果reducer中的值按照键的年份进行分组 则一个reducer组将包括同一年份的所有记录 排序方法的总结定义包括自然键和自然值的组合键键的comparator根据组合键对记录进行排序 即同时利用自然键和自然值进行排序针对组合键的partitioner和分组comparator在进行分区和分组时均只考虑自然键 二次排序相关的类 setOutputKeyComparatorClass 参数为继承RawComparator的子类通常利用继承WritableComparator来实现根据组合键进行排序setPartitionerClass 需要指定自定义分区的类根据组合键中的自然键进行分区setOutputValueGroupingComparator 指定用户自定义的comparator 用于将reduce的输入进行分组将自然键key相同的放到一起 相同key的value放到一个value迭代器里 实例代码 二次排序 实例代码 二次排序 实例代码 二次排序 实例 二次排序 运行程序 hadoopjarjob jarMaxTemperatureUsingSecondarySortinput ncdc alloutput secondarysort hadoopfs catoutput secondarysort part sort head 欢迎访问我们的官方网站
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!