分享

MapReduce中的内置排序是必须存在的?

jiangeng59 发表于 2016-3-6 14:31:05 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 5995
类似单词统计,但是单词的长度可能比较长。输入数据比较大的话,排序是非常耗时的,所以能不能取消Shuffle自带的排序功能,因为单词统计用不到排序。

我尝试使用
job.setSortComparatorClass(SortComparator.class);[mw_shl_code=java,true]  public static class SortComparator extends WritableComparator{
        protected SortComparator(){
            super(Text.class, true);
        }

        @Override
        public int compare(WritableComparable a, WritableComparable b) {
            return 0;
        }
    }[/mw_shl_code]
但是ruduce后的结果只有一个,为什么呢?

已有(3)人评论

跳转到指定楼层
s060403072 发表于 2016-3-6 22:20:35
默认排序都是在每个客户端的,楼主理解可能有误的地方。数据无论多大,只要分区合理,数据均匀。默认的shuffle都不是影响性能的主要原因。
建议楼主排查下其它问题。

感觉楼主的方向可能需要改改
回复

使用道具 举报

jiangeng59 发表于 2016-3-6 22:22:13
s060403072 发表于 2016-3-6 22:20
默认排序都是在每个客户端的,楼主理解可能有误的地方。数据无论多大,只要分区合理,数据均匀。默认的shuf ...

我主要是想取消Shuffle内置排序功能,有什么参数可以设置?
回复

使用道具 举报

s060403072 发表于 2016-3-6 22:24:12
jiangeng59 发表于 2016-3-6 22:22
我主要是想取消Shuffle内置排序功能,有什么参数可以设置?

整形是自动排序,其它不是。如果取消,好像没有见过这方面的参数配置。可能需要动源码了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条