分享

关于MapReduce一个很弱的问题请教一下

pass9wen33 发表于 2013-10-16 13:40:47 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7235
本人刚开始接触这一块,关于处理前的分块,我看资料上说MapReduce是随机分块的,不知道能不能按照指定的规则分块呢,例如一堆数据,我要根据编号来分块,能做吗,怎么做?请大神指教啦~

              
               
               

已有(4)人评论

跳转到指定楼层
lldustc 发表于 2013-10-16 13:41:32

            文件存入HDFS时已经进行了分块,这个应该是按照系统设置的分块大小进行分块的。
但你说的分块我不知道你是想说把每一个文件看成一块还是按文件里的数据的某一个字段,字段满足要求看成一块,你写清楚你的需求,最好举一个例子
        
回复

使用道具 举报

yunshuixiliu 发表于 2013-10-16 13:42:03

            共同学习之。。
        
回复

使用道具 举报

JDream314 发表于 2013-10-16 13:42:53

            可以参考一下这篇文章http://blog.csdn.net/jdream314/article/details/8243890
        
回复

使用道具 举报

cranley 发表于 2013-10-16 13:43:31

            MAPREDUCE框架中类InputFormat的方法
List[I] getSplits(JobContext context
                               ) throws IOException, InterruptedException;
  
这个就是用来做自定义数据分块的。
具体应用可以参考FileInputFormat.getSplits中的代码,它实现按文件块大小作为依据,来切割整个文件得到文件处理块列表List[I]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条