mapreduce效率发生问题

目前正在使用的集群架构是hadoop0.23.7+Hbase+Hive+Zookeeper，我的集群现在遇到的问题发生在mapreduce的效率上？

数据量不大，但mapreduce的时间最短80分钟，最长6个小时。。。。但跑wordcount很快，mapreduce作业的内容就是做一般的解析统计，然后存放到hbase里，只重写了mapper类，没有重写reducer类，解析完的数据直接通过map put到hbase，集群有namenode：1，secondarynamenode：1，datanode：3，感觉和程序没什么关系，最近在追查这个问题，弄了日志下来，这个是mr作业的输出：

其实一开始的map速度很理想

从红框的地方开始出现低效率

pig2 · 发表于 2013-11-21 21:00:22

　　插入habse的速度慢吧，一般是让map生成hfile文件然后用hbase批量导入

NEOGX · 发表于 2013-11-21 21:03:50

我想找到原因，接着上边的，我手动执行了同日期的mr作业，mr作业消耗的时间吓人，然后我追踪了resourcemanager和nodemanager的日志，AM被创建到了2号datanode上

,

追到2号datanode上，查yarn-root-nodemanager-DataNode02.log，AM对container的管理和分配都还正常，但后边出现了

，一直没看明白exit_status: -1000是什么状态，接着分析，然后会看到有那么几个container在持续

这个问题，追踪到这个container分配到的datanode上，查看yarn-root-nodemanager-DataNode03.log，确实发现出问题的container一直不能complete，反复出现

没办法，追查这个container的syslog输出，发现，此container在后期疯狂的

2181是zookeeper的clientport，不过可以确定zookeeper是正常的，因为同节点上同时还有其他的container能正常complete，并心跳回AM并汇报给resourcemanager然后我总结了下最有可能的状况，有可插入habase速度慢说的，这个container的数据量可能太大了，在操作hbase的时候阻塞了。。。,查看这个container所消耗的内存，100mb-250mb，感觉，这种量对hbase应该没什么压力呀。。。。。。所以现在迷茫了。