分享

mapreduce效率发生问题

NEOGX 发表于 2013-11-21 20:59:58 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 3 5387
目前正在使用的集群架构是hadoop0.23.7+Hbase+Hive+Zookeeper, 我的集群现在遇到的问题发生在mapreduce的效率上?
数据量不大,但mapreduce的时间最短80分钟,最长6个小时。。。。但跑wordcount很快,mapreduce作业的内容就是做一般的解析统计,然后存放到hbase里,只重写了mapper类,没有重写reducer类,解析完的数据直接通过map puthbase,集群有namenode1secondarynamenode1datanode3,感觉和程序没什么关系,最近在追查这个问题,弄了日志下来,这个是mr作业的输出:
20131121192921.jpg
其实一开始的map速度很理想
从红框的地方开始出现低效率
20131121192921.jpg
欢迎加入about云群371358502、39327136,云计算爱好者群

已有(3)人评论

跳转到指定楼层
pig2 发表于 2013-11-21 21:00:22
  插入habse的速度慢吧,一般是让map生成hfile文件  然后用hbase批量导入
回复

使用道具 举报

NEOGX 发表于 2013-11-21 21:03:50
我想找到原因,接着上边的,我手动执行了同日期的mr作业,mr作业消耗的时间吓人,然后我追踪了resourcemanagernodemanager的日志,AM被创建到了2号datanode上 20131121192921.jpg ,
追到2datanode上,查yarn-root-nodemanager-DataNode02.logAM对container的管理和分配都还正常,但后边出现了
1.jpg
,一直没看明白exit_status: -1000是什么状态,接着分析,然后会看到有那么几个container在持续
2.jpg
这个问题,追踪到这个container分配到的datanode上,查看yarn-root-nodemanager-DataNode03.log,确实发现出问题的container一直不能complete,反复出现
3.jpg
没办法,追查这个containersyslog输出,发现,此container在后期疯狂的
4.jpg
2181zookeeperclientport,不过可以确定zookeeper是正常的,因为同节点上同时还有其他的container能正常complete,并心跳回AM并汇报给resourcemanager然后我总结了下最有可能的状况,有可插入habase速度慢说的,这个container的数据量可能太大了,在操作hbase的时候阻塞了。。。,查看这个container所消耗的内存,100mb-250mb,感觉,这种量对hbase应该没什么压力呀。。。。。。所以现在迷茫了。
回复

使用道具 举报

pig2 发表于 2013-11-21 21:07:13
NEOGX 发表于 2013-11-21 21:03
我想找到原因,接着上边的,我手动执行了同日期的mr作业,mr作业消耗的时间吓人,然后我追踪了resourcemana ...

看下zk链接数,配了多少, 跑任务的时候多少?
echo "stat" | nc host 2181
可以看当前连接数
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条