调优,目前还没有发现特定的规律,只能根据自己的环境和调优的原则来优化:
slot的理解如下:
- 1.在Hadoop中,计算资源是用槽位表示的。slot分为两种:Map Slot和Reduce Slot。每种slot代表一定量的资源,且同种slot是同质的,也就是说,同种slot代表的资源量是相同的。管理员需要根据实际需要为TaskTracker配置一定数目的Map Slot和Reduce Slot数目,从而限制每个TaskTracker上并发执行的Map Task和Reduce Task的数目。
-
-
- 2.由于map slot和reduce slot不能在map task和reduce task之间共享(map slot只能供map task使用,reduce slot只能供reduce task使用),因此,当某一种类型任务对资源需求量而另外一种小时,会造成后一种资源浪费,为此,可根据集群map和reduce需求比例动态调整map slot和reduce slot数目
复制代码
知道他们两者的关系,然后我们优化的原则:
Map Task和Reduce Task调优的一个原则就是减少数据的传输量、尽量使用内存、减少磁盘IO的次数、增大任务并行数,除此之外还有根据自己集群及网络的实际情况来调优。
对于slot的优化,则是尽量的不要浪费资源,所以相信不断的调试,能够得出自己环境的正确答案。
|