试用hadoop jvm复用配置

admin 发表于 2014-9-15 18:19:23 [显示全部楼层] 只看大图回帖奖励

阅读模式关闭右栏 0 3381

Hadoop默认为每个task（map task 或者 reduce task）启动一个jvm。

鉴于目前小文件过多的问题，设置了jvm复用，即一个job内，多个task共享jvm，避免多次启动jvm，浪费资源和时间。

测试Job信息：

map：4715个

reduce：20个

input： 34G

output: 25G

优化前：1464 s

优化后：1375 s

Job运行时间减少 6%

CPU使用率情况：

*注意: mapred.job.reuse.jvm.num.tasks这个参数是客户端参数，修改不需要重启tasktracker，可以在提交job的shell或者代码中设置。

-- heipark

没找到任何评论，期待你打破沉寂

发表新帖

admin

管理员

关注

TA的主题

24小时热文

图文精华