搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
MapReduce
›
mapreduce优化,map task太多问题
0
1
0
分享
mapreduce优化,map task太多问题
cloudcat
发表于 2016-12-3 20:23:26
[显示全部楼层]
阅读模式
关闭右栏
1
8655
场景:分析web日志(最小的日志有25G),根据ip查找对应地区。我的步骤是
1 在map setup 方法,创建ip字典,通过二分法查找对应国家或者城市。 由于ip库有28M,每次加载需要8秒左右。
运行mapreduce,由于block是128M,所以他默认分为 200左右的 map task,导致一个25G的文件初始化都要24分钟。。
问题1
:由于map 的setup需要创建ip字典,200个 map task 就需要创建200次,每次9秒,
这样是不是浪费的半小时创建时间,还是在集群中 map 的setup方法就创建一次?
问题2
:由于我输出的文件是一个文件,所以 map输出的key我设置为1,由于数据几十个G
,这样一个reduce,是不是会内存溢出?
我对reduce原理不太了解,他向map 拉数据,都是放到内存,还是一部分存在磁盘,如果数据太大,都放到内存,肯定会出现oom,如果会放到磁盘,最后我们遍历就不会内存溢出。
问题3:
我在网上查询了,减少map task个数可以提高性能。我在mapred-site.xml中添加属性
mapred.min.split.size ,设置为512M如下:
<property>
<name>
mapred.min.split.size </name>
<value>54525952</value>
</property>
但是启动map reduce,task 依然是200个左右,
没起作用,求解。
本帖被以下淘专辑推荐:
·
大数据优化专题
|
主题: 104, 订阅: 6
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
qcbb001
发表于 2016-12-3 21:51:46
问题1:由于map 的setup需要创建ip字典,200个 map task 就需要创建200次,每次9秒,这样是不是浪费的半小时创建时间,还是在集群中 map 的setup方法就创建一次?
这个应该是创建一次就可以了
在执行Map任务前,进行相关变量或者资源的集中初始化工作,被MapReduce框架仅且执行一次
问题2:由于我输出的文件是一个文件,所以 map输出的key我设置为1,由于数据几十个G,这样一个reduce,是不是会内存溢出?
我对reduce原理不太了解,他向map 拉数据,都是放到内存,还是一部分存在磁盘,如果数据太大,都放到内存,肯定会出现oom,如果会放到磁盘,最后我们遍历就不会内存溢出。
在拉取的时候,尽量多用内存,可以提高效率,当然也可以放到磁盘。
推荐参考
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7078
问题3:我在网上查询了,减少map task个数可以提高性能。我在mapred-site.xml中添加属性 mapred.min.split.size ,设置为512M如下:
<property>
<name>mapred.min.split.size </name>
<value>54525952</value>
</property>
但是启动map reduce,task 依然是200个左右,没起作用,求解。
没起作用 应该是正常的,因为好像不是某一个参数控制,推荐参考
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6945
hadoop中map和reduce的数量设置
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
cloudcat
中级会员
关注
29
主题
92
帖子
6
粉丝
TA的主题
Hbase region太多导致集群压力大,如何解决?
2017-3-8
hbase region导致磁盘Io过高,CPU 使用率过高,如何解决
2017-3-8
CDH集群磁盘IO太高,CPU也很高,如何查询原因
2017-3-3
R语言是否能调用webservice?
2017-1-5
R语言如何对外提供统计服务?
2017-1-3
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈