分享

spark reduce支持再次拆分计算么?

hertcloud 发表于 2016-9-13 11:00:44 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 7714
使用spark streaming 计算时间片设置了30秒,拿到数据后,进行 map ,然后进行计算 ,但是因为数据过大 常常出现超时 或者OOM

尝试将 时间片设置 更小 但是 因为计算周期本身需要几十秒 所以如果设置如1秒来减少每次的数据量,某一秒数据过大时很容易就crash了

但是发现 因为reduceNtrace中的数据量过大,最终生成的数据文本会非常大,有没有办法,类似patition那样
在做reduce计算的时候,按map以后的数据 根据分区计算,而减小reduce的数据量呢,

求大神们,解谜,,,谢谢!
伪代码如下:
log = log.map(Utils.getNgxData) \
    .reduce(Utils.recduceTrace) \

已有(1)人评论

跳转到指定楼层
langke93 发表于 2016-9-13 15:31:33
reduce没见过,map变种,mapPartitions是有的
mapPartitions的输入函数是应用于每个分区,也就是把每个分区中的内容作为整体来处理的。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条