分享

sparkstreaming结果怎么和传入的数据关联上?

dlh 发表于 2015-12-7 14:52:01 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 10 24920
regan 发表于 2015-12-8 19:44:21
本帖最后由 regan 于 2015-12-8 19:47 编辑
dlh 发表于 2015-12-8 19:08
但是这样会很影响性能,根据条件查出来的数据能达到好几亿,每条数据都带着条件压缩、传输,会很耗资源和 ...

这样做和之前的开销没有太大的区别,移动的数据而不是算法,你从hbase中查询出来的数据都是那么多,都会发送那么多数据到worker节点计算,产生的网络IO还是那么多,而算法是单独在每一个worker节点执行,最多就是执行的时候可能会多花一些内存,当然这个你可以采用cache策略,将查询的结果缓存到内存或则off heap中,下一次相同的查询就直接从缓存中读取数据。。。


回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条