sparkstreaming结果怎么和传入的数据关联上？

regan · 发表于 2015-12-8 19:44:21

本帖最后由 regan 于 2015-12-8 19:47 编辑

dlh 发表于 2015-12-8 19:08
但是这样会很影响性能，根据条件查出来的数据能达到好几亿，每条数据都带着条件压缩、传输，会很耗资源和 ...

这样做和之前的开销没有太大的区别，移动的数据而不是算法，你从hbase中查询出来的数据都是那么多，都会发送那么多数据到worker节点计算，产生的网络IO还是那么多，而算法是单独在每一个worker节点执行，最多就是执行的时候可能会多花一些内存，当然这个你可以采用cache策略，将查询的结果缓存到内存或则off heap中，下一次相同的查询就直接从缓存中读取数据。。。

图文精华

sparkstreaming结果怎么和传入的数据关联上？

最佳新人

热心会员

推荐 /2