邓立辉 发表于 2015-11-17 15:32:13

求Streaming查询hbase的方法


1、之前用spark从hbase里取数据做简单的数据筛选。但是发现整个筛选时间在7、8秒,大部分时间都耗在app的提交发布上。但是这个时间对我来说太长了。我目标是做到1s以内。
2、通过翻阅资料发现streaming应该不用每次筛选都提交发布app,所以想尝试一下,但是我刚开始写demo测试发现,spark里用的JavaSparkContext,可以用newAPIHadoopRDD来取hbase的数据。但是spark-streaming的JavaStreamingContext没有相关的方法。

求助怎么用spark-streaming取hbase的数据,或者怎么做到每次筛选都在1s以内完成(我跑过官方的worldcount,最快也要耗时5秒)

mituan2008 发表于 2015-11-17 21:41:50

impala 与hbase 整合会更快一些
Impala与HBase整合实践
http://www.aboutyun.com/thread-7856-1-1.html


你们两个问题差不多
spark sql性能问题
http://www.aboutyun.com/thread-16038-1-1.html



邓立辉 发表于 2015-11-18 15:46:54

mituan2008 发表于 2015-11-17 21:41
impala 与hbase 整合会更快一些
Impala与HBase整合实践
http://www.aboutyun.com/thread-7856-1-1.html


谢谢mituan2008
我参照 desehawk的这篇帖子,可以查出数据来了
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12123&extra=page=1&page=1

页: [1]
查看完整版本: 求Streaming查询hbase的方法