分享

请教:HBase 协处理器的使用问题

lmqian 发表于 2017-10-21 20:07:56 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 4312
应用场景:每分钟会向同一个表中插入一条数据,现在需要计算整个表中相邻两分钟之间的数据差值,尽量做到实时,即插入一条数据就立即算出与上一分钟数据的差值。
我首先想到的是RegionObserver, 使用postPut方法实现计算,现在有两个问题请教高手:
1. Put操作和prePost、postPut方法是不是同步关系,意味着,整个put花费时间等于prePut,put 和 postPut时间之和?那这就严重降低了客户端写数据的吞吐量了.....

2. 测试中发现一个情况,写少量数据的时候,客户端put操作和postPut操作的数量上是相同的,但是发现数据量大了之后,从日志来看,postPut方法执行的次数远超过客户端put的数量,这是什么原因?

已有(1)人评论

跳转到指定楼层
einhep 发表于 2017-10-21 21:53:30
这个用spark,应该更好一点。使用spark streaming的时间窗口求差值
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条