分享

HBase的rowKey设计疑问

1、目前场景是Hbase是我的输入源,我想做增量接入,以时间戳为增量
2、rowKey该如何去设计:
目前的方式是:
第一种: 加盐时间戳+时间戳 作为rowKey,这种方式保证了数据进入到不同的region,但取数据比较麻烦,因为需要flink对Hbase元数据进行切分,做保存点(比较麻烦)
第二种:将增量保存到每一行记录中的某一列去,但是查询性能是不是会很差,感觉是做Hbase的全表扫描,如果不添加rowKey作为查询条件。

已有(2)人评论

跳转到指定楼层
s060403072 发表于 2020-3-16 10:04:34
抛开其他:hbase rowkey设计不能单独只考虑一方面,除了flink开发,hbase比如还有自己的功能等。从全局来说,第一种设计更好一些。至于Flink checkpoint慢,楼主的依据是什么?慢是慢了点,但是应该不会有太大的影响。
如果采用第二种,整个hbase将会受影响。查询效率低下。
回复

使用道具 举报

huangzhigao 发表于 2020-3-16 10:09:24
s060403072 发表于 2020-3-16 10:04
抛开其他:hbase rowkey设计不能单独只考虑一方面,除了flink开发,hbase比如还有自己的功能等。从全局来说 ...

感谢,第一种可能是对flink不太熟悉,提升并行度,如何对不同分区的startRow和EndRow进行获取并且保存下来,因为第二次的数据获取需要依赖于第一次的endRow,估计还得再看看flink源码了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条