背景:
spark 通过newApiHadoopRdd扫描Hbase ,默认一个region起一个task,但是效率太低 就对regin内部分片再细分。经过再次细分的分片应该是没啥问题的 下面是打出的startkey endkey regionLocation,大致如下
分片前:
0400000000000000 bigdata-hbase-slave04.ys.diditaxi.com 0400000000000000 0800000000000000 bigdata-hbase-slave05.ys.diditaxi.com
分片后 0100000000000000 bigdata-hbase-slave04.ys.diditaxi.com 0100000000000000 0200000000000000 bigdata-hbase-slave04.ys.diditaxi.com 0200000000000000 0300000000000000 bigdata-hbase-slave04.ys.diditaxi.com 0300000000000000 0400000000000000 bigdata-hbase-slave04.ys.diditaxi.com 0400000000000000 0500000000000000 bigdata-hbase-slave05.ys.diditaxi.com 0500000000000000 0600000000000000 bigdata-hbase-slave05.ys.diditaxi.com 0600000000000000 0700000000000000 bigdata-hbase-slave05.ys.diditaxi.com
0700000000000000 0800000000000000 bigdata-hbase-slave05.ys.diditaxi.com
问题 扫描出的数据有不全和重复的问题。 重复:好多result中的rowkey是想多的,字段也是相同的。 缺失:部分rowkey对应的数据好像没有读取出来。hbase中有大约一亿条rowkey,但对读出来的数据rowkey做distinct后count发现只有不到100万。
求问各位大神有没有遇到过此类问题 求帮忙
|