hbase数据删除不释放region解决办法

问题导读：
1.删除hbase数据有几种方法？
2.删除数据，region不释放，你认为该如何解决？

以下是记录公司在删除历史数据的这个过程：
背景：
   公司需要需要一套运营平台，服务器3台（hadoop）,怎么安装这里就不在讲解。

删除数据的驱动：
   由于说需要做数据挖掘，不让删除数据，就一直没有删除数据，总共10T产的占用了8-9T了，服务器天天报警，大半夜起来解决问题，真心受不了发火，就算需要做数据挖掘，也不需这样做啊，可以存加工的数据啊，也不会全部把数据存在，还有公司是不允许我们加服务器的抓狂。

删除数据过程：
   hbase删除数据，我也是新手，描述有问题的，希望大神给我指出。
    思路一：采用mapreduce来删除数据
   思路二：采用hbase shell来进行数据删除
   思路三：设置ttl

   不管以上哪种数据删除，最后都需要面临一个问题，那就是hbase region不释放的问题。

思路一：
   思路很简单，就是想采用mapreduce来多采用多个机器删除数据，结果是惨败，我们的有一个表数据很大，差不多3-4T,需要删除指定时间范围的数据，由于服务器的原因，内存不够，直接把服务器搞死了，后果严重啊，简单的代码如下：

package com.mapbar.analyzelog.service.mapreduce;  
  
import java.io.IOException;  
import java.util.ArrayList;  
import java.util.List;  
  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.hbase.KeyValue;  
import org.apache.hadoop.hbase.client.Delete;  
import org.apache.hadoop.hbase.client.HTable;  
import org.apache.hadoop.hbase.client.Result;  
import org.apache.hadoop.hbase.client.Scan;  
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;  
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;  
import org.apache.hadoop.hbase.mapreduce.TableMapper;  
import org.apache.hadoop.hbase.util.Bytes;  
import org.apache.hadoop.io.IntWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
  
import com.mapbar.analyzelog.service.AbstractMapReduceJob;  
import com.mapbar.analyzelog.service.jdbc.DBCounterReducer;  
import com.mapbar.analyzelog.service.jdbc.JDBCMapReduceUtil;  
/** 
 *  
 *  
 * mapreduce删除hbase数据 
 */  
public class DeleteMapReducer extends AbstractMapReduceJob{  
    /** 
     *  
     *  
     * delete的map函数 
     */  
    public static class DeleteMapper extends TableMapper<Text, IntWritable>{  
        protected void map(ImmutableBytesWritable row, Result value, Context context) throws IOException, InterruptedException {  
            String tableName = context.getConfiguration().get("tableName");  
            String flag = context.getConfiguration().get("flag");  
            if("1".equals(flag)){  
                HTable htbl = new HTable(context.getConfiguration(), tableName);  
                List<Delete> lists = new ArrayList<Delete>();  
                for (KeyValue kv : value.raw()) {  
                    Delete dlt = new Delete(kv.getRow());  
                    dlt.deleteColumn(kv.getFamily(), kv.getQualifier(), kv.getTimestamp());  
                    lists.add(dlt);  
                    System.out.println("delete--tableL"+tableName+",rowkey:"+Bytes.toString(kv.getRow())+",family:"+Bytes.toString(kv.getFamily())+",qualifier:"+Bytes.toString(kv.getQualifier())+",timestamp:"+kv.getTimestamp());  
                }  
                htbl.delete(lists);  
                htbl.flushCommits();  
                htbl.close();  
            }else{  
                System.out.println("delete--tableL"+tableName+"[失败，如果需要删除数据，请设置"flag"]");  
  
            }  
        };  
    }  
  
    /** 
     *  
     *  
     * delete的reduce函数（此接口主要是删除，reduce没有任何作用） 
     */  
    public static class DeleteReducer extends DBCounterReducer<Text, IntWritable> {  
        protected void reduce( Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {  
        }  
    };  
  
    /** 
     * 调用的入口方法 
     */  
    public void run(Job job) throws IOException, InterruptedException, ClassNotFoundException {  
        //删除的hbase表名称  
        String tableName = getArguments().getStrTime("-table");  
        //开始时间戳  
        String timeStamp = getArguments().getStrTime("-stime");  
        //结束时间戳  
        String timeEtamp = getArguments().getStrTime("-etime");  
        //是否进行删除的标识（1：删除，0不删除）  
        String flag = getArguments().getStrTime("-flag");  
        //重新设置变量到上下文配置  
        Configuration config = job.getConfiguration();  
        config.set("tableName", tableName);  
        config.set("flag",flag);  
        //查询的条件器  
        Scan scan = new Scan();  
        scan.setCaching(500);          
        //不使用缓存  
        scan.setCacheBlocks(false);    
        scan.setTimeRange(Long.valueOf(timeStamp), Long.valueOf(timeEtamp));  
        TableMapReduceUtil.initTableMapperJob(tableName, scan, DeleteMapper.class, Text.class, IntWritable.class,job);  
        JDBCMapReduceUtil.initTableReducerJob("la_event_edrive_stat_result", new String[] { "date", "clnt","label" },  
                new String[] { "count" }, DeleteReducer.class, job);  
        job.waitForCompletion(true);  
    }  
}  
复制代码

思路二：
   有mapreduce来进行删除删除数据，一旦任务执行了，发现服务器报警都停不下来，后来采用hbase shell,直接与数据文件打交道，我们的思路是，监控tps,当执行我的删除数据说话，监控tps,发现tps高于某个值，直接暂停进程，不浪费资源。
   大体步骤：
         1：先采用shell 脚本scan数据，将rowkey记录到文件。
         2：然后调用deleteall 删除rowkey
   感受：
         执行还不错，就是删除的太慢，删除的还没有新增的快，这样熬不住啊。就像有一座金山，想一勺子一勺子的去拿走。
         也算失败告终吧！！！

思路三：
就是直接设置ttl,这个就需要disable表，需要丢数据，实在是没有办法了，然后设置了ttl

1:disable "table"  
2:alter 'table' , {NAME=>'la',TTL=>'15768000'}   
3:enable "table"  
复制代码

然后日志就一直刷屏，在合并，更新。删除数据文件。
疑问：执行以上三条命令，时间差不多3分钟，就恢复了，但是后日志一直在合并，我查询了下数据，数据也正常记录，但是查询报错“region not online”,region还在合并呗。就是说影响数据就影响了几分钟，hdfs的数据在慢慢的删除，大概执行了6小时，删除了完毕，服务器恢复正常。

最严重的一个问题：
hbase不释放region，把数据删除了，region还不释放，那在分析的时候，很消耗内存。
思路：删除hdfs regionID、删除meta表的region指向.

删除hdfs

#!/bin/sh  
if [ $# -lt 3 ] ; then  
    echo "please input 3 parameter[file_name_path、hadoop_path、input_path]"  
    exit  
else  
    cat $1 | while read row  
    do  
        regionpath=`echo "$row" | awk -F '.' '{print $2}'`  
        table=`echo "$row" | awk -F ',' '{print $1}'`  
        #删除hdfs的region  
        if [ -z $table ] ; then  
           echo "table is null"  
           exit;  
        fi  
  
        if [ -z $regionpath ] ; then  
           echo "regionpath is null"  
           exit;  
        fi  
  
        cd $2  
        ./hadoop fs -rmr  /hbase/$table/$regionpath  
        #删除meta表的region  
        echo "deleteall '.META.','$row'">>$3  
        echo "$regionpath"  
    done  
fi  
复制代码

删除meta

#!/bin/sh  
if [ $# -lt 2 ] ; then  
    echo "please input 2 parameter[hbase_path、file_path]"  
    exit  
else  
    if [ -z $1 ] ; then  
        echo " hbase_path is null!!!"  
        exit  
    fi  
  
    if [ -z $2 ] ; then  
        echo " file_path is null!!!"  
        exit  
    fi  
    cd $1  
    ./hbase shell< $2  
fi  
~                  
复制代码

howtodown · 发表于 2014-7-2 20:06:28

这里补充一些相关内容：

删除hbase表region块脚本

文件hua.txt格式：

CHAT_INFO,1318153079100530000314050,1318173760068.991ca04ff164c3f7987a9d93e0f744f5.
CHAT_INFO,1318156265075530000260366,1318173760068.2e9ac5a34869209f95ab46bf72061fd6.
CHAT_INFO,1318158690100530000063285,1318176690151.dfe4ec67087d58daa1d15e014fa3bbf0.
deleteregioninmeta.sh删除hdfs的region以及.META.表中的region信息，内容如下：

!#/bin/bash
while read line
do
#        echo "$line"
regionpath=/hbase/$1/`echo "$line" | awk -F '.' '{print $2}'`
echo "$regionpath" 
hadoop fs -mv  $regionpath /hua/chat_info_bak
echo "deleteall '.META.','$line'" | hbase shell
done < $2

执行命令：sh deleteregioninmeta.sh CHAT_INFO  /home/hadoop/hua/hua.txt
复制代码

x5136160 · 发表于 2014-7-15 20:18:34

很好很好，了解了解。。。

ohano_javaee · 发表于 2014-10-18 12:08:46

又一次走心~

wubaozhou · 发表于 2015-1-1 21:40:35

cochou · 发表于 2015-4-12 21:48:08

cochou · 发表于 2015-4-12 21:48:57

cochou · 发表于 2015-4-12 21:54:30

cochou · 发表于 2015-4-12 22:01:41

xiangyuwen · 发表于 2015-5-6 11:28:41

提示: 作者被禁止或删除内容自动屏蔽

图文精华

hbase数据删除不释放region解决办法

已有(15)人评论

活跃会员

热心会员

推广达人

宣传达人

突出贡献

优秀版主

论坛元老

推荐 /2