本帖最后由 nettman 于 2014-6-10 00:23 编辑
问题导读:
1.Snapshot备份的优点是什么?
2.HBase数据的备份的方式有几种?
3.Snapshot包括在线和离线的,他们之间有什么区别?
4.snashot的shell的命令都由哪些?
5.如何删除、查看快照?
6.如何导出到另外一个集群?
HBase以往数据的备份基于distcp或者copyTable等工具,这些备份机制或多或少对当前的online数据读写存在一定的影响,Snapshot提供了一种快速的数据备份方式,无需进行数据copy。
参见下图
Snapshot包括在线和离线的
(1)离线方式是disabletable,由HBase Master遍历HDFS中的table metadata和hfiles,建立对他们的引用。
(2)在线方式是enabletable,由Master指示region server进行snapshot操作,在此过程中,master和regionserver之间类似两阶段commit的snapshot操作。
HFile是不可变的,只能append和delete, region的split和compact,都不会对snapshot引用的文件做删除(除非删除snapshot文件),这些文件会归档到archive目录下,进而需要重新调整snapshot文件中相关hfile的引用位置关系。
基于snapshot文件,可以做clone一个新表,restore,export到另外一个集群中操作;其中clone生成的新表只是增加元数据,相关的数据文件还是复用snapshot指定的数据文件
参见clone新表操作示意图:
snashot相关的操作命令如下,
快照: hbase> snapshot 'myTable','myTableSnapshot-122112' 列出当前所有得快照: hbase> list_snapshots 删除快照信息: hbase> delete_snapshot'myTableSnapshot-122112' 基于快照,clone一个新表: hbase> clone_snapshot'myTableSnapshot-122112', 'myNewTestTable' 基于快照恢复表: hbase> disable 'myTable' hbase> restore_snapshot'myTableSnapshot-122112' 导出到另外一个集群中: $bin/hbase class org.apache.hadoop.hbase.snapshot.tool.ExportSnapshot -snapshotMySnapshot -copy-to hdfs:///srv2:8082/hbase -mappers 16
|