官网资料这方面挺多的:
备份和灾难恢复概述Cloudera Manager 提供一个集成式的易用管理解决方案,以用于在 Hadoop 平台上启用数据保护。Cloudera Manager 提供丰富全面的功能,旨在为灾难恢复情况复制 HDFS 中存储的数据和通过 Hive 在数据中心访问的数据。重要数据存储在 HDFS 中时,Cloudera Manager 提供必需的功能已确保数据始终可用,即便在数据中心完全关闭时也是如此。 Cloudera Manager 还允许计划、保存和(如果需要)恢复 HDFS 目录和 HBase 表的快照。 Cloudera Manager 提供完全集成于 Cloudera Manager Admin Console 中的关键功能:- 选择 - 选择对您的业务运营至关重要的关键数据集。
- 计划 - 为数据复制和/或快照创建相应的计划 – 根据您的业务需求尽可能频繁地触发复制和快照。
- 监控 - 通过中央控制台跟踪快照和复制作业的进度,并轻松地识别问题或无法传输的文件。
- 警报 - 快照或复制作业失败或中止时发出警报,以便可以迅速地诊断问题。
复制功能在 Hive 和 HDFS 中无缝工作 – 复制可在文件或目录(对于 HDFS)和表(对于 Hive)上设置 — 无需手动将 Hive 数据集转换为 HDFS 数据集,或反之亦然。Hive Metastore 信息也将被复制,这意味着当依赖存储在 Hive 中的表定义的应用程序将在副本端及源端正确工作(当表定义更新时)。 构建在 distcp 的硬化版本上 — 复制利用 MapReduce 和 YARN 的可升级性和可用性,使用专用 MapReduce 作业或 YARN 应用程序(仅将已更改文件从每个 Mapper 中区分开来并高效快速地将其传输至副本端)并行化文件复制。 另外,还允许执行“试运行”以检查配置并了解整体操作的成本,然后再复制整个数据集。 端口要求您必须确保集群中的以下端口打开并可访问,以便在源与目标 Cloudera Manager Server 之间及 HDFS、Hive、MapReduce 和 YARN 主机之间进行通信:- Cloudera Manager Admin Console 端口:默认为 7180。
- HDFS NameNode 端口:默认为 8020。
- HDFS DataNode 端口:默认为 50010。
- WebHDFS 端口:默认为 50070。
详细:上面是官网资料,也就是说可以采用复制和快照的方式。
快照不过是cdh5中。
复制:
HBase 复制
如果数据已在 HBase 群集中,复制法对于将数据保存到其他 HBase 群集而言十分有用。在 HBase 中,群集复制是使用源群集的预写日志 (WAL) 传播变更,使一个群集的状态与另一群集同步。在列系列粒度启用了复制功能。为列系列启用复制功能之前,先在目标群集中创建要复制的表和所有列系列。
群集复制使用主推送方法。HBase 群集可以是源群集(又称母版或活动群集,这意味着它是新数据的创建者)、目标群集(又称从属或被动群集,这意味着它通过复制方法接收数据),也可以同时承担这两种角色。复制是异步的,复制的目标是实现一致性。
从一个群集向另一群集复制数据时,会使用元数据的一部分 - 群集 ID跟踪 数据的原始来源 它是元数据的一部分进行跟踪。在 CDH 5 中,还跟追踪消耗数据的所有群集。这样可以防止复制环路。
更多内容
http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/cdh_bdr_hbase_replication.html
|