hadoop入门:第三章HDFS文档概述（一）

随着版本的改变，hadoop官网的网址可能会发生变化，但是无论是哪个版本【2.x】，文档的作用几乎不会改变。本文是接着hadoop官网帮助文档的第三章，这里根据官网的顺序，依次介绍各个章节【文档】，帮助大家认识每个文档的作用，后期如用得着可以快速定位。

1.HDFS的用户指南

文档简介：
使用HDFS既可以作为Hadoop 集群的一部分，也可以单独作为通用的分布式文件系统。HDFS 设计在多个环境中工作，HDFS知识帮助改进配置和诊断指定的集群。
网址：http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

HDFS的用户指南.png

推荐：HDFS 用户手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17304

2.HDFS命令指南

文档简介：
文档中介绍了HDFS所有的命令及如何使用

HDFS Commands Guide.png

网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

3.HDFS高可用使用QJM【Quorum Journal Manager】

文档简介：
本指南提供了HDFS高可用性（HA）功能，以及如何配置和管理HA HDFS集群，使用 QJM【 Quorum Journal Manager】功能的概述。

本文假设读者对通用组件和节点类型在HDFS集群一个大致的了解。

HDFS High Availability.png

网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

4.HDFS高可用【NFS】

文档简介：

这个文档提供了一个HDFS HA功能概述和如何管理配置一个HDFS HA集群，使用NFS共享存储的NameNodes节点要求。
注意：
使用QJM或则常规共享存储
这个向导描述了如何配置和使用HDFS HA，使用共享 NFS目录共享共享edit日志在 Active 和 Standby NameNodes。关于如何配置HDFS HA使用Quorum Journal Manager，不使用NFS，请看http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html

5.HDFS Federation

文档简介：
这个向导提供了HDFS Federation 功能概述和如何配置和管理federated 集群

Federation 可以理解为联盟

hdfs联盟.png

网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html

6.视图文件系统指南

文档简介：
ViewFs（视图文件系统）提供一种方式管理多个文件系统命令空间（或则namespace 卷）。它是非常有用的特别对于多个namenode，所以多个namespaces，在HDFS联盟（http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html）. ViewFs类似于一些Unix/Linux操作系统的客户端安装列表。

本指南描述了，在有多个集群的Hadoop系统中，每一个集群都可能联合起来形成多个命名空间。也描述了如何在联邦的HDFS中用ViewFs为每一个集群提供一个全局的命名空间，以使应用程序可以以类似于联邦之前的方式运行。
相关：
hadoop视图文件系统指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17303

7.HDFS快照（HDFS Snapshots）
文档简介：
HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份，防止用户错误和容灾。
HDFS实现了：

Snapshot 创建的时间复杂度为O(1)，但是不包括INode 的寻找时间
只有当修改SnapShot时，才会有额外的内存占用，内存使用量为O(M),M 为修改的文件或者目录数
在datanode 上面的blocks 不会复制，做Snapshot 的文件是纪录了block的列表和文件的大小，但是没有数据的复制
Snapshot 并不会影响HDFS 的正常操作：修改会按照时间的反序记录，这样可以直接读取到最新的数据。快照数据是当前数据减去修改的部分计算出来的。

中文参考：
HDFS快照（HDFS Snapshots）
http://www.aboutyun.com/thread-17305-1-1.html

网址：
http://hadoop.apache.org/docs/r2 ... /HdfsSnapshots.html

8.HDFS架构

文档简介：
Hadoop分布式文件系统(HDFS)是一个设计运行在通常的硬件机器上的分布式文件系统。它与已存在的分布式文件系统有许多相似性。但是，与其它系统的不同之处也很重要。HDFS是一个高容错性系统，被设计成可以运行在廉价硬件上。HDFS可提供高吞吐量，适合于那些具有大数据集的应用场合。HDFS放宽了一些POSIX要求，以适应流式存取文件数据。HDFS最初是作为Apache Nutch web搜索引擎项目的基础构件来开发的。现在HDFS是Apache Hadoop的核心项目，项目URL为http://hadoop.apache.org/.

中文参考：HDFS架构(Apache Hadoop 2.1.1-beta)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17306

英文网址：http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

9.离线Edits 阅读器指南

文档简介：
离线的Edits查看器是一个解析Editslog文件的工具。当前程序需要用于不同格式的转换，包括可读的和比本地二进制格式更易编辑XML文件。

此工具可以解析Hadoop0.19和机器之后版本的edits格式。这个工具只操作文件，不需要Hadoop集群正在运行。
英文网址：
http://hadoop.apache.org/docs/r2 ... dfsEditsViewer.html

10.离线Image 阅读器指南

文档简介：
离线Image 阅读器是一个转存hdfs fsimage 文件的内容为可阅读的格式，提供只读的WebHDFS API，允许离线分析和检查Hadoop集群的namespace。这个工具能够处理大的image 文件相对的较快。工具处理layout 格式包括hadoop2.4及以上版本。如果想处理旧layout 格式，你可以使用hadoop2.3或则oiv_legacy 命令离线Image 阅读器。如果工具不能处理image 文件，它将退出。离线Image 阅读器不需要集群运行，它完全处于脱机状态。

英文网址：http://hadoop.apache.org/docs/r2 ... dfsImageViewer.html

11.HDFS 权限指南

文档简介：
hadoop分布式文件系统（HDFS）实现了权限模型为文件和目录，共享大部分POSIX 模型。每个文件和目录都有拥有者和所属组。文件或则目录对于所属用户有单独的权限，对于组成员其它用户，和其它所有用户。对于文件，r权限是读文件，w权限是写或则追加文件。目录，r权限列出目录的内容，w权限可以创建和删除文件或则目录，x权限允许访问子目录。

网址：
http://hadoop.apache.org/docs/r2 ... rmissionsGuide.html

12.HDFS 配额指南

文档简介：
hadoop分布式文件系统允许管理员设置已使用的name quotas,和Space Quotas为单独的目录。Name quotas 和 space quotas 单独操作, 但是administration 和 implementation是两种类型的并行的配额

网址：http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

13.hftp指南

文档简介：
HFTP 是一个hadoop文件系统实现，让你读取数据从远程hadoop hdfs集群。读取通过HTTP，和数据源是DataNodes。HFTP 是一个只读的文件系统，如果尝试使用写数据或则修改文件系统状态会抛出异常。

网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Hftp.html

14.C API libhdfs

文档简介：
libhdfs 是一个JNI ，基于C API的hadoop 分布式文件系统（HDFS）。它提供 HDFS APIs的一个子集操作HDFS文件和系统。libhdfs 是hadoop 分布式的部分，来自预编译在$HADOOP_HDFS_HOME/lib/native/libhdfs.so .libhdfs 是与windows兼容的，可以在window上运行mvn编译构建，在hadoop-hdfs-project/hadoop-hdfs源码树目录。

英文网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/LibHdfs.html

15.WebHDFS REST API

文档简介：
HTTP REST API支持完整的FileSystem/FileContext HDFS接口。

英文网址：
http://hadoop.apache.org/docs/r2 ... p-hdfs/WebHDFS.html

16.HttpFS Gateway

文档简介：
Hadoop HDFS 通过 HTTP - 文档集
HttpFS是NameNode的单独服务。HttpFS是一个Java web应用程序和运行使用预配置的Tomcat，捆绑HttpFS 二进制分布
HttpFS有很多功能，比如读写数据，传输数据等。

英文网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-hdfs-httpfs/index.html

17. Short-Circuit 本地读取

文档简介：
在HDFS，读取通常通过DataNode。因此，当客户端请求DataNode读取一个文件，DataNode读取文件从磁盘，发送数据通过TCP socket到客户端。所谓的“short-circuit” 的读取，绕过DataNode，允许客户端读取文件目录。很明显，唯一可能的情况是客户端与数据共定位。Short-circuit 提升了许多应用的读取性能。

英文网址：http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/ShortCircuitLocalReads.html

18. HDFS集中缓存管理

文档简介：
在HDFS集中缓存管理是一个显式缓存机制，允许用户指定要缓存的HDFS路径。NameNode 与DataNodes 通信，在磁盘上有请求的blocks ，指导他们在off-heap来缓存blocks 。

英文网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

19. HDFS NFS Gateway

文档简介：
NFS Gateway支持NFSv3 和允许安装的HDFS作为客户端本地文件系统部分 .
NFS gateway 机器需要同样的事情运行一个HDFS客户端，像Hadoop JAR 文件,HADOOP_CONF 目录。NFS gateway 可以在相同的客户端与 DataNode, NameNode, 或则任何 HDFS client.

英文网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html

20. HDFS滚动升级

文档简介：
HDFS 滚动升级允许单独升级HDFS守护进程。比如，datanodes 可以独立于namenode升级。一个namenode 可以独立于其它namenodes升级。namenodes 可以独立于datanods 和journal nodes升级

英文网址：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html

下一篇：
hadoop入门:第三章HDFS文档概述（二）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17316

相关文章

hadoop入门-第一章General：第一节单节点伪分布

hadoop入门-第一章General：第二节集群配置

hadoop入门-第一章General：第三节Hadoop初级入门之命令指南

hadoop入门-第一章General：第四节文件系统shell

hadoop入门-第一章General：第五节hadoop的兼容性说明

hadoop入门-第一章General：第六节开发人员和用户接口指南：hadoop接口分类

hadoop入门-第一章General：第七节Hadoop 文件系统 API ：概述

hadoop入门-第二章common：第一节hadoop 本地库指南

hadoop入门-第二章common：第二节hadoop代理用户 -超级用户代理其它用户

hadoop入门-第二章common：第三节机架智能感知

hadoop入门-第二章common：第四节安全模式说明

hadoop入门-第二章common：第五节服务级别授权指南

hadoop入门-第二章common：第六节Hadoop HTTP web-consoles认证机制

hadoop入门-第二章common：第七节Hadoop Key管理服务器(KMS) - 文档集

hadoop入门:第三章HDFS文档概述（一）

hadoop入门:第三章HDFS文档概述（二）

hadoop入门:第四章mapreduce文档概述

hadoop入门:第五章MapReduce REST APIs文档概述

hadoop入门:第六章YARN文档概述

hadoop入门:第七章YARN REST APIs

hadoop入门:第八章hadoop兼容文件系统

hadoop入门:第九章hadoop认证

hadoop入门:第十章hadoop工具

hadoop入门:第十一章hadoop配置

lanyangkj · 发表于 2017-3-16 16:30:22

你这么一说，我更加坚定，HDFS可以独立于MapReduce或者YARN而存在了。
我最近在做一个文件类（图片，word，pdf等各类非结构化文件）分布式存储架构。

说白了就是传统的附件搬到HDFS上来了。
而YARN与MapReduce对我来说多余，我完全就没配置启动。

大神，您认为，此种架构是否合理，谢谢？

图文精华

hadoop入门:第三章HDFS文档概述（一）

已有(1)人评论

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2