分享

hadoop入门:第三章HDFS文档概述(一)



随着版本的改变,hadoop官网的网址可能会发生变化,但是无论是哪个版本【2.x】,文档的作用几乎不会改变。本文是接着hadoop官网帮助文档的第三章,这里根据官网的顺序,依次介绍各个章节【文档】,帮助大家认识每个文档的作用,后期如用得着可以快速定位。

1.HDFS的用户指南

文档简介:
使用HDFS既可以作为Hadoop 集群的一部分,也可以单独作为通用的分布式文件系统。HDFS 设计在多个环境中工作,HDFS知识帮助改进配置和诊断指定的集群。
网址:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

HDFS的用户指南.png

推荐:HDFS 用户手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17304



2.HDFS命令指南

文档简介:
文档中介绍了HDFS所有的命令及如何使用

HDFS Commands Guide.png
网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html


3.HDFS高可用使用QJM【Quorum Journal Manager】

文档简介:
本指南提供了HDFS高可用性(HA)功能,以及如何配置和管理HA HDFS集群,使用 QJM【 Quorum Journal Manager】 功能的概述。

本文假设读者对通用组件和节点类型在HDFS集群一个大致的了解。

HDFS High Availability.png

网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html


4.HDFS高可用【NFS】



文档简介:

这个文档提供了一个HDFS HA功能概述和如何管理配置一个HDFS HA集群,使用NFS共享存储的NameNodes节点要求。
注意:
使用QJM或则常规共享存储
这个向导描述了如何配置和使用HDFS HA,使用共享 NFS目录共享共享edit日志在 Active 和 Standby NameNodes。关于如何配置HDFS HA使用Quorum Journal Manager,不使用NFS,请看http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html NFS.png
网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html


5.HDFS Federation

文档简介:
这个向导提供了HDFS Federation 功能概述和如何配置和管理federated 集群

Federation 可以理解为联盟

hdfs联盟.png


网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html


6.视图文件系统指南

文档简介:
ViewFs(视图文件系统)提供一种方式管理多个文件系统命令空间(或则namespace 卷)。它是非常有用的特别对于多个namenode,所以多个namespaces,在HDFS联盟(http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Federation.html). ViewFs类似于一些Unix/Linux操作系统的客户端安装列表。

本指南描述了,在有多个集群的Hadoop系统中,每一个集群都可能联合起来形成多个命名空间。也描述了如何在联邦的HDFS中用ViewFs为每一个集群提供一个全局的命名空间,以使应用程序可以以类似于联邦之前的方式运行。
相关:
hadoop视图文件系统指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17303


7.HDFS快照(HDFS Snapshots)
文档简介:
HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份,防止用户错误和容灾。
HDFS实现了:

  • Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
  • 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数
  • 在datanode 上面的blocks 不会复制,做Snapshot 的文件是纪录了block的列表和文件的大小,但是没有数据的复制
  • Snapshot 并不会影响HDFS 的正常操作:修改会按照时间的反序记录,这样可以直接读取到最新的数据。快照数据是当前数据减去修改的部分计算出来的。

中文参考:
HDFS快照(HDFS Snapshots)
http://www.aboutyun.com/thread-17305-1-1.html



网址:
http://hadoop.apache.org/docs/r2 ... /HdfsSnapshots.html


8.HDFS架构

文档简介:
Hadoop分布式文件系统(HDFS)是一个设计运行在通常的硬件机器上的分布式文件系统。它与已存在的分布式文件系统有许多相似性。但是,与其它系统的不同之处也很重要。HDFS是一个高容错性系统,被设计成可以运行在廉价硬件上。HDFS可提供高吞吐量,适合于那些具有大数据集的应用场合。HDFS放宽了一些POSIX要求,以适应流式存取文件数据。HDFS最初是作为Apache Nutch web搜索引擎项目的基础构件来开发的。现在HDFS是Apache Hadoop的核心项目,项目URL为http://hadoop.apache.org/.

中文参考:HDFS架构(Apache Hadoop 2.1.1-beta)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17306

英文网址:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html


9.离线Edits 阅读器指南

文档简介:
离线的Edits查看器是一个解析Editslog文件的工具。当前程序需要用于不同格式的转换,包括可读的和比本地二进制格式更易编辑XML文件。

此工具可以解析Hadoop0.19和机器之后版本的edits格式。这个工具只操作文件,不需要Hadoop集群正在运行。
英文网址:
http://hadoop.apache.org/docs/r2 ... dfsEditsViewer.html


10.离线Image 阅读器指南

文档简介
离线Image 阅读器是一个转存hdfs fsimage 文件的内容为可阅读的格式,提供只读的WebHDFS API,允许离线分析和检查Hadoop集群的namespace。这个工具能够处理大的image 文件相对的较快。工具处理layout 格式包括hadoop2.4及以上版本。如果想处理旧layout 格式,你可以使用hadoop2.3或则oiv_legacy 命令离线Image 阅读器。如果工具不能处理image 文件,它将退出。离线Image 阅读器不需要集群运行,它完全处于脱机状态。

英文网址:http://hadoop.apache.org/docs/r2 ... dfsImageViewer.html


11.HDFS 权限指南

文档简介:
hadoop分布式文件系统(HDFS)实现了权限模型为文件和目录,共享大部分POSIX 模型。每个文件和目录都有拥有者和所属组。文件或则目录对于所属用户有单独的权限,对于组成员其它用户,和其它所有用户。对于文件,r权限是读文件,w权限是写或则追加文件。目录,r权限列出目录的内容,w权限可以创建和删除文件或则目录,x权限允许访问子目录。

网址:
http://hadoop.apache.org/docs/r2 ... rmissionsGuide.html


12.HDFS 配额指南

文档简介:
hadoop分布式文件系统允许管理员设置已使用的name quotas,和Space Quotas为单独的目录。Name quotas 和 space quotas 单独操作, 但是administration 和 implementation是两种类型的并行的配额

网址:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

13.hftp指南

文档简介:
HFTP 是一个hadoop文件系统实现,让你读取数据从远程hadoop hdfs集群。读取通过HTTP,和数据源是DataNodes。HFTP 是一个只读的文件系统,如果尝试使用写数据或则修改文件系统状态会抛出异常。

网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/Hftp.html


14.C API libhdfs

文档简介:
libhdfs 是一个JNI ,基于C API的hadoop 分布式文件系统(HDFS)。它提供 HDFS APIs的一个子集操作HDFS文件和系统。libhdfs 是hadoop 分布式的部分,来自预编译在$HADOOP_HDFS_HOME/lib/native/libhdfs.so .libhdfs 是与windows兼容的,可以在window上运行mvn编译构建,在hadoop-hdfs-project/hadoop-hdfs源码树目录。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/LibHdfs.html


15.WebHDFS REST API

文档简介:
HTTP REST API支持完整的FileSystem/FileContext HDFS接口。

英文网址:
http://hadoop.apache.org/docs/r2 ... p-hdfs/WebHDFS.html


16.HttpFS Gateway

文档简介:
Hadoop HDFS 通过 HTTP - 文档集
HttpFS是NameNode的单独服务。HttpFS是一个Java web应用程序和运行使用预配置的Tomcat,捆绑HttpFS 二进制 分布
HttpFS有很多功能,比如读写数据,传输数据等。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-hdfs-httpfs/index.html


17. Short-Circuit 本地读取

文档简介:
在HDFS,读取通常通过DataNode。因此,当客户端请求DataNode读取一个文件,DataNode读取文件从磁盘,发送数据通过TCP socket到客户端。所谓的“short-circuit” 的读取,绕过DataNode,允许客户端读取文件目录。很明显,唯一可能的情况是客户端与数据共定位。Short-circuit 提升了许多应用的读取性能。

英文网址:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/ShortCircuitLocalReads.html



18. HDFS集中缓存管理

文档简介:
在HDFS集中缓存管理是一个显式缓存机制,允许用户指定要缓存的HDFS路径。NameNode 与DataNodes 通信,在磁盘上有请求的blocks ,指导他们在off-heap来缓存blocks 。

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html


19. HDFS NFS Gateway

文档简介:
NFS Gateway支持NFSv3 和允许安装的HDFS作为客户端本地文件系统部分 .
NFS gateway 机器需要同样的事情运行一个HDFS客户端,像Hadoop JAR 文件,HADOOP_CONF 目录。NFS gateway 可以在相同的客户端与 DataNode, NameNode, 或则任何  HDFS client.

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html



20. HDFS滚动升级

文档简介:
HDFS 滚动升级允许单独升级HDFS守护进程。比如,datanodes 可以独立于namenode升级。一个namenode 可以独立于其它namenodes升级。namenodes 可以独立于datanods 和journal nodes升级

英文网址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html


下一篇:
hadoop入门:第三章HDFS文档概述(二)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=17316





相关文章

hadoop入门-第一章General:第一节单节点伪分布

hadoop入门-第一章General:第二节集群配置

hadoop入门-第一章General:第三节Hadoop初级入门之命令指南

hadoop入门-第一章General:第四节文件系统shell

hadoop入门-第一章General:第五节hadoop的兼容性说明

hadoop入门-第一章General:第六节开发人员和用户接口指南:hadoop接口分类

hadoop入门-第一章General:第七节Hadoop 文件系统 API :概述

hadoop入门-第二章common:第一节hadoop 本地库 指南

hadoop入门-第二章common:第二节hadoop代理用户 -超级用户代理其它用户

hadoop入门-第二章common:第三节机架智能感知

hadoop入门-第二章common:第四节安全模式说明

hadoop入门-第二章common:第五节服务级别授权指南

hadoop入门-第二章common:第六节Hadoop HTTP web-consoles认证机制

hadoop入门-第二章common:第七节Hadoop Key管理服务器(KMS) - 文档集

hadoop入门:第三章HDFS文档概述(一)

hadoop入门:第三章HDFS文档概述(二)

hadoop入门:第四章mapreduce文档概述

hadoop入门:第五章MapReduce REST APIs文档概述

hadoop入门:第六章YARN文档概述

hadoop入门:第七章YARN REST APIs

hadoop入门:第八章hadoop兼容文件系统

hadoop入门:第九章hadoop认证

hadoop入门:第十章hadoop工具

hadoop入门:第十一章hadoop配置

已有(1)人评论

跳转到指定楼层
lanyangkj 发表于 2017-3-16 16:30:22
你这么一说,我更加坚定,HDFS可以独立于MapReduce或者YARN而存在了。
我最近在做一个文件类(图片,word,pdf等各类非结构化文件)分布式存储架构。

说白了就是传统的附件搬到HDFS上来了。
而YARN与MapReduce对我来说多余,我完全就没配置启动。

大神,您认为,此种架构是否合理,谢谢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条