About云-梭伦科技»专题 › 交流区 › 技术交流 › HDFS › HDFS的运行原理

HDFS的运行原理

查看数: 9106 | 评论数: 8 | 收藏 3

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

ljlinux2012

发布时间: 2017-3-1 18:02

正文摘要:

简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副 ...

yongjian3311 发表于 2017-3-15 18:36:17

中风拓发表于 2017-3-2 15:36
请问楼主，在写操作中的原理部分，为什么要分为两种？client为DataNode和client不为DataNode两部分呢？

假设复制因子是3，如果put数据的时候
在集群内机器提交的话，其写流程是：1. 在本机器内首先存储一个副本
2. 在离本机机架最近的机架的一个节点上存储第二个副本
3. 本机架的其他节点存储第三个副本

在集群外提交的话，其写流程：

1. 找集群内CPU和内存最充足的机器写第一个副本（比如说节点A）
2. 找离节点A最近的机架的一个节点上存储第二个副本
3.找节点A机架内另一节点存第三个副本

另外，其中如何知道哪个机架离自己近，哪个节点离自己远呢？
答案是需要配置机架感知，配置机架与IP的映射关系，namenode会根据机架拓扑图算出距离。

yongjian3311 发表于 2017-3-15 18:26:45

补充下：
SecondaryNameNode作用最主要是减轻editlog的大小，加快namenode启动速度，备份是另一功能。

tan350476527 发表于 2017-3-12 20:24:02