HDFS的运行原理

查看数: 9106 | 评论数: 8 | 收藏 3
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2017-3-1 18:02

正文摘要:

简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:    ① 保存多个副 ...

回复

yongjian3311 发表于 2017-3-15 18:36:17
中风拓 发表于 2017-3-2 15:36
请问楼主,在写操作中的原理部分,为什么要分为两种?client为DataNode和client不为DataNode两部分呢?

假设复制因子是3,如果put数据的时候
在集群内机器提交的话,其写流程是:1. 在本机器内首先存储一个副本
2. 在离本机机架最近的机架的一个节点上存储第二个副本
3. 本机架的其他节点存储第三个副本

在集群外提交的话,其写流程:

1. 找集群内CPU和内存最充足的机器写第一个副本(比如说节点A)
2. 找离节点A最近的机架的一个节点上存储第二个副本
3.找节点A机架内另一节点存第三个副本

另外,其中如何知道哪个机架离自己近,哪个节点离自己远呢?
答案是需要配置机架感知,配置机架与IP的映射关系,namenode会根据机架拓扑图算出距离。
yongjian3311 发表于 2017-3-15 18:26:45
补充下:
SecondaryNameNode作用最主要是减轻editlog的大小,加快namenode启动速度,备份是另一功能。
tan350476527 发表于 2017-3-12 20:24:02

中风拓 发表于 2017-3-4 18:46:38
w517424787 发表于 2017-3-3 14:24
我感觉数据都已经在集群的DataNode上,就不需要再copy到其它节点上啊,本来就有3份!

还不懂……
w517424787 发表于 2017-3-3 14:24:09
中风拓 发表于 2017-3-2 15:36
请问楼主,在写操作中的原理部分,为什么要分为两种?client为DataNode和client不为DataNode两部分呢?

我感觉数据都已经在集群的DataNode上,就不需要再copy到其它节点上啊,本来就有3份!
中风拓 发表于 2017-3-2 15:36:03
请问楼主,在写操作中的原理部分,为什么要分为两种?client为DataNode和client不为DataNode两部分呢?
中风拓 发表于 2017-3-2 15:33:38
感谢楼主的分享!学习了
playzhp 发表于 2017-3-2 12:24:48
多谢分享
关闭

推荐上一条 /2 下一条