搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Hadoop|YARN
›
总结型
›
hadoop学习总结
0
1
3
分享
hadoop学习总结
yuwenge
2015-6-27 19:27:38
发表于
总结型
[显示全部楼层]
阅读模式
关闭右栏
1
14893
About云VIP帮助找工作和提升
Hadoop的两大功能
:海量数据存储和海量数据分析
Hadoop2的三大核心组件是
:HDFS、MapperReducer和yarn
1、HDFS:分布式文件系统海量数据存储
2、MapperReducer:运算框架,海量数据分析
3、yarn:资源调度管理集群
HDFS工作机制:基于namenode和datanode
1、namenode:响应客户端的请求;负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器);
元数据的管理
2、datanode:存储管理用户的文件数据;定期向namenode汇报自己所持有的block信息(通过心跳机制RPC)
Namenode安全模式:1)、当nameonde发现文件block丢失的数量达到一个配置的门限时,就会进入安全模式,它在这个模式下等待datanode向它汇报block信息;2)、在
安全模式下,namenode可以提供元数据查询的功能,但是不能修改;
HDFS读流程:
1、跟namenode通信查询元数据,找到文件块所在的datanode服务器
2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流
3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)
4、客户端以packet为单位接收,现在本地缓存,然后写入目标文件
HDFS写流程:
1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在
2、namenode返回是否可以上传
3、client请求第一个 block该传输到哪些datanode服务器上
4、namenode返回3个datanode服务器ABC
5、client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将真个pipeline建立完成,逐级返回客户端
6、client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答
7、当一个block传输完成之后,client再次请求namenode上传第二个block的服务器。
关注公众号,获取大数据、人工智能20套、区块链资源5阶段等资源,随时更新,获取最新技术资源
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
levycui
发表于 2015-6-30 13:27:06
总结的很好 支持
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
yuwenge
版主
关注
519
主题
766
帖子
59
粉丝
TA的主题
39天大数据学习第18天
2018-10-8
Java 11正式发布,新特性解读
2018-9-26
精通 TensorFlow 1.x
2018-9-13
39天大数据学习第五天
2018-9-13
39天大数据学习第四天
2018-9-12
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈