hadoop2基础知识介绍--YARN/MR2编程模型介绍及俗语介绍

本帖最后由 pig2 于 2014-4-1 03:12 编辑
什么是YARNe？

什么是HDFS Federation？
扩充：
hadoop2与hadoop1做了哪些改变？

编程模型介绍

Hadoop 0.23.0是一个通用的资源分配框架，它不仅支持MapReduce计算框架，同时也支持流式计算框架，迭代计算框架，MPI等。它实现时采用基于了事件驱动机制，异步编程模型，如下图所示：

EventHandler被称作事件处理器，每种事件类型对应一种EventHandler，其对事件的处理过程通过状态机来描述，handler 接收到一个事件后，使处理对象当前状态跳转到另外一个状态，同时触发一个动作。

（1）状态机

每个对象被建模成有限状态机，如：

• RM：Application，ApplicationAttempt，Container，Node

• AM：Job，Task，AttemptTask

• NM：Container，Application

如：application的状态机如下，刚开始application所处状态为NEW，待收到一个STARTED事件后，会转化成SUBMITTED状态。

（2）基于actors model的事件模型

该模型有以下几个特点：

[1] 每一个计算实体可以：

<1> 向其他actor发送有限个信息
<2> 收到的消息时触发一个行为
<3> 创建若干个新的actor

[2] 固有的并行性

[3] 异步的

如上图所示(小写表示状态，大写表示事件)，两个actor（实际上是C++对象）对应两个不同的状态机，某些actor的事件（如事件A）会触发actor内部状态的转化，而另外一些事件（如事件Y）会触发其他actor的状态转化。具体事例，在后续的文章中会提到。

Hadoop-0.23.0代码并不像之前的Hadoop代码那样容易阅读，由于采用了actor model，其代码逻辑具有跳跃性，往往在看某个代码块时，由于逻辑需要，会跳跃到另外一个代码块，这之后又会跳跃，….。

为了更容易地阅读Hadoop-0.23.0代码，本人拟按照以下步骤进行：

<1> 熟悉其主要模块（ResourceManager，NodeManager，Client，ApplicationMaster）的功能；

<2> 阅读各个模块之间的通信协议；

<3> 分别深入各个模块，画出各个对象的状态机及搞清其转化逻辑；

<4> 分析各个模块主要功能的实现方法。

-------------------------------------------------------------------------------------------------------------------------------------------
Hadoop 2.0中的基本术语解释

在阅读Hadoop 2.0的相关资料时，很多人将一些概念混淆了，本文将对Hadoop 2.0涉及到的术语进行比较全面的介绍。

（1） Hadoop 1.0

第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。

（2） Hadoop 2.0

第二代Hadoop，为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题，提出了HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展；针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足，提出了全新的资源管理框架YARN(Yet Another Resource Negotiator)，它将JobTracker中的资源管理和作业控制功能分开，分别由组件ResourceManager和ApplicationMaster实现，其中，ResourceManager负责所有应用程序的资源分配，而ApplicationMaster仅负责管理一个应用程序。对应Hadoop版本为Hadoop 0.23.x和2.x。

（3） MapReduce 1.0或者MRv1（MapReduce version 1）

第一代MapReduce计算框架，它由两部分组成：编程模型（programming model）和运行时环境（runtime environment）。它的基本编程模型是将问题抽象成Map和Reduce两个阶段，其中Map阶段将输入数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，而Reduce阶段则将key相同的value进行规约处理，并将最终结果写到HDFS上。它的运行时环境由两类服务组成：JobTracker和TaskTracker，其中，JobTracker负责资源管理和所有作业的控制，而TaskTracker负责接收来自JobTracker的命令并执行它。

（4）MapReduce 2.0或者MRv2（MapReduce version 2）或者NextGen MapReduc

MapReduce 2.0或者MRv2具有与MRv1相同的编程模型，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架YARN之上的MRv1，它不再由JobTracker和TaskTracker组成，而是变为一个作业控制进程ApplicationMaster，且ApplicationMaster仅负责一个作业的管理，至于资源的管理，则由YARN完成。

简而言之，MRv1是一个独立的离线计算框架，而MRv2则是运行于YARN之上的MRv1。

（5） YARNe

Hadoop 2.0中的资源管理框架，它是一个框架管理器，为各种框架进行资源分配和提供运行时环境。而MRv2则是运行在YARN之上的第一个计算框架，其他计算框架，比如Spark、Storm等，都正在往YARN上移植。YARN类似于几年前的资源管理系统mesos和更早的Torque。

（6） HDFS Federation

Hadoop 2.0中对HDFS进行了改进，使NameNode可以横向扩展成多个，其中，每个NameNode分管一部分目录，这不仅增强了HDFS的扩展性，也使HDFS具备了隔离性。

转载自董的博客