hadoop2.2YARN环境搭建

         本篇文章不涉及hadoop2.2的编译，编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明，本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。

1. 简介

   Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
　　对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前的失败任务；从节点仅负责由主节点指派的任务。当一个Job被提交时，JobTracker接收到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行。
　　从上面的介绍可以看出，HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。

2. 系统环境系统版本
CentOS 6.4  64bit
uname -a
Linux ** 2.6.32_1-7-0-0 #1 SMP *** x86_64 x86_64 x86_64 GNU/LinuxJAVA环境安装Java 1.6
将jdk解压到local目录下
添加JAVA_HOME环境变量到.bashrc文件中export JAVA_HOME="/home//local/jdk1.6.0_45/"
export JRE_HOME="/home//local/jdk1.6.0_45/jre/"
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

HADOOP解压hadoop-2.2.0-bin_64.tar.gz(这个包是我在CentOS6.4 64bit的环境下编译得到的) 到用户根目录export HADOOP_HOME=/home//hadoop-2.2.0

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
测试本地模式hadoop默认情况下配置为本地模式，所以解压后不修改任何配置，可以执行本地测试
// 创建本地目录
mkdir input
// 填充数据
cp conf/*.xml input
// 执行hadoop
bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
// 查看结果
cat output/*

3. 网络环境由于前期只是测试环境和配置，所以简单的使用两个节点：
master机器，充当namenode & datanode
slave机器，充当datanode设置hostname
HDFS用hostname而不是IP来相互之间进行通信，hadoop会反向解析hostname，即使是用了IP，也会使用hostname 来启动TaskTracker，所以所有配置文件只能用hostname，不能用IP（满满的都是泪）。我们给两个机器分别设置如下：

机器IPHOSTNAME角色master192.168.216.135masternamenode, datanodeslave192.168.216.136slave1datanode
临时更改hostname的命令是(root权限)
hostname
永久更改需要修改配置文件/etc/sysconfig/network
HOSTNAME=

修改hosts文件设置/etc/hosts文件(每台机器上都要设置)，添加如下内容
192.168.216.135 master192.168.216.136 slave1namenode与datanode的/etc/hosts内容都必须是ip位址与host name的对应，不能使用127.0.0.1代替本机的ip地址，否则hadoop使用hostname找ip时，会以"127.0.0.1"作为ip位址。
设置ssh无密码访问
master和所有的slave之间，需要实现双向ssh无密码访问(slave和slave之间可以不用实现)。

请参见《ssh无密码访问》文章，本文不再详述

防火墙设置严格来说，应该是打开某些对应的端口。为了简单起见，我们这里关闭selinux和iptalbes.
关闭selinux的方法
setenforce 1 设置SELinux 成为enforcing模式setenforce 0 设置SELinux 成为permissive模式
如果永久关闭，编辑/etc/selinux/config
SELINUX=disabled关闭iptables的方法
service iptables stopservice ip6tables stop如果需要永久关闭（各个运行级别）
chkconfig iptables offchkconfig ip6tables off

4. 配置我们只需要在master机器上配置好所有的配置文件，然后全部拷贝到各个slave机器上即可。
注意配置文件中涉及到的一些访问地址，都写成master：port的形式。很多文档中写为localhost或者127.0.0.1，这个是不对的，在多机器集群中，每一个机器上的这些配置，都是指向master节点的。

配置文件位于$HADOOP_HOME/etc/hadoop/目录下

建立数据目录
      我们在根目录下建立$HADOOP_DATA_HOME目录(/home//hadoop-data/, 其中是你的用户名), 将dfs和mapred目录建立在这里，包括：
      $HADOOP_DATA_HOME/dfs/name
      $HADOOP_DATA_HOME/dfs/data

      $HADOOP_DATA_HOME/mapred/local

      $HADOOP_DATA_HOME/mapred/system
HDFS配置配置hadoop-env.sh       将该脚本中的JAVA_HOME设置为JAVA安装的位置，该配置文件中，只有JAVA_HOME变量是必须配置的，其它变量都是可选配置的。
      由于我们在.bashrc中添加了JAVA_HOME环境变量，这一步可以省略。
配置core-site.xmlio,native.lib.availabletruefs.default.namehdfs://master:54310true
hdfs-site.xml       dfs.namenode.name.dirfile:/home//hadoop-data/dfs/nameDetermines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then name table is replicated in all of the directories,for redundancy.truedfs.datanode.data.dirfile:/home//hadoop-data/dfs/dataDetermines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.truedfs.replication 1副本数目dfs.permissionfalse

dfs.datanode.name.dir是NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。

dfs.datanode.data.dir是DataNode存放块数据的本地文件系统路径，逗号分割的列表。当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。

dfs.replication是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错。

map-reduce配置mapred-env.sh类似hadoop-env.sh，配置JAVA_HOME即可
mapred-site.xml
mapreduce.framework.nameyarn 设置MapReduce的执行框架为YARN，这样mr job会被提交到ResourceManagermapreduce.job.trackerhdfs://master:9001truemapreduce.map.memory.mb1536mapreduce.map.java.opts-Xmx1024Mmapreduce.reduce.memory.mb3072mapreduce.reduce.java.opts-Xmx2560Mmapreduce.task.io.sort.mb512mapreduce.task.io.sort.factor100mapreduce.reduce.shuffle.parallelcopies50mapred.system.dirfile:/home/hadoop/mapred/systemtruemapred.local.dirfile:/home/hadoop/mapred/localtrue

Yarn配置yarn-site.xml
yarn.resourcemanager.addressmaster:8080yarn.resourcemanager.scheduler.addressmaster:8081yarn.resourcemanager.resource-tracker.addressmaster:8082yarn.nodemanager.aux-servicesmapreduce_shuffle yarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler
注意这里的配置文件里面，有两处mapreduce_shuffle（原本配置是mapreduce.shuffle，启动时会报错，原因是**命名不能包含.字符）。
2.0.5.alpha版本中，这里需要配置成mapreduce.shuffle，否则会报错【java.lang.IllegalStateException: Invalid shuffle port number -1 returned】
yarn中shuffle部分被独立成一个service，需要在nodemanager启动的时候作为auxiliary service一起启动，这样可以自定义第三方的shuffle provider，和ShuffleConsumer，比如可以替换现阶段的HTTP Shuffle为RDMA Shuffle，对于中间结果merge可以采用更合适的策略来得到更好的性能提升。

masters & slaves文件masters文件，告诉系统那个节点是master，填写的是master节点的hostname(由于我们配置了其就叫master，所以内容填master，注意这里必须是hostname，如果填IP，会出错)master
slaves文件，告诉系统哪些节点是slave，填写的是所有slave节点的hostname，每行一个。注意事项同master。

slave1
默认的环境里面可能没有masters和slaves文件，自己建立即可。

5. 启动集群
格式化HDFS：
$HADOOP_HOME/bin/hdfs namenode -format
注意，如果不是第一次格式化，那么需要先清理tmp目录中的数据（默认的tmp目录在/tmp/hadoop-下面），以及hdfs-site.xml中配置的dfs.datanode.data.dir目录，否则可能出错。

启动集群
$HADOOP_HOME/sbin/start-all.sh
该命令会依次启动hdfs和yarn，分别调用start-hdfs.sh和start-yarn.sh;
start-hdfs.sh依次启动namenode、secondarynamenode、datanode，也可以单独启动，对应的命令为
hdfs namenodehdfs secondarynamenodehdfs datanode
6. 测试JPS测试在master上执行jps，输出：
3716 ResourceManager3456 DataNode4193 Jps3350 NameNode3587 SecondaryNameNode3807 NodeManager

在slaver上执行jps，输出：
2032 DataNode2118 NodeManager2274 Jps

WebUI访问查看端口打开状态
netstat -nap | grep 54310

访问http://:8088

NameNode：http://:50070

JobTracker：http://:50030

HDFS访问在HDFS上创建新目录，可进一步测试HDFS是否工作正常：

hdfs dfs -mkdir /xxxhdfs dfs -ls /

简单任务执行简单的map-reduce任务，在hadoop的根目录下执行：
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 2 2其中最后两个参数是map数和reduce数目

或者使用如下方式调用：
yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi -Dmapreduce.clientfactory.class.name=org.apache.hadoop.mapred.YarnClientFactory -libjars $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar 2 2

其它的例子：
// 将数据上传到hdfs,如果这时出现 SafeModeException 异常，不用担心，等待几分钟即可。因为hadoop刚刚启动时，会进入安全模式进行自检。bin/hadoop fs -put etc/hadoop/*.xml input// 运行 Hadoop 自带的例子:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar grep input output 'dfs[a-z.]+'// 查看运行结果hadoop fs -cat output/*

7. 扩展性添加datanode节点添加一个新的节点到现有的Hadoop集群需要做的事情包括：
   1.  将这个新节点添加到网络环境中，处理好ssh免密码登录(包括从master到该机器以及从该机器到master)
   2.  在该机器上部署hadoop，并设置masters文件中的master为现有集群的master（name node）
   3.  在master的slaves文件中添加该新的机器
   4.  start-all.sh启动系统
然后可以通过http://(Masternode的主机名):50070查看新添加的DataNode

8. 问题记录出错的时候，可以设置logger级别，看下具体原因：export HADOOP_ROOT_LOGGER=DEBUG,console

1.  INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable -- hadoop的本地库加载失败。

Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。如果加载成功，输出为：
DEBUG util.NativeCodeLoader - Trying to load the custom-built native-hadoop library...
INFO util.NativeCodeLoader - Loaded the native-hadoop library
如果加载失败，则报错为Unable to load native-hadoop library for your platform...
相关的配置：
在Hadoop的配置文件core-site.xml中可以设置是否使用本地库：

  hadoop.native.lib

  true

  Should native hadoop libraries, if present, be used.

Hadoop默认的配置为启用本地库。另外，可以在环境变量中设置使用本地库的位置：

export JAVA_LIBRARY_PATH=/path/to/hadoop-native-libs

出错原因：

检查native库的版本信息，32bit的版本和64bit的版本在不匹配的机器上会加载失败，检查的命令是file 。

native库依赖的glibc的版本问题。如果在高版本gcc（glibc）的机器上编译的native库，放到低版本的机器上使用，会由于glibc版本不一致导致该错误。

2. java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;

重新格式化namenode

3. maps to localhost, but this does not map back

是因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ，而DNS服务器不是自己的，不能改。解决的办法就是，编辑 ssh 客户端的 /etc/hosts 文件，把出问题的IP 地址和主机名加进去，就不会报这样的错了。

4. java.io.IOException: Incompatible clusterIDsin /home/wangming/hadoop-data/dfs/data

format 前 rm 一下

5. jps命令正常，但是8088端口的WEB页面无法访问

检查一下防火墙，selinux & iptables

6. 8088端口访问正常，但是看不到datanode节点

查看配置中，发现yarn-site.xml中，yarn.resourcemanager.address属性配置的端口号为8080，启动的时候，打开这个端口失败（可能是被其它进程占用，maybe tomcat等），改成8085，重新启动，问题解决。

7. java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;

不知道为什么，重新格式化namenode,再启动，没有再报错。

8. java.lang.IllegalStateException: Invalid shuffle port number -1 returned

参见yarn-site.xml的配置，2.0.5.alpha版本中，这里需要配置成mapreduce.shuffle

9. org.apache.hadoop.ipc.Client: Retrying connect to server: master/192.168.216.131:54310

一是检查slave机器到master机器的连通性；

二是检查master机器上，是否打开了192.168.216.131:54310的监听（netstat -nap | grep 54310）

注意hostname的问题，同时，namenode与data node的/etc/hosts内容都必须是ip位址与host name的对应，不能使用127.0.0.1代替本机的ip地址，否则hadoop使用hostname找ip时，会以"127.0.0.1"作为ip位址。

10. FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain：

hostname不在hosts列表里面，检查hostname和/etc/hosts文件

11. INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode 或者 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool

fs.data.dir参数设置的目录权限必需为755，要不启动datanode节点启动就会因为权限检测错误而自动关闭。

图文精华

hadoop2.2YARN环境搭建

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2