本帖最后由 howtodown 于 2014-8-17 17:06 编辑
问题导读
1.你认为Hadoop集群的搭建有什么共同点?
2.低版本升级高版本,你是如何操作的?
Hadoop集群的搭建除了Hadoop1与Hadoop2的集群搭建有所区别之外,Hadoop2集群的搭建大部分都是相似的。
1.需要安装ssh,达到无密码互通
无密码互通,很多这里都遇到了问题,这里提供两篇帖子。
linux(ubuntu)无密码互通、相互登录高可靠文档
CentOS6.4之图解SSH无验证双向登陆配置
2.修改hostname
hostname有临时修改于永久修改,详细见
ubuntu修改hostname
3.安装JDK
参考
linux(ubuntu)安装Java jdk环境变量设置及小程序测试
4.配置环境变量、例如path、classpath、Java_home等
环境变量中有的是必须的、有的是为了操作方便、Hadoop path可以配置,这样使用命令更加的方便
5.配置网络:
包括联通外网、防火墙关闭
联通外网可以参考下面贴子
虚拟机三种网络模式该如何上网指导
6.Hadoop配置文件
1.配置文件一般配置如下三个文件:
core-site.xml、hdfs-site.xml、mapred-site.xml、
Hadoop2,还需要配置yarn-site.xml
2.对于分布式、伪分布区别的一个重要切简单的配置文件slaves
如果是完全分布则需要修改slaves
除了上面,我们还需要配置hadoop-env.sh、yarn-env.sh
还有根据配置文件、建立文件夹
集群完全分布于伪分布的区别
伪分布与完全分布环境都是差不多的,伪分布搭建完毕,我们需要将同样的Hadoop文件复制到其他节点即可。
除了最基本的环偶境例如,都需要配置jdk,其他大部分环境不需要配置。
然后我们修改slaves 伪分布就能变成完全分布。
当然根据自己的情况,还有些细节,需要自己去搭建集群慢慢体会
通过上面我们可以看出,如果我们在原有的环境的基础上搭建更高更高版本的Hadoop,
我们有两种选择
1.直接采用升级的方式
升级的方式,可以参考
hadoop_线上升级步骤
hadoop 1.0.3 升级到 2.4.0 or 2.4.1
2.替换配置文件、重新初始化目录(这个只适用于同版本)
例如你的环境是Hadoop2.2、2.4等,升级为Hadoop2.5,你该如何操作,这里以伪分布为基础。
(1)我们下载解压Hadoop2.5.0
(2)将原先的Hadoop重命名Hadoop-back
(3)将Hadoop2.5重名为Hadoop(也就是你之前Hadoop文件夹的名字)
(4)替换配置文件
(5)将Hadoop的临时目录及Hadoop datanode目录清除里面的内容即可。
- <property>
- <name>hadoop.tmp.dir</name>
- <value>file:/home/aboutyun/tmp</value>
- <description>Abase for other temporary directories.</description>
- </property>
复制代码
- <property>
- <name>hadoop.tmp.dir</name>
- <value>file:/home/aboutyun/tmp</value>
- <description>Abase for other temporary directories.</description>
- </property>
复制代码
(6)格式化namenode,这时候我们的最新的集群就可以使用了。
对于从未搭建过集群的朋友、可以参考hadoop2.2完全分布式最新高可靠安装文档,来搭建Hadoop2.5,配置文件,可以完全挪用。
|