分享

EasyHadoop集群部署入门

pig2 2013-11-27 13:55:22 发表于 安装配置 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 13898
本帖最后由 pig2 于 2013-11-27 14:00 编辑

EasyHadoop集群部署入门
修订记录
日期
修改原因
描述
作者
2012/02/14
初稿
Hadoop部署文档
向磊
2012/07/14
完善细节
新基础环境配置,修改配置文件,修改架构图。
童小军
2012/07/16
完善细节
完善系统检查方法,完善目录结构和注释,添加封面
童小军
2012/07/16
添加图例
添加生产集群部署图,组件的依赖关系
童小军
2012/08/07
添加EasyHive
添加EasyHive 章节
童小军
2012/09/07
完善内容
添加机器配置详解,和配置文件详解
童小军
2012/09/07
完善内容
添加任务调度,机架感知
童小军
目录
EasyHadoop集群部署入门文档.............................................................................................................................. 2
目录..................................................................................................................................................................... 2
1. 文档概述................................................................................................................................................... 3
2. 背景.......................................................................................................................................................... 3
3. 名词解释................................................................................................................................................... 4
4. 服务器结构............................................................................................................................................... 4
#Hadoop试验集群的部署结构................................................................................................................. 4
#系统和组建的依赖关系......................................................................................................................... 5
#生产环境的部署结构............................................................................................................................. 6
5. Red hat Linux基础环境搭建......................................................................................................................... 6
#linux 安装 (vm虚拟机).......................................................................................................................... 6
#配置机器时间同步................................................................................................................................ 6
#配置机器网络环境................................................................................................................................ 7
#配置集群hosts列表............................................................................................................................ 10
#下载并安装 JAVA JDK系统软件............................................................................................................ 10
#生成登陆密钥...................................................................................................................................... 11
#创建用户账号和Hadoop部署目录和数据目录...................................................................................... 11
#检查基础环境...................................................................................................................................... 12
6. Hadoop 单机系统 安装配置..................................................................................................................... 13
#Hadoop 文件下载和解压..................................................................................................................... 13
#配置 hadoop-env.sh 环境变量.............................................................................................................. 13
#Hadoop Common组件 配置 core-site.xml............................................................................................. 13
#HDFS NameNode,DataNode组建配置 hdfs-site.xml................................................................................ 14
#配置MapReduce - JobTracker TaskTracker 启动配置............................................................................... 15
#Hadoop单机系统,启动执行和异常检查................................................................................................ 17
#通过界面查看集群部署部署成功.......................................................................................................... 18
#通过执行 Hadoop pi 运行样例检查集群是否成功................................................................................. 19
#安装部署 常见错误............................................................................................................................. 20
7. Hadoop 集群系统 配置安装配置.............................................................................................................. 20
#检查node节点linux 基础环境是否正常,参考 [ linux 基础环境搭建]一节。........................................... 20
#配置从master 机器到 node 节点无密钥登陆...................................................................................... 20
#检查master到每个node节点在hadoop用户下使用密钥登陆是否正常................................................. 21
#配置master 集群服务器地址 stop-all.sh start-all.sh 的时候调用.......................................................... 21
#通过界面查看集群部署部署成功.......................................................................................................... 22
#通过执行 Hadoop pi 运行样例检查集群是否成功................................................................................. 24
8. 自动化安装脚本...................................................................................................................................... 25
#master 服务器自动安装脚本............................................................................................................... 25
Hive仓库集群部署入门文档................................................................................................................................ 27
1. 名词解释................................................................................................................................................. 27
2. Hive的作用和原理说明............................................................................................................................. 27
#数据仓库结构图.................................................................................................................................. 27
#Hive仓库流程图.................................................................................................................................. 27
#hive内部结构图................................................................................................................................... 27
3. Hive 部署和安装...................................................................................................................................... 27
#安装Hadoop集群,看EasyHadoop安装文档。....................................................................................... 27
#安装Mysql,启动Mysql,检查gc++包。................................................................................................... 27
#解压Hive包并配置JDBC连接地址。................................................................................................... 27
#启动Hive thrift Server。....................................................................................................................... 27
#启动内置的Hive UI。........................................................................................................................... 27
4. Hive Cli 的基本用法.................................................................................................................................. 28
#登陆查询............................................................................................................................................. 28
#查询文件方式...................................................................................................................................... 28
#命令行模式......................................................................................................................................... 28
5. HQL基本语法 (创建表,加载表,分析查询,删除表)....................................................................................... 28
#创建表................................................................................................................................................ 28
6. 使用Mysql构建简单数据集市.................................................................................................................. 29
#Mysql的两种引擎介绍......................................................................................................................... 29
#创建一个数据表使用Hive cli 进行数据分析.......................................................................................... 29
#使用shell 编写Hsql 并使用HiveCli导出数据,使用Mysql命令加载到数据库中。.................................. 29
#使用crontab 新增每日运行任务定时器................................................................................................ 29
7. 使用FineReport 数据展现数据................................................................................................................. 29
#安装FineReport,使用注册码!............................................................................................................... 29
#使用FineReport,快速展现数据报表。................................................................................................... 29
#FineReport 的问题和局限.................................................................................................................... 29

1.  文档概述本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)

本安装文档适用于 centos 5 /red hat 5.2 32,64位版本,ubuntu 等操作系统 需要做部分修改。
2.  背景Hadoop为分布式文件系统和计算的基础框架系统,其中包含hadoop程序,hdfs系统等。
3.  名词解释1.Hadoop,        Apache开源的分布式框架。
2.HDFS,             hadoop的分布式文件系统
3.NameNode,  hadoop HDFS元数据主节点服务器,负责保存DataNode 文件存储元数据信息。
4.JobTracker,   hadoopMap/Reduce调度器,负责与TackTracker通信分配计算任务并跟踪任务进度。
5.DataNode,    hadoop数据节点,负责存储数据。
6.TaskTracker, hadoop调度程序,负责Map,Reduce 任务的具体启动和执行。
7.Fuse,     多文件系统内核程序,可将不同的文件系统mountlinux可读写模式
4.  服务器结构#Hadoop试验集群的部署结构部署路径:/opt/modules/hadoop/hadoop-1.0.3/


#系统和组建的依赖关系


#生产环境的部署结构
5.  Red hat Linux基础环境搭建#linux 安装 (vm虚拟机)请参考其他 vmware 虚拟机安装文档。设置网络为 net 模式。

root hadoop

#配置机器时间同步#配置时间同步
crontab -e
0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org



#手动同步时间
/usr/sbin/ntpdate cn.pool.ntp.org
#配置机器网络环境#修第一台 hostname master
hostname master

#检测
hostname

   #配置主机名 (hostname)
   vi /etc/sysconfig/network
NETWORKING=yes #启动网络
NETWORKING_IPV6=no
HOSTNAME=master  #主机名








#使用 setup 命令配置系统环境
setup
   

   

        

    cat /etc/sysconfig/network-scripts/ifcfg-eth0  #检查ip配置  
# Advanced Micro Devices [AMD] 79c970 [PCnet32 LANCE]
DEVICE=eth0
BOOTPROTO=none
HWADDR=00:0c:29:fc:3a:09
ONBOOT=yes
NETMASK=255.255.255.0
IPADDR=192.168.1.100
TYPE=Ethernet
   

      







/sbin/service network restart  #重新启动网络服务
/sbin/ifconfig  #检查网络ip配置


#关闭防火墙 如果不关闭 报错如下
************************************************************/
2012-07-18 02:47:26,331 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.properties
2012-07-18 02:47:26,529 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source MetricsSystem,sub=Stats registered.
2012-07-18 02:47:26,533 ERROR org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Error getting localhost name. Using 'localhost'...
java.net.UnknownHostException: node1: node1
        at java.net.InetAddress.getLocalHost(InetAddress.java:1354)






#关闭防火墙




#配置集群hosts列表vi /etc/hosts
#添加一下内容到 vi
192.168.1.100 master
192.168.1.101 node1





#下载并安装 JAVA JDK系统软件 #下载jdk
wget http://60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin
#安装jdk
chmod +x  jdk-6u21-linux-i586-rpm.bin
./jdk-6u21-linux-i586-rpm.bin

#配置环境变量
vi /etc/profile.d/java.sh

#复制粘贴一下内容 vi 中。
export JAVA_HOME=/usr/java/jdk1.6.0_21/
export HADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH





#手动立即生效
source /etc/profile

#测试
jps
#生成登陆密钥#切换Hadoop 用户下
su hadoop
cd /home/hadoop/

#生成公钥和私钥
ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa
cd .ssh
cat id_rsa.pub > authorized_keys
chmod go-wx  authorized_keys

#公钥:复制文件内容 id_rsa.pubauthorized_keys
#集群环境 id_ras_pub 复制到  node1:/home/hadoop/.ssh/authorized_keys

#检查
ll  -a /home/hadoop/.ssh/
#创建用户账号和Hadoop部署目录和数据目录#创建 hadoop 用户
/usr/sbin/groupadd hadoop

#分配 hadoop hadoop 组中
/usr/sbin/useradd hadoop -g hadoop

#创建 hadoop 代码目录结构
mkdir -p /opt/modules/hadoop/

#创建 hadoop 数据目录结构
mkdir -p /opt/data/hadoop/

#修改 目录结构权限为为hadoop
chown -R hadoop:hadoop  /opt/modules/hadoop/
chown -R hadoop:hadoop  /opt/data/hadoop/


#检查基础环境/sbin/ifconfig
[hadoop@master root]$ /sbin/ifconfig
eth0      Link encap:Ethernet  HWaddr 00:0C:29:7A:DE:12  
          inet addr:192.168.1.100  Bcast:192.168.1.255  Mask:255.255.255.0
          inet6 addr: fe80::20c:29ff:fe7a:de12/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:14 errors:0 dropped:0 overruns:0 frame:0
          TX packets:821 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:1591 (1.5 KiB)  TX bytes:81925 (80.0 KiB)
          Interrupt:67 Base address:0x2024

#测试命令
/sbin/ifconfig
ping master
ssh master
jps
echo $JAVA_HOME
echo $HADOOP_HOME
hadoop

6.  Hadoop 单机系统 安装配置#Hadoop 文件下载和解压#切到 hadoop 安装路径下
cd /opt/modules/hadoop/

# hadoop.apache.org 下载Hadoop 安装文件
wget http://labs.renren.com/apache-mirror/hadoop/common/hadoop-1.0.3/hadoop-1.0.3.tar.gz

#如果已经下载请复制文件到 安装hadoop 文件夹
cp hadoop-1.0.3.tar.gz  /opt/modules/hadoop/

#加压 复制或者下载的Hadoop 文件
cd /opt/modules/hadoop/
tar -xzvf hadoop-1.0.3.tar.gz
hadoop

#配置 hadoop-env.sh 环境变量#配置Hadoop 最大HADOOP_HEAPSIZE 大小,           默认 1000,因为虚拟机最大内存配置512m,这里配置较小。
#配置 压缩类库地址
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hadoop-env.sh
export HADOOP_HEAPSIZE=32
export JAVA_LIBRARY_PATH=/opt/hadoopgpl/native/Linux-amd64-64:/opt/modules/hadoop/hadoop-1.0.3/lib/native/Linux-amd64-64

#Hadoop Common组件 配置 core-site.xml #编辑 core-site.xml 文件
vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml
<configuration>
  <property>
    <name>fs.default.name</name>
<value>hdfs://master:9000</value>
<!--hadoop namenode 服务器地址和端口,以域名形式-->
  </property>
  <property>
    <name>fs.checkpoint.dir</name>
    <value>/opt/data/hadoop/hdfs/namesecondary</value>
    <!--hadoop secondary 数据存储路径,可以配置成多个目录,,号分隔。-->
  </property>
  <property>
    <name>fs.checkpoint.period</name>
<value>1800</value>
<!-- editlog 每隔 30分钟 触发一次合并 -->
  </property>
  <property>
    <name>fs.checkpoint.size</name>
<value>33554432</value>
<!-- editlog 达到32m的时候触发一次合并 -->
  </property>
  <property>
    <name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
<!-- 配置 Hadoop 压缩包 -->
  </property>

  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
    <description>Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天。</description>
  </property>

</configuration>


本帖被以下淘专辑推荐:

已有(2)人评论

跳转到指定楼层
1024 发表于 2013-11-27 14:03:14
Mark,以备学习。
lz辛苦!!!
回复

使用道具 举报

pig2 发表于 2013-11-27 14:05:50
1024 发表于 2013-11-27 14:03
Mark,以备学习。
lz辛苦!!!

:$
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条