本帖最后由 pig2 于 2013-11-27 14:00 编辑
EasyHadoop集群部署入门
修订记录
| 日期
| 修改原因
| 描述
| 作者
| 2012/02/14
| 初稿
| Hadoop部署文档
| 向磊
| 2012/07/14
| 完善细节
| 新基础环境配置,修改配置文件,修改架构图。
| 童小军
| 2012/07/16
| 完善细节
| 完善系统检查方法,完善目录结构和注释,添加封面
| 童小军
| 2012/07/16
| 添加图例
| 添加生产集群部署图,组件的依赖关系
| 童小军
| 2012/08/07
| 添加EasyHive
| 添加EasyHive 章节
| 童小军
| 2012/09/07
| 完善内容
| 添加机器配置详解,和配置文件详解
| 童小军
| 2012/09/07
| 完善内容
| 添加任务调度,机架感知
| 童小军
| 目录
EasyHadoop集群部署入门文档.............................................................................................................................. 2
目录..................................................................................................................................................................... 2
1. 文档概述................................................................................................................................................... 3
2. 背景.......................................................................................................................................................... 3
3. 名词解释................................................................................................................................................... 4
4. 服务器结构............................................................................................................................................... 4
#Hadoop试验集群的部署结构................................................................................................................. 4
#系统和组建的依赖关系......................................................................................................................... 5
#生产环境的部署结构............................................................................................................................. 6
5. Red hat Linux基础环境搭建......................................................................................................................... 6
#linux 安装 (vm虚拟机).......................................................................................................................... 6
#配置机器时间同步................................................................................................................................ 6
#配置机器网络环境................................................................................................................................ 7
#配置集群hosts列表............................................................................................................................ 10
#下载并安装 JAVA JDK系统软件............................................................................................................ 10
#生成登陆密钥...................................................................................................................................... 11
#创建用户账号和Hadoop部署目录和数据目录...................................................................................... 11
#检查基础环境...................................................................................................................................... 12
6. Hadoop 单机系统 安装配置..................................................................................................................... 13
#Hadoop 文件下载和解压..................................................................................................................... 13
#配置 hadoop-env.sh 环境变量.............................................................................................................. 13
#Hadoop Common组件 配置 core-site.xml............................................................................................. 13
#HDFS NameNode,DataNode组建配置 hdfs-site.xml................................................................................ 14
#配置MapReduce - JobTracker TaskTracker 启动配置............................................................................... 15
#Hadoop单机系统,启动执行和异常检查................................................................................................ 17
#通过界面查看集群部署部署成功.......................................................................................................... 18
#通过执行 Hadoop pi 运行样例检查集群是否成功................................................................................. 19
#安装部署 常见错误............................................................................................................................. 20
7. Hadoop 集群系统 配置安装配置.............................................................................................................. 20
#检查node节点linux 基础环境是否正常,参考 [ linux 基础环境搭建]一节。........................................... 20
#配置从master 机器到 node 节点无密钥登陆...................................................................................... 20
#检查master到每个node节点在hadoop用户下使用密钥登陆是否正常................................................. 21
#配置master 集群服务器地址 stop-all.sh start-all.sh 的时候调用.......................................................... 21
#通过界面查看集群部署部署成功.......................................................................................................... 22
#通过执行 Hadoop pi 运行样例检查集群是否成功................................................................................. 24
8. 自动化安装脚本...................................................................................................................................... 25
#master 服务器自动安装脚本............................................................................................................... 25
Hive仓库集群部署入门文档................................................................................................................................ 27
1. 名词解释................................................................................................................................................. 27
2. Hive的作用和原理说明............................................................................................................................. 27
#数据仓库结构图.................................................................................................................................. 27
#Hive仓库流程图.................................................................................................................................. 27
#hive内部结构图................................................................................................................................... 27
3. Hive 部署和安装...................................................................................................................................... 27
#安装Hadoop集群,看EasyHadoop安装文档。....................................................................................... 27
#安装Mysql,启动Mysql,检查gc++包。................................................................................................... 27
#解压Hive包并配置JDBC连接地址。................................................................................................... 27
#启动Hive thrift Server。....................................................................................................................... 27
#启动内置的Hive UI。........................................................................................................................... 27
4. Hive Cli 的基本用法.................................................................................................................................. 28
#登陆查询............................................................................................................................................. 28
#查询文件方式...................................................................................................................................... 28
#命令行模式......................................................................................................................................... 28
5. HQL基本语法 (创建表,加载表,分析查询,删除表)....................................................................................... 28
#创建表................................................................................................................................................ 28
6. 使用Mysql构建简单数据集市.................................................................................................................. 29
#Mysql的两种引擎介绍......................................................................................................................... 29
#创建一个数据表使用Hive cli 进行数据分析.......................................................................................... 29
#使用shell 编写Hsql 并使用HiveCli导出数据,使用Mysql命令加载到数据库中。.................................. 29
#使用crontab 新增每日运行任务定时器................................................................................................ 29
7. 使用FineReport 数据展现数据................................................................................................................. 29
#安装FineReport,使用注册码!............................................................................................................... 29
#使用FineReport,快速展现数据报表。................................................................................................... 29
#FineReport 的问题和局限.................................................................................................................... 29
1. 文档概述本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。
本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统 需要做部分修改。
2. 背景Hadoop为分布式文件系统和计算的基础框架系统,其中包含hadoop程序,hdfs系统等。
3. 名词解释1.Hadoop, Apache开源的分布式框架。
2.HDFS, hadoop的分布式文件系统
3.NameNode, hadoop HDFS元数据主节点服务器,负责保存DataNode 文件存储元数据信息。
4.JobTracker, hadoop的Map/Reduce调度器,负责与TackTracker通信分配计算任务并跟踪任务进度。
5.DataNode, hadoop数据节点,负责存储数据。
6.TaskTracker, hadoop调度程序,负责Map,Reduce 任务的具体启动和执行。
7.Fuse, 多文件系统内核程序,可将不同的文件系统mount成linux可读写模式
4. 服务器结构#Hadoop试验集群的部署结构部署路径:/opt/modules/hadoop/hadoop-1.0.3/
#系统和组建的依赖关系
#生产环境的部署结构
5. Red hat Linux基础环境搭建#linux 安装 (vm虚拟机)请参考其他 vmware 虚拟机安装文档。设置网络为 net 模式。
root hadoop
#配置机器时间同步#配置时间同步
crontab -e
0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org
|
#手动同步时间
/usr/sbin/ntpdate cn.pool.ntp.org
#配置机器网络环境#修第一台 hostname 为 master
hostname master
#检测
hostname
#配置主机名 (hostname)
vi /etc/sysconfig/network
NETWORKING=yes #启动网络
NETWORKING_IPV6=no
HOSTNAME=master #主机名
|
#使用 setup 命令配置系统环境
setup
cat /etc/sysconfig/network-scripts/ifcfg-eth0 #检查ip配置
# Advanced Micro Devices [AMD] 79c970 [PCnet32 LANCE]
DEVICE=eth0
BOOTPROTO=none
HWADDR=00:0c:29:fc:3a:09
ONBOOT=yes
NETMASK=255.255.255.0
IPADDR=192.168.1.100
TYPE=Ethernet
|
/sbin/service network restart #重新启动网络服务
/sbin/ifconfig #检查网络ip配置
#关闭防火墙 如果不关闭 报错如下。
************************************************************/
2012-07-18 02:47:26,331 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.properties
2012-07-18 02:47:26,529 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source MetricsSystem,sub=Stats registered.
2012-07-18 02:47:26,533 ERROR org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Error getting localhost name. Using 'localhost'...
java.net.UnknownHostException: node1: node1
at java.net.InetAddress.getLocalHost(InetAddress.java:1354)
|
#关闭防火墙
#配置集群hosts列表vi /etc/hosts
#添加一下内容到 vi 中
192.168.1.100 master
192.168.1.101 node1
|
#下载并安装 JAVA JDK系统软件 #下载jdk
wget http://60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin
#安装jdk
chmod +x jdk-6u21-linux-i586-rpm.bin
./jdk-6u21-linux-i586-rpm.bin
#配置环境变量
vi /etc/profile.d/java.sh
#复制粘贴一下内容 到 vi 中。
export JAVA_HOME=/usr/java/jdk1.6.0_21/
export HADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
|
#手动立即生效
source /etc/profile
#测试
jps
#生成登陆密钥#切换Hadoop 用户下
su hadoop
cd /home/hadoop/
#生成公钥和私钥
ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa
cd .ssh
cat id_rsa.pub > authorized_keys
chmod go-wx authorized_keys
#公钥:复制文件内容 id_rsa.pub到authorized_keys
#集群环境 id_ras_pub 复制到 node1:/home/hadoop/.ssh/authorized_keys
#检查
ll -a /home/hadoop/.ssh/
#创建用户账号和Hadoop部署目录和数据目录#创建 hadoop 用户
/usr/sbin/groupadd hadoop
#分配 hadoop 到 hadoop 组中
/usr/sbin/useradd hadoop -g hadoop
#创建 hadoop 代码目录结构
mkdir -p /opt/modules/hadoop/
#创建 hadoop 数据目录结构
mkdir -p /opt/data/hadoop/
#修改 目录结构权限为为hadoop
chown -R hadoop:hadoop /opt/modules/hadoop/
chown -R hadoop:hadoop /opt/data/hadoop/
#检查基础环境/sbin/ifconfig
[hadoop@master root]$ /sbin/ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:7A:DE:12
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fe7a:de12/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:14 errors:0 dropped:0 overruns:0 frame:0
TX packets:821 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:1591 (1.5 KiB) TX bytes:81925 (80.0 KiB)
Interrupt:67 Base address:0x2024
|
#测试命令
/sbin/ifconfig
ping master
ssh master
jps
echo $JAVA_HOME
echo $HADOOP_HOME
hadoop
6. Hadoop 单机系统 安装配置#Hadoop 文件下载和解压#切到 hadoop 安装路径下
cd /opt/modules/hadoop/
#从 hadoop.apache.org 下载Hadoop 安装文件
wget http://labs.renren.com/apache-mirror/hadoop/common/hadoop-1.0.3/hadoop-1.0.3.tar.gz
#如果已经下载请复制文件到 安装hadoop 文件夹
cp hadoop-1.0.3.tar.gz /opt/modules/hadoop/
#加压 复制或者下载的Hadoop 文件
cd /opt/modules/hadoop/
tar -xzvf hadoop-1.0.3.tar.gz
hadoop
#配置 hadoop-env.sh 环境变量#配置Hadoop 最大HADOOP_HEAPSIZE 大小, 默认 为 1000,因为虚拟机最大内存配置512m,这里配置较小。
#配置 压缩类库地址
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hadoop-env.sh
export HADOOP_HEAPSIZE=32
export JAVA_LIBRARY_PATH=/opt/hadoopgpl/native/Linux-amd64-64:/opt/modules/hadoop/hadoop-1.0.3/lib/native/Linux-amd64-64
|
#Hadoop Common组件 配置 core-site.xml #编辑 core-site.xml 文件
vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
<!--hadoop namenode 服务器地址和端口,以域名形式-->
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>/opt/data/hadoop/hdfs/namesecondary</value>
<!--hadoop secondary 数据存储路径,可以配置成多个目录,用,号分隔。-->
</property>
<property>
<name>fs.checkpoint.period</name>
<value>1800</value>
<!-- editlog 每隔 30分钟 触发一次合并 -->
</property>
<property>
<name>fs.checkpoint.size</name>
<value>33554432</value>
<!-- editlog 达到32m的时候触发一次合并 -->
</property>
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
<!-- 配置 Hadoop 压缩包 -->
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
<description>Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天。</description>
</property>
</configuration>
|
|
|
|