Hadoop 单机系统 安装配置
本帖最后由 nettman 于 2013-11-13 23:54 编辑这个单击配置只是给大家学习用,如果有条件的,尽量采用集群,因为集群才是hadoop的真正意义所在。
1. Hadoop 单机系统安装配置#Hadoop 文件下载和解压#切到 hadoop 安装路径下cd /opt/modules/hadoop/ #从 hadoop.apache.org 下载Hadoop 安装文件wget http://labs.renren.com/apache-mi ... hadoop-1.0.3.tar.gz #如果已经下载请复制文件到安装hadoop 文件夹cp hadoop-1.0.3.tar.gz /opt/modules/hadoop/ #加压 复制或者下载的Hadoop 文件cd /opt/modules/hadoop/tar -xzvf hadoop-1.0.3.tar.gzhadoop #配置 hadoop-env.sh 环境变量#配置Hadoop 最大HADOOP_HEAPSIZE大小, 默认为 1000,因为虚拟机最大内存配置512m,这里配置较小。#配置 压缩类库地址vi/opt/modules/hadoop/hadoop-1.0.3/conf/hadoop-env.sh export HADOOP_HEAPSIZE=32 export JAVA_LIBRARY_PATH=/opt/hadoopgpl/native/Linux-amd64-64:/opt/modules/hadoop/hadoop-1.0.3/lib/native/Linux-amd64-64
#Hadoop Common组件 配置 core-site.xml #编辑 core-site.xml 文件vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://master:9000</value> <!--hadoop namenode 服务器地址和端口,以域名形式--> </property> <property> <name>fs.checkpoint.dir</name> <value>/opt/data/hadoop/hdfs/namesecondary</value> <!--hadoop secondary 数据存储路径,可以配置成多个目录,用,号分隔。--> </property> <property> <name>fs.checkpoint.period</name> <value>1800</value> <!-- editlog 每隔 30分钟 触发一次合并 --> </property> <property> <name>fs.checkpoint.size</name> <value>33554432</value> <!-- editlog 达到32m的时候触发一次合并 --> </property> <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value> <!-- 配置 Hadoop 压缩包 --> </property> <property> <name>fs.trash.interval</name> <value>1440</value> <description>Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天。</description> </property> </configuration>
#HDFS NameNode,DataNode组建配置hdfs-site.xmlvi /opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>dfs.name.dir</name> <value>/opt/data/hadoop/hdfs/name,/data1/hadoop/hdfs/name,/nfs/name</value> <!--HDFS namenode image 文件保存地址--> <description> </description> </property> <property> <name>dfs.data.dir</name> <value>/opt/data/hadoop/hdfs/data,/data1/hadoop/hdfs/data</value> <!-- HDFS数据文件 存储路径,可以配置多个不同的分区和磁盘中,使用,号分隔 --> <description> </description> </property> <property> <name>dfs.http.address</name> <value>master:50070</value> <!---HDFS Web查看主机和端口--> </property> <property> <name>dfs.secondary.http.address</name> <value>node1:50090</value> <!--辅控HDFS web查看主机和端口--> </property> <property> <name>dfs.replication</name> <value>3</value> <!--HDFS数据保存份数,通常是3--> </property> <property> <name>dfs.datanode.du.reserved</name> <value>1073741824</value> <!-- datanode 写磁盘会预留 1G空间 给其他程序使用,而非写满,单位 bytes-> </property> <property> <name>dfs.block.size</name> <value>134217728</value> <!--HDFS数据块大小,当前设置为128M/Block--> </property> <property> <name>dfs.permissions</name> <value>false</value> <!-- HDFS 关闭文件权限 --> </property> </configuration>
#配置MapReduce - JobTracker TaskTracker 启动配置
vi /opt/modules/hadoop/hadoop-1.0.3/conf/mapred-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
<!--JobTracker rpc主机和端口-->
</property>
<property>
<name>mapred.local.dir</name>
<value>/opt/data/hadoop/mapred/mrlocal</value>
<!--MapReduce 产生的中间文件数据,按照磁盘可以配置成多个-->
<final>true</final>
</property>
<property>
<name>mapred.system.dir</name>
<value>/opt/data/hadoop/mapred/mrsystem</value>
<final>true</final>
<!-- MapReduce的系统控制文件-->
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
<final>true</final>
<!-- 最大map槽位数量,默认是3个 -->
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
<final>true</final>
<!-- 单台机器最大reduce槽位数量 -->
</property>
<property>
<name>io.sort.mb</name>
<value>32</value>
<final>true</final>
<!--reduce排序使用内存大小,默认100M,要小于mapred.child.java.opts-->
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx64M</value>
<!-- map 和 reduce 进程 JVM 最大内存配置
机器总内存 = 系统+ datanode + tasktracker + (map + reduce) 16*? -->
</property>
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<!-- map 和 reduce 输出中间文件默认开启压缩 -->
</property>
</configuration>
#Hadoop单机系统,启动执行和异常检查
描述系统重启,启动,停止,升级,以及其他故障的处理方式
#创建Hadoop mapred 和 hdfs namenode 和 datanode 目录 在 root 下
mkdir -p /data/hadoop/
chown -R hadoop:hadoop /data/*
#切换到 hadoop 用户下
su hadoop
#创建mapreduce
mkdir -p /opt/data/hadoop/mapred/mrlocal
mkdir -p /opt/data/hadoop/mapred/mrsystem
mkdir -p /opt/data/hadoop/hdfs/name
mkdir -p /opt/data/hadoop/hdfs/data
mkdir -p /opt/data/hadoop/hdfs/namesecondary
#启动 切换到hadoop用户
su hadoop
#格式化文件
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop namenode -format
#启动 Master node :
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start namenode
#启动 JobTracker:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start jobtracker
#启动 secondarynamenode:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start secondarynamenode
#启动 DataNode && TaskTracker:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start datanode
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start tasktracker
停止,命令相同,将start换为stop
#出现错误可查看日志
tail -f /opt/modules/hadoop/hadoop-1.0.3/logs/*
页:
[1]