Hadoop在ubuntu系统下不同的安装方式

about云腾讯认证空间

本帖最后由 xng2012 于 2013-12-12 03:09 编辑

ubuntu单机伪分布式下hadoop安装

1  更新 deb 软件包列表
$ sudo apt-get update
2 安装jdk：$sudo apt-get install sun-java6-jdk  //如果出错，参照我博客上的一篇文章《安装jdk遇到的问题及解决办法》
3 设置 CLASSPATH和JAVA_HOME ，系统环境变量
   $ sudo gedit /etc/environment
   添加以下两行内容:
   CLASSPATH=".:/usr/lib/jvm/java-6-sun/lib"
   JAVA_HOME="/usr/lib/jvm/java-6-sun"
4  下载 hadoop-*.tar.gz 至 /home/shiep205/             //shiep205是用户名
   $ cd ~                               // 选择默认路径
   $ sudo tar xzf hadoop-0.20.0.tar.gz  // 解压至当前路径
   $ mv hadoop-0.20.0 hadoop       // 重命名为 hadoop
   $ sudo chown -R shiep205:shiep205 hadoop //赋予shiep205 权限
5  更新 hadoop 环境变量
   $ gedit hadoop/conf/hadoop-env.sh
   将 #export JAVA_HOME=/usr/lib/jvm/java-6-sun
   改为export  JAVA_HOME=/usr/lib/jvm/java-6-sun
//  即export  JAVA_HOME=****/****，*处改为自己的路径
6  配置 SSH                //此步不需要改动，一步步输入终端即可
   $ sudo apt-get install ssh
   $ sudo apt-get install rsync  //远程同步, 可能已经安装了最新版本
   $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
   $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
   $ ssh localhost             //  验证配置成功与否
7  伪分布运行模式是在运行在单个机器之上, 每一个 hadoop 的守护进程为一个单独的 java 进程。
(一) 配置三个文件
首先进入你存的hadoop文件夹里的conf文件夹(本例将hadoop安装在shiep205/hadoop文件夹里)
  $cd ~
  $cd  hadoop/conf
  $nano core-site.xml
即进入 conf/core-site.xml: （按下面逐个修改配置文件）
修改conf/core-site.xml:文件：
   <configuration>
      <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
      </property>
   </configuration>
修改conf/hdfs-site.xml: 文件：
   <configuration>
      <property>
         <name>dfs.replication</name>
         <value>1</value>
      </property>
   </configuration>
  修改  conf/mapred-site.xml: 文件：
   <configuration>
      <property>
         <name>mapred.job.tracker</name>
         <value>localhost:9001</value>
      </property>
   </configuration>
（二）格式化HDFS
进入hadoop主目录的bin目录下
   $cd hadoop/bin
   $./hadoop namenode -format //格式化hadoop namenode，很多时候namenode启动不起来可以试试格式化一下，会好使。
   $./start-all.sh    //启动hadoop的各个监护进程
   可以通过http://localhost:50070 和http://localhost:50030 查看namenode和jobtracker。
   $./stop-all.sh //关闭hadoop的各个监护进程

xng2012 · 发表于 2013-12-12 03:19:07

vm下ubuntu集群安装hadoop

1、在wm下安装ubuntu9.10

2、更新deb软件包列表：$ sudo apt-get update

3、安装系统更新 $ sudo apt-get upgrade

4、安装JDK

$ sudo apt-get install sun-java6-jdk //默认路径为：/usr/lib/jvm

5、设置CALSSPATH和JAVA_HOME

$ sudo gedit /etc/environment

添加：CLASSPATH=”.:/usr/lib/jvm/java-6-sun/lib”

JAVA_HOME=”/usr/lib/jvm/java-6-sun”

6、调整系统虚拟机的优先顺序

$ sudo gedit /etc/jvm

在文件顶部添加一行

/usr/lib/jvm/java-6-sun

如果文件/etc/jvm不存在则自己新建

7、下载hadoop-0.20.0.tar.gz

$ cd /home/fly //设当前用户名为：fly

$ sudo tar xzf hadoop-0.20.0.tar.gz //解压

$ mv hadoop-0.20.0 hadoop //重命名文件夹

$ sudo chown –R fly:fly hadoop //赋于fly权限

8、更新hadoop环境变量

$ gedit hadoop/conf/hadoop-env.sh

将#export JAVA_HOME= *** 这一行改为：

export JAVA_HOME=/usr/lib/jvm/java-6-sun

9、配置ssh

$ sudo apt-get install ssh

$ sudo apt-get install rsync

$ ssh-keygen –t dsa –P ‘’ –f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ ssh localhost //验证配置成功与否

10、在wm下复制出另外两个虚拟机，并分别把这三个虚线拟分别更名为：dream1、dream2、dream3（更改主机名的方法在这就不写了。）

建立三个虚拟机的通信：

安装过wm后，电脑网络连接里会多出现两个网络连接

设置共享原来的本地连接：

设置虚拟机连接：

其中的IP自己设，DNS可不设置。

在dream1虚拟机里添加一个网络连接设置：

分别再设置另两个dream2,dream3的IP分别为：192.168.100.126、192.168.100.127

注意：今后如需连接互联网则用以前默认的自动获取IP的连接：auto eth0, 三个虚拟机通信见则切换联接：wired connection1

1010.Namenode :dream1

Datenode:dream2\dream3

11、（每个虚拟机都要做）

$ sudo gedit /etc/hosts

添加数据：

192.168.100.125 dream1

192.168.100.126 dream2

192.168.100.127 dream3

12、配置SSH（保证无密码访问）

在dream2\dream3上分别执行

$ scp fly@dream1:/home/fly/.ssh/id_dsa.pub /home/fly/.ssh/dream1_dsa.pub

$ cat ~/.ssh/dream1.pub >> ~/.ssh/authorized_keys

在dream1上执行

$ scp fly@dream1:/home/fly/.ssh/id_dsa.pub /home/fly/.ssh/dream1_dsa.pub

$ cat ~/.ssh/dream1.pub >> ~/.ssh/authorized_keys

13、配置conf/masters , conf/slaves

在所有节点上：

<hadoop 目录>/conf/masters加入一行：dream1

<hadoop 目录>/conf/slaves加入行：

dream2

dream3

14、配置core-site.xml , hdfs-site.xml , mapred-site.xml

core-site.xml:

hdfs-site.xml:

mapred-site.xml:

15、格式化分布式文件系统在namenode上

$ sudo bin/hadoop namenode –format

启动HDFS，在namenode上

$ bin/start-all.sh

$ bin/stop-all.sh

xng2012 · 发表于 2013-12-12 03:20:46

在Linux 的Ubuntu上装Hadoop

在装Hadoop之前首先需要：

1.java1.6.x 最好是sun的，1.5.x也可以

2.ssh

安装ssh

$ sudo apt-get install ssh

$ sudo apt-get install rsync

下载Hadoop

从http://hadoop.apache.org/core/releases.html 下载最近发布的版本

最好为hadoop创建一个用户:

比如创建一个group为hadoop user为hadoop的用户以及组

$ sudo addgroup hadoop

$ sudo adduser --ingroup hadoop hadoop

解压下载的hadoop文件，放到/home/hadoop目录下名字为hadoop

配置JAVA_HOME:

gedit ~/hadoop/conf/hadoop-env.sh

将Java代码

1. # The java implementation to use. Required.

2. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun

# The java implementation to use. Required.

# export JAVA_HOME=/usr/lib/j2sdk1.5-sun

修改成java的安装目录：

# The java implementation to use. Required.

export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.15

现在可以使用单节点的方式运行：

$ cd hadoop

$ mkdir input

$ cp conf/*.xml input

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

$ cat output/*

Pseudo-distributed方式跑:

配置ssh

$ su - hadoop

$ ssh-keygen -t rsa -P ""

Generating public/private rsa key pair.

Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):

Created directory '/home/hadoop/.ssh'.

Your identification has been saved in /home/hadoop/.ssh/id_rsa.

Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.

The key fingerprint is:

9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu

让其不输入密码就能登录：

hadoop@ubuntu:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

使用：

$ ssh localhost

看看是不是直接ok了。

hadoop配置文件：

conf/core-site.xml

Java代码

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3.

4.

5.

6. <configuration>

7. <property>

8. <name>hadoop.tmp.dir</name>

9. <value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value>

10. </property>

11. <property>

12. <name>fs.default.name</name>

13. <value>hdfs://localhost:9000</value>

14. </property>

15. </configuration>

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value>

</property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

hadoop.tmp.dir配置为你想要的路径，${user.name}会自动扩展为运行hadoop的代码

1. <configuration>

2. <property>

3. <name>dfs.replication</name>

4. <value>1</value>

5. </property>

6. </configuration>

<name>dfs.replication</name>

</property>

</configuration>

dfs.replication为默认block复制数量

conf/mapred-site.xml

Xml代码

1. <configuration>

2. <property>

3. <name>mapred.job.tracker</name>

4. <value>localhost:9001</value>

5. </property>

6. </configuration>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

执行

格式化分布式文件系统：

$ bin/hadoop namenode -format

启动hadoop：

Java代码

1. $ bin/start-all.sh

$ bin/start-all.sh

可以从

NameNode - http://localhost:50070/

JobTracker - http://localhost:50030/

查看NameNode和JobTracker

运行例子：

$ bin/hadoop fs -put conf input

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

look at the run result:

$ bin/hadoop fs -get output output

$ cat output/*

图文精华

Hadoop在ubuntu系统下不同的安装方式

已有(2)人评论

推荐 /2