分享

hadoop集群添加新节点hhbase调试

问题导读
1、如何设置本机的shh免密码登陆?
2、Hadoop中如何在每个节点同步互联网时间?
3、HDFS添加删除节点并进行hdfs balance ,有哪些方法?






一、修改vi /etc/hosts 增加节点ip、(每个节点都要添加 )


二、设置hostname
  1.     vi /etc/sysconfig/network
  2.      把hostname改为node3
复制代码

    验证:重启linux
    或者:hostname 主机名(这样设置是hostname临时有效,重启后失效 )


三、先设置本机的shh免密码登陆
   操作:
    (1)产生密钥,执行命令ssh-keygen -t rsa,产生的密钥文件位于~/.ssh文件夹中
    (2)执行命令cp   ~/.ssh/id_rsa.pub   ~/.ssh/authorized_keys
    验证:
  1. ssh localhost
复制代码

    机器之间设置ssh免密码登陆
    主节点是master 从节点有node1 node2 node3 node4

    在node1上
    (1)在node1上,把node1上的公钥复制给master,执行命令ssh-copy-id -i master
    (2)在node2上,把node2上的公钥复制给master,执行命令ssh-copy-id -i master
     ……
    (3)把master上的authorized_keys复制到node1,node2,node3,node4执行命令
  1.   scp  /root/.ssh/authorized_keys   node1:/root/.ssh
  2.   scp  /root/.ssh/authorized_keys   node2:/root/.ssh
  3.       ……
复制代码


停用防火墙:service iptables stop


四、复制hadoop0上的/usr/local/jdk、/usr/local/hadoop到node1、node2、……的对应目录下
  1.         scp -r /usr/local/jdk1.7.0_60node1:/usr/local
  2.         scp -r /usr/local/jdk1.7.0_60node2:/usr/local
  3. ……
复制代码


修改namenode的配置文件conf/slaves
  1. scp -r  /usr/local/hadoop-2.2.0 node1:/usr/local
  2. scp -r  /usr/local/hadoop-2.2.0 node2:/usr/local
  3. ……
复制代码



  五、复制master上的/etc/hosts下的配置 到其他node1和node2 ……节点
  1.   scp  master:/etc/profile   node1:/etc/profile
复制代码


  并且还要在node1、node2、……上分别执行source  /etc/profile



  六、在master上执行格式化命令hadoop namenode -format
  1.    hadoop namenode -format
复制代码


错误调试
  1. WARNING: POSSIBLE DNS SPOOFING DETECTED
复制代码


与SSH服务器无关,只需把.ssh目录下的文件删除即可。下次使用ssh时文件会重建的。
出现这问题的原因一般是同一主机使用了不同的用户名登陆。(如果多个域名和多个IP同时指向同一主机,ssh仍然视为不同主机。
rm known_hosts
然后在ssh一次就好了


集群ssh配置总结
先执行ssh-keygen -t rsa,产生密钥,文件位于root/.ssh/文件夹中,然后执行cp   ~/.ssh/id_rsa.pub   ~/.ssh/authorized_keys 进行授权(其实是将本机产生的密钥放置公钥文件中)
然后将本机的公钥文件复制给master,执行命令ssh-copy-id -i master,也就是master统一管理各个节点的公钥,然后master节点执行 scp
  1. /root/.ssh/authorized_keys   node1:/root/.ssh
复制代码


会把每天机器上的公钥都会复制给node节点,这样node节点就可以通信了


六、HDFS添加删除节点并进行hdfs balance
方式1:静态添加datanode,停止namenode方式
1.停止namenode
2.修改slaves文件,并更新到各个节点
3.启动namenode
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)


方式2:动态添加datanode,不停namenode方式
1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点
2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode
3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)


针对第4点,start-balancer.sh可以执行-threshold参数。
-threshold参数是指定平衡的阈值。
-threshold的默认是10,即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量


举例:
datanode hdfs使用量1.2G;
集群总hdfs存储量10T即10000G;
则t值为1.2/10000 = 0.00012;
当执行balance的-t参数小于0.00012时,集群进行balance;
命令为:
  1. start-balancer.sh -threshold 0.0001
复制代码



注:
1. balance命令可以在namenode或者datanode上启动;
可以随时停止balance命令。
balance的默认带宽是1M/s。

2. slave文件是用于重启时使用。集群的start和stop需要读取slave文件。
启用datanode时只要在hdfs-site中配置了namenode位置,就可以将信息push给namenode。
查看namenode的http管理界面,可查看节点添加情况。


HDFS删除节点
方式1:通过dead方式(namenode上):
1.sh hadoop dfsadmin  -refreshServiceAcl
说明:dead方式并未修改slave文件和hdfs-site文件。
所以在集群重启时,该节点不会被添加到namenode的管理中。
此次在namenode上进行,其他节点可另行实验。,该命令会将该节点状态置为dead。


方式2:通过decommission方式:
a) 修改hdfs-site,添加exclude字段中的排除的节点。
b) 执行sh hadoop dfsadmin -refreshNodes,强制刷新。
c) 查看节点状态,该节点的状态为decommission。


说明:decommission方式修改了hdfs-site文件,未修改slave文件。
所以集群重启时,该节点虽然会被启动为datanode,但是由于添加了exclude,所以namenode会将该节点置为decommission。
此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。


注:
1. 如果在某个节点单独停止datanode,那么在namenode的统计中仍会出现该节点的datanode信息。
此时可通过dead或者decommission(退役)方式下线机器。


七、添加节点新节点后hbase 的HRegionServer起不来或启动治好有挂掉
hbase的conf 配置文件hbase-site.xml中的
  1.    <property>
  2.    <name>hbase.zookeeper.quorum</name>
  3.    <value>node1,node2,node3,node4,node5</value>  
  4.    </property>
复制代码


建议位奇数个节点
  1. regionservers
  2. node1
  3. node2
  4. node3
  5. node4
  6. node5
复制代码


建议也位奇数个
如果HRegionServer还是启动不起来,报错如下:
  1. Exception in thread "regionserver60020" java.lang.NullPointerException
  2. at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:882)
  3. at java.lang.Thread.run(Thread.java:745)
复制代码


那么就需要看看各个节点的时间是否相同
命令如下:
  1. date
复制代码


修改
  1. date -s 修改的时间
复制代码


也可以每个节点同步一下互联网时间;
命令如下:
  1. ntpdate time-a.nist.gov
复制代码

然后在重新start-hbase.sh( hadoop集群开启的情况下)、

OK!祝你好运!


没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条