hadoop2.5.2 拒绝连接问题
org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown:192.168.221.139:8485: Call From node5/192.168.221.136 to node8:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:http://wiki.apache.org/hadoop/ConnectionRefused
192.168.221.138:8485: Call From node5/192.168.221.136 to node7:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:http://wiki.apache.org/hadoop/ConnectionRefused
192.168.221.137:8485: Call From node5/192.168.221.136 to node6:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:http://wiki.apache.org/hadoop/ConnectionRefused
at org.apache.hadoop.hdfs.qjournal.client.QuorumException.create(QuorumException.java:81)
at org.apache.hadoop.hdfs.qjournal.client.QuorumCall.rethrowException(QuorumCall.java:223)
at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:142)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:182)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:436)
at org.apache.hadoop.hdfs.server.namenode.JournalSet$7.apply(JournalSet.java:590)
at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:359)
at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:587)
at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1361)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1068)
at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.startActiveServices(NameNode.java:1624)
at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:63)
at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1502)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1197)
at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
at org.apache.hadoop.ha.proto.HAServiceProtocolProtos$HAServiceProtocolService$2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:585)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:928)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2013)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2009)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2007)
在执行start-dfs.sh后 namenode起来就挂掉了 。。有遇到过此问题的大神们救救我
这个问题比较复杂。看来不是三四个节点,而是,7,8个。
而且奇怪的是node5,连接node8.
建议先配置简单的集群,在配置复杂一些的。
相信这两个应该不是master吧。
如果真想搞定的话,看日志吧。不过对于楼主来讲,可能难度有些大。
Alkaloid0515 发表于 2015-9-15 10:23
这个问题比较复杂。看来不是三四个节点,而是,7,8个。
而且奇怪的是node5,连接node8.
建议先配置简单的 ...
只有四个节点,我node1-4是配置的hadoop1 ,5-8是hadoop2。。。在配置hadoop2的时候由于版本问题,在网上查各种配置文件,虽然找的都是hadoop2.5.2,但是就好多配置版本。。我开始看视频配置,老师说配置个十次二十次,才有可能找出一些门道。我还不信。。。跟着老师配置完HA+zookeeper感觉挺简单的啊。。 然后我就自己配置HBASE,感觉也挺简单的啊。。
问题·1:然后启动HBASE,HMASTER启动后就挂掉了,遇到第一个问题了。。网上各种搜,反正答案五花八门,<name>hbase.rootdir</name>就这个的value值,让我很头疼,网上各种说一定要与core-site.xml中<name>fs.defaultFS</name>value值一样一样的
,问题是我的真的是一样一样的,然后我就看日志。。日志上就说Hmaster existing,竟然还有mycluster 主机名不存在(mycluster为<name>hbase.rootdir</name>的value值。)也就是说那样配置是有问题的(我是这么想的:为啥大家都这么说还有问题啊)我自己就试着用nod5:8020,确实是没出现主机名不存在的问题(但这样指定了node5,那么另一个NameNode节点呢)。
问题2: Hmaster existing 是什么鬼。。。网上上hadoop+hbase会有版本冲突啊,要替换jar包什么的。。
以上两个问题,让我把hadoop+hbase的配置文件至少翻来覆去的改了几十次。。
然后我就请教我同学。。。他问我hadoop有没有测试过。我说没有跑程序。。只是看jps下都启动了。 然后他就回了一长串的。。。。。。。
然后我就开始怀疑的过去的人生的。。然后就去看zookeeper.out和hadoop日志。
问题3:这个问题应该是一系列的问题。。。叫做拒绝连接。。各种决绝连接。比如上面我贴出来的。。还出现了8020端口的拒绝连接。
经过我不断的修改配置文件,发现并没什么用。。比如我换8020端口为以前的9000,似乎是没出现什么拒绝连接,当访问50070时,两个节点都是standby..
问题4:NameNode启动后就有一个挂了。。
答问题5:在启动各个服务之后。。再关掉时。。no +服务,没有这个服务。。jps命令后却明明还存在。
先说说问题5:出现这种情况一般是没有指定pid的存放路径。比如hadoop-env.sh 和habse-env.sh中都有这个路径的指定。
答问题4:NameNode启动够挂掉。当然会有好多的原因。。我的主要是因为拒绝连接问题。也就是我要解决拒绝连接问题
答问题3:这一些列问题,我觉得我主要在两个方面存在错误。1、hostname 2、免密码登录
一开始我并没有修改主机名,我用hostname命令查看hostname为localhost.localdomain,在/etc/hosts里的配置增加了***.***.***.*** node5这些节点与IP的对应关系,这样虽然能够ssh连接到其它节点,但是可能会在启动hdfs或者在执行jar时抛出一些决绝连接的问题。。然后我就修改主机名。。网上说vi /etc/sysconfig/network加上hostname=**可以修改,,然而并没起作用。。然后就尝试 执行 hostname***(主机名)命令修改。后来发现reboot之后,主机名又变成了localhost.localdomain。然后我查了一下,主机名:静态、瞬态和灵活主机名,还分三种。。我就不解释了,然后我就执行
sudo hostnamectl set-hostname 主机名,全给它改了。。然后奇迹就真发生了,启动hdfs成功,访问50070也成了,上传文件也成了。 第二天,然后各种启动,问题又来了,NameNode又挂掉了。。又是拒绝连接。。然后我就vi/etc/hosts #127.0.0.1 localhost.localdomain localhost4 localhost4.localdomain4#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6再启动,好像又不出现决绝连接。。关掉所有,在启动。。zookeeper开始出现问题,又是各种决绝连接。。然后我又vi /etc/hosts增加127.0.0.1 localhostzookeeper好像是好了。。NameNode就出现了我贴出来的决绝连接问题。。。 我就想为什么,老是挂掉一个。。为什么8485端口会决绝连接。。hosts问题我相信应该是解决了的。。 今天早上,我在各种修改的时候想到了免密码登录的问题。。因为我hadoop2,是在hadoop1的认知基础上搭建的,免密码登录我只做了node5,node6为另一个NameNode节点,我并没有做免密码登录。。我这么一想,各种拒绝连接应该是这个原因吧。。做完node6的免密码登录之后,我胆战心惊的启动所有服务。。生怕它脆弱到我一碰就会碎的感觉执行了一个jar.得到了mapred的结果。。。(我在想是不是我所有问题就是这么这个啊)启动hbase。。HMASTER也没有挂掉了。。我想起了老师那句话。。至少要安装个十几二十次。。然后我这重复安装。。有一周。。。这里我就不贴出我的配置文件了。。由于版本和环境问题可能会产生误导。。最好还是能看官方文档。。。会读logs。。。敢于尝试。。。至于搜索问题,这学问是高深的。。第一步对不对,注定你的下一步。
还有一点没有说明。。就是<name>hbase.rootdir</name>的value,应该还是用<name>fs.defaultFS</name>的value,虽然用一个NameNode节点是可以,但我想既然这样就没解决单节点故障问题。。。我之前的配置会出现mycluster 主机名不存在问题,估计也是免密码登录只做了一个NameNode节点的原因。
页:
[1]