分享

刚装的cdh,datanode全部启动不了。。



刚装的cdh 集群,hdfs的4个datanode全部有问题,不知道怎么解决了,求大神指教。

QQ截图20150622174956.png

看了一下datanode的启动日志 :

work04节点是日志包含这个异常:

java.io.IOException: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details : local host is: "work04.hadoop.com/192.168.200.244"; destination host is: "master.hadoop.com":8022;
        at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:772)
        at org.apache.hadoop.ipc.Client.call(Client.java:1472)


work01节点是日志包含这个异常:
java.io.EOFException: End of File Exception between local host is: "work01.hadoop.com/192.168.200.241"; destination host is: "master.hadoop.com":8022; : java.io.EOFException; For more details see:  http://wiki.apache.org/hadoop/EOFException
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)

在控制台执行 hadoop fs -ls / 出现如下异常  Exception in thread "main" java.lang.RuntimeException: core-site.xml not found
2.png

格式化namenode试过了,没用。

已有(5)人评论

跳转到指定楼层
Alkaloid0515 发表于 2015-6-22 18:48:35


安装的时候是否出现了中断或则异常
Exception in thread "main" java.lang.RuntimeException: core-site.xml not found

然后到cloude目录里找到配置文件,然后看看是否有core-site.xml
[mw_shl_code=bash,true]/etc/hadoop/* [/mw_shl_code]
: 客户端配置文件目录。


更多参考:
解析Cloudera Manager内部结构、功能包括配置文件、目录位置等
回复

使用道具 举报

hongqianli 发表于 2015-6-22 18:56:27
Alkaloid0515 发表于 2015-6-22 18:48
安装的时候是否出现了中断或则异常
Exception in thread "main" java.lang.RuntimeException: core-si ...


已经重装了N次了有异常有中断,每个节点的/etc/hadoop/conf.cloudera.hdfs这个目录下面都是有core-site.xml文件的

[root@master /etc/hadoop/conf.cloudera.hdfs]$pwd
/etc/hadoop/conf.cloudera.hdfs
[root@master /etc/hadoop/conf.cloudera.hdfs]$ll
总用量 40
drwxr-xr-x 2 root root 4096 6月  22 18:19 ./
drwxr-xr-x 4 root root 4096 6月  22 17:39 ../
-rw-r--r-- 1 root root   20 6月  22 16:53 __cloudera_generation__
-rw-r--r-- 1 root root 3547 6月  22 16:53 core-site.xml
-rw-r--r-- 1 root root 2546 6月  22 16:53 hadoop-env.sh
-rw-r--r-- 1 root root 1635 6月  22 18:19 hdfs-site.xml
-rw-r--r-- 1 root root  314 6月  22 16:53 log4j.properties
-rw-r--r-- 1 root root  315 6月  22 16:53 ssl-client.xml
-rw-r--r-- 1 root root  604 6月  22 16:53 topology.map
-rwxr-xr-x 1 root root 1510 6月  22 16:53 topology.py*

防火墙 ssh什么都是OK的,不知道日志里为什么会有拒绝连接




java.net.ConnectException: Call From work04.hadoop.com/192.168.200.244 to master.hadoop.com:8022 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:791)



2015-06-21 17:46:49,049 WARN com.cloudera.cmf.event.publish.EventStorePublisherWithRetry: Failed to publish event: SimpleEvent{attributes={STACKTRACE=[java.net.ConnectException: Call From work04.hadoop.com/192.168.200.244 to master.hadoop.com:8022 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)



回复

使用道具 举报

bob007 发表于 2015-6-22 21:53:40
hongqianli 发表于 2015-6-22 18:56
已经重装了N次了有异常有中断,每个节点的/etc/hadoop/conf.cloudera.hdfs这个目录下面都是有core-site ...

那就是网络问题了,中断了,谁都不好判断的。
离线安装试试
回复

使用道具 举报

bob007 发表于 2015-6-22 21:56:56
回复

使用道具 举报

hongqianli 发表于 2015-6-22 23:46:36
bob007 发表于 2015-6-22 21:53
那就是网络问题了,中断了,谁都不好判断的。
离线安装试试

CM 显示的datanode不良的情况已经找到了,因为namnode多次格式化 导致 datanode 的 /data/dfs/dn/current/VERSION 的clusterID和datanodeUuid 和
/opt/dfs/dn/current/VERSION不一致导致,修改之后重启一下就显示良好了,
但是还是有问题;

在终端输入 hadoop fs -ls  /
会提示:
ception in thread "main" java.lang.RuntimeException: core-site.xml not found
        at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:2476)
        at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:2402)
        at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:2319)
        at org.apache.hadoop.conf.Configuration.set(Configuration.java:1057)
        at org.apache.hadoop.conf.Configuration.set(Configuration.java:1029)
        at org.apache.hadoop.conf.Configuration.setBoolean(Configuration.java:1367)
        at org.apache.hadoop.util.GenericOptionsParser.processGeneralOptions(GenericOptionsParser.java:319)
        at org.apache.hadoop.util.GenericOptionsParser.parseGeneralOptions(GenericOptionsParser.java:485)
        at org.apache.hadoop.util.GenericOptionsParser.<init>(GenericOptionsParser.java:170)
        at org.apache.hadoop.util.GenericOptionsParser.<init>(GenericOptionsParser.java:153)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:64)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)
        at org.apache.hadoop.fs.FsShell.main(FsShell.java:340)



并且 jps 进程dou看不到名字,不知会不会有问题
[root@work04 /etc/hadoop/conf.cloudera.hdfs]$jps
17369 -- process information unavailable
11945 -- process information unavailable
18230 Jps




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条