Cloudera Manager5安装总结遇到问题及解决办法 - About云-梭伦科技

上传

点击文件名下载附件

图1
解决方案，需要清理安装失败文件
卸载 Cloudera Manager 5.1.x.和相关软件【官网翻译：高可用】

问题3：DNS反向解析PTR localhost：

描述：

DNS反向解析错误，不能正确解析Cloudera Manager Server主机名
日志：

Detecting Cloudera Manager Server...
Detecting Cloudera Manager Server...
BEGIN host -t PTR 192.168.1.198
198.1.168.192.in-addr.arpa domain name pointer localhost.
END (0)
using localhost as scm server hostname
BEGIN which python
/usr/bin/python
END (0)
BEGIN python -c 'import socket; import sys; s = socket.socket(socket.AF_INET); s.settimeout(5.0); s.connect((sys.argv[1], int(sys.argv[2]))); s.close();' localhost 7182
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "<string>", line 1, in connect
socket.error: [Errno 111] Connection refused
END (1)
could not contact scm server at localhost:7182, giving up
waiting for rollback request

解决方案：

将连不上的机器 /usr/bin/host 文件删掉,执行下面命令：
sudo mv /usr/bin/host /usr/bin/host.bak
复制代码

说明：
不明白cloudera的初衷，这里已经得到 Cloudera Manager Server的ip了，却还要把ip解析成主机名来连接
由于DNS反向解析没有配置好，根据Cloudera Manager Server 的ip解析主机名却得到了localhost，造成之后的连接错误
这里的解决方案是直接把/usr/bin/host删掉，这样Cloudera Manager就会直接使用 ip进行连接，就没有错了
参考：

问题 4 NTP:

问题描述：

Bad Health --Clock Offset

The host's NTP service did not respond to a request for the clock offset.

解决：

配置NTP服务

步骤参考：

CentOS配置NTP Server:

http://www.hailiangchen.com/centos-ntp/

国内常用NTP服务器地址及IP

http://www.douban.com/note/171309770/

修改配置文件：
[root@work03 ~]# vim /etc/ntp.conf

# Use public servers from the pool.ntp.org project.

# Please consider joining the pool (http://www.pool.ntp.org/join.html).

server s1a.time.edu.cn prefer

server s1b.time.edu.cn

server s1c.time.edu.cn

restrict 172.16.1.0 mask 255.255.255.0 nomodify <===放行局域网来源

启动ntp
#service ntpd restart <===启动ntp服务
客户端同步时间(work02,work03）：
ntpdate work01
说明：NTP服务启动需要大约五分钟时间，服务启动之前，若客户端同步时间，则会出现错误“no server suitable for synchronization found”
定时同步时间：
在work02和 work03上配置crontab定时同步时间

crontab -e
00 12 * * * root /usr/sbin/ntpdate 192.168.56.121 >> /root/ntpdate.log 2>&1
问题 2.2
描述：
Clock Offset

Ensure that the host's hostname is configured properly.

Ensure that port 7182 is accessible on the Cloudera Manager Server (check firewall rules).

Ensure that ports 9000 and 9001 are free on the host being added.

Check agent logs in /var/log/cloudera-scm-agent/ on the host being added (some of the logs can be found in the installation details).

问题定位：

在对应host（work02、work03）上运行 'ntpdc -c loopinfo'
[root@work03 work]# ntpdc -c loopinfo
ntpdc: read: Connection refused

解决：

开启ntp服务：
三台机器都开机启动 ntp服务
chkconfig ntpd on

问题 5 heartbeat:

错误信息：

Installation failed. Failed to receive heartbeat from agent.

解决：关闭防火墙

问题 6 Unknow Health：

Unknow Health
重启后：Request to theHost Monitor failed.
service --status-all| grep clo
机器上查看scm-agent状态：cloudera-scm-agent dead but pid file exists
解决：重启服务
service cloudera-scm-agent restart
service cloudera-scm-server restart

问题 7 canonial name hostname consistent：

Bad Health
The hostname and canonical name for this host are not consistent when checked from a Java process.
canonical name：
4092 Monitor-HostMonitor throttling_logger WARNING (29 skipped) hostname work02 differs from the canonical name work02.xinzhitang.com
解决：修改hosts 使FQDN和 hostname相同
ps：虽然解决了但是不明白为什么主机名和主机别名要一样
/etc/hosts
192.168.1.185 work01 work01
192.168.1.141 work02 work02
192.168.1.198 work03 work03

问题 8 Concerning Health：

Concerning Health Issue
-- Network Interface Speed --
描述：The host has 2 network interface(s) that appear to be operating at less than full speed. Warning threshold: any.
详细：
This is a host health test that checks for network interfaces that appear to be operating at less than full speed.
A failure of this health test may indicate that network interface(s) may be configured incorrectly and may be causing performance problems. Use the ethtool command to check and configure the host's network interfaces to use the fastest available link speed and duplex mode.

解决：
本次测试修改了 Cloudera Manager 的配置，应该不算是真正的解决

作者: strivecheng 时间: 2015-3-15 17:30
谢谢分享，楼主幸苦了

作者: kaka100 时间: 2015-5-14 10:58
谢谢楼主，pig2 幸苦了

作者: ray 时间: 2016-2-18 11:25
http://www.aboutyun.com/forum.ph ... id=17357&extra=

作者: laodacyn 时间: 2017-2-3 10:19
楼主你好，我的cloudera manager集群HDFS IO特别慢，检测好像是网络接口速度未全速运行，我应该怎么解决呢？ (, 下载次数: 58)

上传

点击文件名下载附件

作者: BD小菜鸟 时间: 2017-2-19 11:20
(, 下载次数: 37)

上传

点击文件名下载附件
卡住一天怎么解决啊

作者: 笑到最后899 时间: 2017-4-4 23:46

BD小菜鸟发表于 2017-2-19 11:20
卡住一天怎么解决啊

你好，我目前也遇到安装成功无法分发的情况，请问你是怎么解决的，1336004476 加个好友授教一下呗

作者: tsubasawzj 时间: 2017-4-13 14:43
我这边的版本分别是
cloudera-manager-centos7-cm5.10.1_x86_64
CDH-5.10.1-1.cdh5.10.1.p0.10-el7.parcel
centos7.2
jdk1.8.0_121

请问这个版本不对应的问题要怎么解决啊

作者: desehawk 时间: 2017-4-13 15:10

tsubasawzj 发表于 2017-4-13 14:43
我这边的版本分别是
cloudera-manager-centos7-cm5.10.1_x86_64
CDH-5.10.1-1.cdh5.10.1.p0.10-el7.parce ...

版本不对应，那就换呗。jdk需要1.7

更多信息：

Operating System	Version
Red Hat Enterprise Linux (RHEL)-compatible
RHEL (+ SELinux mode in available versions)	7.3, 7.2, 7.1, 6.8, 6.7, 6.6, 6.5, 6.4, 5.11, 5.10, 5.7
CentOS (+ SELinux mode in available versions)	7.3, 7.2, 7.1, 6.8, 6.7, 6.6, 6.5, 6.4, 5.11, 5.10, 5.7
Oracle Enterprise Linux (OEL) with Unbreakable Enterprise Kernel (UEK) and Standard Kernel	7.3, 7.2 (UEK R2), 7.1, 6.8 (UEK R3), 6.7 (UEK R3), 6.6 (UEK R3), 6.5 (UEK R2, UEK R3), 6.4 (UEK R2), 5.11, 5.10, 5.7
SLES
SUSE Linux Enterprise Server (SLES)	12 with Service Pack 1, 11 with Service Pack 4, 11 with Service Pack 3, 11 with Service Pack 2
Hosts running Cloudera Manager Agents must use SUSE Linux Enterprise Software Development Kit 11 SP1.
Ubuntu/Debian
Ubuntu	Trusty 14.04 - Long-Term Support (LTS) Precise 12.04 - Long-Term Support (LTS)
Debian	Jessie 8.4, 8.2 Wheezy 7.8, 7.1, 7.0

(, 下载次数: 32)

上传

点击文件名下载附件

来自官网：
https://www.cloudera.com/downloads/manager/5-10-1.html

作者: tsubasawzj 时间: 2017-4-13 16:13

desehawk 发表于 2017-4-13 15:10
版本不对应，那就换呗。jdk需要1.7

更多信息：

感谢回答，但是使用jdk1.7.0_67 仍旧是同样的问题

起初我用的是centos6.5
安装的是
cloudera-manager-el6-cm5.10.0_x86_64
CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel
jdk1.7.0_67

因为报这个错误所以，我才试着升级成了centos7.2
然后安装的是
cloudera-manager-centos7-cm5.10.1_x86_64
CDH-5.10.1-1.cdh5.10.1.p0.10-el7.parcel
尝试过了jdk1.7.0_67
结果没变，还是版本不适用

后来又尝试了jdk1.8.0_60
因为官网写

结果没变，还是版本不适用

作者: desehawk 时间: 2017-4-13 16:27

tsubasawzj 发表于 2017-4-13 16:13
感谢回答，但是使用jdk1.7.0_67 仍旧是同样的问题

起初我用的是centos6.5

第一楼主的图片不能显示
第二官网已经给出了，jdk1.7肯定没有问题的。
最有可能是的环境没有卸载干净。

作者: tsubasawzj 时间: 2017-4-13 17:02

desehawk 发表于 2017-4-13 16:27
第一楼主的图片不能显示
第二官网已经给出了，jdk1.7肯定没有问题的。
最有可能是的环境没有卸载干净。 ...

补上了图片

Cloudera Manager Management Daemon	5.10.1	1.cm5101.p0.6	不适用
Supervisord	3.0-cm5.10.1	不可用	不适用
Java 7	JAVA_HOME=/opt/hadoop/jdk1.7.0_67 java version "1.7.0_67" Java(TM) SE Runtime Environment (build 1.7.0_67-b01) Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)	不可用	不适用
Cloudera Manager Agent	5.10.1	1.cm5101.p0.6.el7	不适用

另外请问 Cloudera Manager Management Daemon 和Cloudera Manager Agent 为什么cdh不适用呢？
还有Supervisord 这个要怎么解决啊？我看/opt/cm-5.10.1/lib64/cmf/agent/build/env/bin/supervisord 中写死了版本3.0

# EASY-INSTALL-ENTRY-SCRIPT: 'supervisor==3.0','console_scripts','supervisord'
__requires__ = 'supervisor==3.0'
import sys
from pkg_resources import load_entry_point

if __name__ == '__main__':
sys.exit(
load_entry_point('supervisor==3.0', 'console_scripts', 'supervisord')()
)

作者: desehawk 时间: 2017-4-13 17:31

tsubasawzj 发表于 2017-4-13 17:02
补上了图片
另外请问 Cloudera Manager Management Daemon 和Cloudera Manager Agent 为什么cdh不适用呢 ...

没遇见过这种情况，不过可以肯定的是。只要统一版本，或则同一个安装包。应该不会产生这种情况的。
建议楼主，如果网络好，可以在线安装。只要配置正确，版本一致，应该不会这样的。
如果多次安装，可能会出现楼主的情况，因为环境有点乱了。所以建议楼主使用纯净的环境。

作者: tsubasawzj 时间: 2017-4-14 14:18

desehawk 发表于 2017-4-13 17:31
没遇见过这种情况，不过可以肯定的是。只要统一版本，或则同一个安装包。应该不会产生这种情况的。
建 ...

尝试完全干净的环境，还是不适用的状态，然后继续安装，全部都正常通过了。。。

作者: mjjian0 时间: 2017-4-20 10:42

laodacyn 发表于 2017-2-3 10:19
楼主你好，我的cloudera manager集群HDFS IO特别慢，检测好像是网络接口速度未全速运行，我应该怎么解决呢 ...

你好，问一下，你的这个网络接口速度的黄色报警，解决了吗，我现在也是这个问题，请教啊

作者: Meedly 时间: 2017-6-5 10:31
感谢分享

作者: tetty1984 时间: 2017-6-5 23:24

tsubasawzj 发表于 2017-4-14 14:18
尝试完全干净的环境，还是不适用的状态，然后继续安装，全部都正常通过了。。。

你好，我遇到的问题和你的是一样的，你后来怎么解决的？

作者: tsubasawzj 时间: 2017-6-6 10:36

tetty1984 发表于 2017-6-5 23:24
你好，我遇到的问题和你的是一样的，你后来怎么解决的？

无视这个错误，可以正常使用

作者: qwerty 时间: 2017-6-20 17:08

laodacyn 发表于 2017-2-3 10:19
楼主你好，我的cloudera manager集群HDFS IO特别慢，检测好像是网络接口速度未全速运行，我应该怎么解决呢 ...

你OS是什么？centos还是其他，cloudera是哪个版本？

欢迎光临 About云-梭伦科技 (https://aboutyun.com/)