分享

安装数据节点后节点无法运行

kass751 发表于 2017-3-22 13:30:11 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 3 11676
我在现有的Cluster中手动添加了HOST.

1, 我可以在WEBUI中找到要添加的HOST
2, HOST的HEALTHTEST是红色
    错误消息
    Agent Status   
    This host is in contact with the Cloudera Manager Server. This host is not in contact with the Host Monitor.
3,在LOG中我发现了下边的错误
    Caught unexpected exception in main loop.Traceback (most recent call last):  File "/usr/lib64/cmf/agent/build/env/lib/python2.6/site-packages/cmf-5.10.0-py2.6.egg/cmf/agent.py", line 710, in __issue_heartbeat    self._init_after_first_heartbeat_response(resp_data)  File "/usr/lib64/cmf/agent/build/env/lib/python2.6/site-packages/cmf-5.10.0-py2.6.egg/cmf/agent.py", line 881, in _init_after_first_heartbeat_response    assert response_data.get("cm_guid") is not None
AssertionError
4,我在添加的HOST中确认AGENT运行状况 , 没有问题.
   cloudera-scm-agent (pid  120080) is running...

5,我尝试了重启Host Monitor 和 SERVICE,没有效果.
6,有一点比较奇怪的是 我在HOSTLIST中发现新的HOST没有CDH的版本号,不知道是为什么.

请问我该如何继续调查?

error3.png
error2.png
error1.png

已有(3)人评论

跳转到指定楼层
tntzbzc 发表于 2017-3-22 16:07:08
检查一下 主机名 和域名配的是否正确
(1) cat /etc/hosts 注意顺序
ip 域名 主机名
192.168.*.1 master.com master
(2)cat /etc/sysconfig/network
HOSTNAME = master.com //域名哦
master中是否添加,楼主贴出来看下

回复

使用道具 举报

tntzbzc 发表于 2017-3-22 16:08:58
最好贴出来自己是如何操作的,看看落下什么步骤

下面仅供参考
1、新加机器环境配置
首先得在新的主机环境中安装JDK,关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和Python。
2、上传cloudera-manager文件到/opt目录,修改agent配置文件:
vi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.ini
server_host = Master
vim etc/cloudera-scm-agent/config.ini 设置server_host为scm机器
最好从已经运行的slave机器上scp对应的文件夹,不用修改server_host了,但是需要把对应的[/opt/cm-5.7.0/lib/cloudera-scm-agent]下的文件全部删除;同时删除[/opt/cm-5.7.0/log/cloudera-scm-agent]目录下的所有内容。
3、在代理节点添加scm管理用户
useradd --system --home=/opt/cm-5.7.0/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm
home为scm安装路径
4、启动代理服务
/opt/cm-5.0.0/etc/init.d/cloudera-scm-agent start
如启动错误,请查看scm安装路径下log文件夹下cloudera-scm-agent/cloudera-scm-agent.out
5、在主机节点CM管理页面,进行主机添加,服务添加
这时打开scm web管理页面,点击最上面导航 主机 选项即可看到新增加的节点
点击上面的向集群添加新主机即可添加,共5步
5.1、由于已经将cm agent拷贝到各机器并启动了,此处不是通过IP或hostname查找的(即使查出来也无法选择),而是已存在的主机里面选择,选择新加的agent,点继续
5.2、出现下载parcel的界面
此处多多注意不同linux版本要不同的parcel包
5.3、检查主机正确性
5.4、选择主机模板-此处可选择要安装的组件
这一步一定要选择,否则要重新分配角色。
5.5、向集群中添加主机
6、其他调优相关,参照集群首次安装时的情况,如: echo 0> /proc/sys/vm/swappiness


回复

使用道具 举报

kass751 发表于 2017-3-23 10:05:33
Hi tntzbzc,

十分感谢你的回复.

我重新检查了安装流程各部分COMMAND.发现原因是因为安装的版本和既存版本不统一造成的.

POINT
在我的最后一张图中,注意没办法取得版本号.
而在使用CDMWebUI同步DATANODE的时候,并一直是等待的状态.


LOG,根据我提示的LOG内容我查看了agent.py的代码
          if self.last_heartbeat_response is None:
            self._init_after_first_heartbeat_response(resp_data)
          assert self.cm_guid is not None
这个错误是由于没有取得回应,所以说虽然AGENT正常在HOST端执行,但是无法取得诊断信息.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条