分享

cm可靠性

有没有人考虑过cm的可靠性问题,例如单点故障,当cm发生故障如何快速恢复?cm有没有ha方式,提供主备节点呢?

已有(1)人评论

跳转到指定楼层
sstutu 发表于 2018-7-12 13:33:38
本帖最后由 pig2 于 2018-7-12 14:37 编辑

很少人思考这个问题,但是正好about云群中有人遇到过。比如cloudera manager挂掉了,那么该如何恢复集群。
首先我们知道cloudera manager管理着很多的组件比如Hadoop,spark,zookeeper等等各种生态组件。
不巧的是,正好把cloudera manager的元数据库不小心给干掉了。集群挂掉一片一片的。
这时候该怎么办,数据是不能恢复了,还有没有其他办法那?
答案是有的,
首先通过命令启动各个组件,比如Hadoop,spark他们都有自己的启动命令。
如果这个时候你不懂,说明对原生生态组件就了解的太少了。
cloudera manager只是相当于一个管理员,把他们通过界面的方式管理起来。但是每个组件其实都是可以通过命令来启动关闭等。
所以万一cloudera manager 挂掉了,可以通过单独启动每个组件,比如Hadoop,spark,kafka等,作为一个救急的解决方案。
然后在统一恢复cloudera manager。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条