搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
云技术学习
›
OpenStack服务启动故障排除经验
0
2
0
分享
OpenStack服务启动故障排除经验
徐超
发表于 2015-1-15 21:59:44
[显示全部楼层]
阅读模式
关闭右栏
2
21689
问题导读
1、如何排除OpenStack服务启动故障?
2、你是如何排除OpenStack故障的?
今天同事在配置OpenStack的计算节点(在CentOS 7上部署)时遇到一个问题,发现在控制节点上运行nova service-list发现只有4行,没有nova-compute service,让我帮他排查。
提前透露原因:这位同事在/etc/nova/nova.conf配置文件中verbose = True 写成了 verbose =Ture,我也是检查了半天(两眼对了3遍)没看出来,有点汗!
根据我以前掌握的经验,OpenStack的部署过程遇到的问题可归纳总结为配置文件问题、配置步骤缺失等,因为通常计算机不会犯错,犯错的只有人类……
故障通常有以下几种情况:
时间同步问题,两(多)个节点间时间不同步
数据库问题,权限问题,数据库缺失,表结构不存在(数据库建立表结构时出错),用户名密码错误等
软件包没有正确安装,例如国外的源网络存在波动或网站存在故障或网站临时修改了源的路径等都会导致软件包安装出现重大错误,而安装的人却没有发现
配置文件中配置出错,这种错误最为常见,往往一个不易引人注意的错误就会出现问题,就如本文刚开始的第二段所说的一样,诸如此类还有把0写成o,把1写成l,service写成server等
网络接口地址用错,例如这次的排错步骤中还发现控制节点上的endpoint-list发现public url用的是错误地址,如本地环回地址而不是管理接口地址
服务用户缺失,一般由软件bug或软件安装不正确导致,如以前有rabbitmq需要的rabbitmq不存在,导致rabbitmq的guest密码不可修改等问题。
文件权限问题,如配置文件在更换后没有配置文件权限,例如本来是root:nova的文件所有者,被换成了root:root,一定会出现服务无法正常运行的问题。
通常排错方法总结如下:
检查软件日志和系统日志,这是第一步就要做的,如果没有生成软件日志就考虑查看系统日志,可以将/var/log/messages文件清空再执行 一下相关的命令,查看此文件中的日志,可以在执行命令后没有生成日志的情况下使用此方法解决这一问题(在今天的故障排除中具有关键作用)。
删除软件包时要用rpm e packages而不要用yum erase packages,以免删除还需要用的依赖包
保留(备份)配置文件,重新安装软件包,yum reinstall packages
执行完不确定执行结果的命令后,用echo $?检查执行结果,0为没有错,1以上为有严重错误,如执行su -s /bin/sh -c "nova-manage db sync" nova时,如果遇到前面所说的数据库问题中的权限问题等就会出错,但此命令结束后并不报错。
认真比对配置文件,把注释行和空白行全部清除再做对比,grep v # /filepath/filename | grep v ^$可以实现删除注释行和空白行
坚定信念,计算机不会犯错,别人能成功,那一定是自己的错!
此次故障是如何排除的:
首先发现在控制节点上运行nova service-list发现只有4行,没有nova-compute service,可以联想到计算节点上的计算服务没有运行
经过执行systemctl status openstack-nova-compute.service -l查看详细结果,发现服务没有运行,而且显示openstack-nova-compute.service start request repeated too quickly, refusing to start. Unit systemd-journald.socket entered failed state.
此时查看nova-compute的日志文件/var/log/nova/nova-compute.log时发现文件不存在
因此,应该立刻联想到,配置文件(/etc/nova/nova.conf)一定有问题,但因为对比了2-3次后依然没有确定问题
此后我又检查了系统时间、数据库、文件权限、备份配置文件后重新安装软件包等是否存在问题,结果都全部正常,最后想到第7个步骤
可以通过系统日志查看服务启动失败的原因,先将/var/log/messages文件清空(true >/var/log/messages),再重启openstack-nova-compute.service
再观察/var/log/messages文件的内容,发现提示nova配置文件中非法的布尔型值ture,
因此在配置文件(/etc/nova/nova.conf)中找到ture的位置,将此单词改为正确的true,重新启动
在控制节点上执行校验命令nova service-list,确定无其他问题,successfully!
本文转载自:
恒天云
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
落魂草
发表于 2015-1-16 20:11:41
回复
使用道具
举报
显身卡
deadwind
发表于 2015-1-23 14:00:13
不错
感觉openstack架构太庞大了,排错更难
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
徐超
中级会员
关注
64
主题
69
帖子
14
粉丝
TA的主题
OpenStack打包方法总结
2015-4-28
Red Hat OpenStack认证
2015-4-13
OpenStack故障诊断
2015-4-9
OpenStack菜鸟级故障排除
2015-4-6
OpenStack菜鸟级服务检查
2015-4-6
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈