Proxmox VE + Ceph 超融合项目实战(第八部分:OSD磁盘故障排查案例)
时间:2021-12-18 15:10 来源:linux.it.net.cn 作者:IT
八、OSD磁盘故障排查案例
-
第一步:Ceph的监控界面发现OSD掉线,但是并没有产生告警
本项目在客户现场稳定运行了半年,基本上没有出现过故障,这次去客户现场巡查,在Ceph的WEB UI监控界面中,发现了Ceph有一个OSD磁盘掉线了,如图76所示。
图76. OSD磁盘掉线
在图76中,OSD总额是18(有18块OSD磁盘),“在线”且是“进入”状态的有17块OSD磁盘,“掉线”且是“输出”状态的有1块OSD磁盘。注意,这里的“进入”和“输出”翻译得不够好,翻译成“加载”和“卸载”还比这个要好一些。
令我不解的是,OSD磁盘掉线也算是一个不大不小的故障了吧,但是在Ceph的WEB UI监控界面的告警栏中,竟然没有任何告警提示!Ceph的自带监控系统缺乏必要的告警功能,不能满足生产级的项目需求,难怪一些大厂在使用Ceph搭建分布式存储时,都使用Zabbix进行监控。
-
第二步:进一步排查,确认掉线的OSD磁盘
进一步直接从Ceph的OSD去查找掉线的OSD磁盘,最后发现在节点2上,Ceph有一个OSD.10的磁盘掉线了,如图77和图78所示。
图77. WEB UI中的Ceph OSD状态
图78. 命令行中的Ceph OSD状态
-
第三步:一顿猛如虎操作,然并卵
在Ceph后台一顿命令操作,包括OSD.10的重启、停止、启动、加载、卸载之后,OSD.10仍然无法上线,又再操作一顿命令,然并卵,直接到机房去看吧,看看哪块硬盘不亮了。
-
第四步:在机房现场找到故障硬盘
到机房之后,发现节点2服务器上有一块机械盘的灯不亮了,故障硬盘找到了,如图79所示。
图79. 节点2的机械硬盘灯不亮了
-
第五步:物理拆卸进行检查
将硬盘拆卸下来进行检查,如图80、图81所示。经现场检查,发现硬盘的两个螺丝钉在松动,插槽里边是干净的,不知道是不是跟这螺丝松动有关。
图80. 拆卸故障硬盘
图81. 检查故障硬盘
-
第六步:重新插入硬盘,对故障OSD执行“启动”、“输入”操作
将硬盘松动的那两个螺丝拧紧之后,重新将故障硬盘插入盘位中,然后执行“启动”、“输入”操作,然并卵,故障硬盘一直掉线中,如图82所示。
图82. 故障硬盘无法上线
-
第七步:向服务器厂家报故障,厂家建议故障硬盘返厂检测
折腾一阵子之后,故障硬盘始终无法上线,只好打电话给服务器硬件厂家报故障,厂家反馈白牌服务器的硬盘容易出问题,建议把故障硬盘拆卸下来,返厂进行检测。
(责任编辑:IT)
八、OSD磁盘故障排查案例
本项目在客户现场稳定运行了半年,基本上没有出现过故障,这次去客户现场巡查,在Ceph的WEB UI监控界面中,发现了Ceph有一个OSD磁盘掉线了,如图76所示。
图76. OSD磁盘掉线 在图76中,OSD总额是18(有18块OSD磁盘),“在线”且是“进入”状态的有17块OSD磁盘,“掉线”且是“输出”状态的有1块OSD磁盘。注意,这里的“进入”和“输出”翻译得不够好,翻译成“加载”和“卸载”还比这个要好一些。 令我不解的是,OSD磁盘掉线也算是一个不大不小的故障了吧,但是在Ceph的WEB UI监控界面的告警栏中,竟然没有任何告警提示!Ceph的自带监控系统缺乏必要的告警功能,不能满足生产级的项目需求,难怪一些大厂在使用Ceph搭建分布式存储时,都使用Zabbix进行监控。
进一步直接从Ceph的OSD去查找掉线的OSD磁盘,最后发现在节点2上,Ceph有一个OSD.10的磁盘掉线了,如图77和图78所示。
图77. WEB UI中的Ceph OSD状态
图78. 命令行中的Ceph OSD状态
在Ceph后台一顿命令操作,包括OSD.10的重启、停止、启动、加载、卸载之后,OSD.10仍然无法上线,又再操作一顿命令,然并卵,直接到机房去看吧,看看哪块硬盘不亮了。
到机房之后,发现节点2服务器上有一块机械盘的灯不亮了,故障硬盘找到了,如图79所示。
图79. 节点2的机械硬盘灯不亮了
将硬盘拆卸下来进行检查,如图80、图81所示。经现场检查,发现硬盘的两个螺丝钉在松动,插槽里边是干净的,不知道是不是跟这螺丝松动有关。
图80. 拆卸故障硬盘
图81. 检查故障硬盘
将硬盘松动的那两个螺丝拧紧之后,重新将故障硬盘插入盘位中,然后执行“启动”、“输入”操作,然并卵,故障硬盘一直掉线中,如图82所示。
图82. 故障硬盘无法上线
折腾一阵子之后,故障硬盘始终无法上线,只好打电话给服务器硬件厂家报故障,厂家反馈白牌服务器的硬盘容易出问题,建议把故障硬盘拆卸下来,返厂进行检测。 (责任编辑:IT) |