> 虚拟化 Virtualization > Proxmox >

Proxmox VE + Ceph 超融合项目实战(第八部分:OSD磁盘故障排查案例)

八、OSD磁盘故障排查案例

  • 第一步:Ceph的监控界面发现OSD掉线,但是并没有产生告警

本项目在客户现场稳定运行了半年,基本上没有出现过故障,这次去客户现场巡查,在Ceph的WEB UI监控界面中,发现了Ceph有一个OSD磁盘掉线了,如图76所示。

图76. OSD磁盘掉线


在图76中,OSD总额是18(有18块OSD磁盘),“在线”且是“进入”状态的有17块OSD磁盘,“掉线”且是“输出”状态的有1块OSD磁盘。注意,这里的“进入”和“输出”翻译得不够好,翻译成“加载”和“卸载”还比这个要好一些。

令我不解的是,OSD磁盘掉线也算是一个不大不小的故障了吧,但是在Ceph的WEB UI监控界面的告警栏中,竟然没有任何告警提示!Ceph的自带监控系统缺乏必要的告警功能,不能满足生产级的项目需求,难怪一些大厂在使用Ceph搭建分布式存储时,都使用Zabbix进行监控。

  • 第二步:进一步排查,确认掉线的OSD磁盘

进一步直接从Ceph的OSD去查找掉线的OSD磁盘,最后发现在节点2上,Ceph有一个OSD.10的磁盘掉线了,如图77和图78所示。

图77. WEB UI中的Ceph OSD状态


图78. 命令行中的Ceph OSD状态


  • 第三步:一顿猛如虎操作,然并卵

在Ceph后台一顿命令操作,包括OSD.10的重启、停止、启动、加载、卸载之后,OSD.10仍然无法上线,又再操作一顿命令,然并卵,直接到机房去看吧,看看哪块硬盘不亮了。

  • 第四步:在机房现场找到故障硬盘

到机房之后,发现节点2服务器上有一块机械盘的灯不亮了,故障硬盘找到了,如图79所示。

图79. 节点2的机械硬盘灯不亮了




  • 第五步:物理拆卸进行检查

将硬盘拆卸下来进行检查,如图80、图81所示。经现场检查,发现硬盘的两个螺丝钉在松动,插槽里边是干净的,不知道是不是跟这螺丝松动有关。

图80. 拆卸故障硬盘



图81. 检查故障硬盘


  • 第六步:重新插入硬盘,对故障OSD执行“启动”、“输入”操作

将硬盘松动的那两个螺丝拧紧之后,重新将故障硬盘插入盘位中,然后执行“启动”、“输入”操作,然并卵,故障硬盘一直掉线中,如图82所示。

图82. 故障硬盘无法上线


  • 第七步:向服务器厂家报故障,厂家建议故障硬盘返厂检测

折腾一阵子之后,故障硬盘始终无法上线,只好打电话给服务器硬件厂家报故障,厂家反馈白牌服务器的硬盘容易出问题,建议把故障硬盘拆卸下来,返厂进行检测。



(责任编辑:IT)