当前位置: > 运维管理 >

分享一个 RAID磁盘健康状态 监控脚本

时间:2016-06-04 17:03来源:linux.it.net.cn 作者:IT

参考资料:
http://blog.irq1.com/megacli-commands-to-storcli-command-conversion/
https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/MegaRAID_SUM

背景介绍:
在我们的线上环境中,有大量的物理实体服务器,主要用于对配置要求很高的Hadoop集群。
通常在这些服务器中,都配置了RAID卡并且挂载有16块大小至少为3T的硬盘,由于Hadoop集群的IO密集型特征,不少硬盘经常不堪重负而损坏,因此对RAID磁盘健康状态的检查,非常有必要。

具体配置:
整个脚本的思路如下:
1. 通过MegaCli64分别获取异常状态的信息,通常有Degrade,Offline,Critical,Failed等状态
2. 将获取到的异常状态汇总,并提取出有问题的磁盘槽位信息

脚本地址:https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/check_megaraid_status

执行示例:

 
1
2
[root@idc1-server1 ~]# /usr/local/nagios/libexec/check_megaraid_status
CRIT - Virtual Drives: {Degraded: 0, Offline: 2}, Physical Disks: {Critical: 0, Failed: 2}, Bad Drive: [{adapter: 0, enclID: 2, slot: 7, Span ref: 8, Row: 0}, {adapter: 0, enclID: 2, slot: 1, Span ref: 2, Row: 0}]

(责任编辑:IT)
------分隔线----------------------------
栏目列表
推荐内容