分享一个 RAID磁盘健康状态监控脚本

时间:2016-06-04 17:03 来源:linux.it.net.cn 作者:IT

参考资料：
http://blog.irq1.com/megacli-commands-to-storcli-command-conversion/
https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/MegaRAID_SUM

背景介绍：
在我们的线上环境中，有大量的物理实体服务器，主要用于对配置要求很高的Hadoop集群。
通常在这些服务器中，都配置了RAID卡并且挂载有16块大小至少为3T的硬盘，由于Hadoop集群的IO密集型特征，不少硬盘经常不堪重负而损坏，因此对RAID磁盘健康状态的检查，非常有必要。

具体配置：
整个脚本的思路如下：
1. 通过MegaCli64分别获取异常状态的信息，通常有Degrade,Offline,Critical,Failed等状态
2. 将获取到的异常状态汇总，并提取出有问题的磁盘槽位信息

脚本地址：https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/check_megaraid_status

执行示例：

1 2	[root@idc1-server1 ~]# /usr/local/nagios/libexec/check_megaraid_status CRIT - Virtual Drives: {Degraded: 0, Offline: 2}, Physical Disks: {Critical: 0, Failed: 2}, Bad Drive: [{adapter: 0, enclID: 2, slot: 7, Span ref: 8, Row: 0}, {adapter: 0, enclID: 2, slot: 1, Span ref: 2, Row: 0}]

(责任编辑：IT)

分享一个 RAID磁盘健康状态 监控脚本

时间:2016-06-04 17:03 来源:linux.it.net.cn 作者:IT

分享一个 RAID磁盘健康状态监控脚本