分享一个 RAID磁盘健康状态 监控脚本
时间:2016-06-04 17:03 来源:linux.it.net.cn 作者:IT
参考资料:
http://blog.irq1.com/megacli-commands-to-storcli-command-conversion/
https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/MegaRAID_SUM
背景介绍:
在我们的线上环境中,有大量的物理实体服务器,主要用于对配置要求很高的Hadoop集群。
通常在这些服务器中,都配置了RAID卡并且挂载有16块大小至少为3T的硬盘,由于Hadoop集群的IO密集型特征,不少硬盘经常不堪重负而损坏,因此对RAID磁盘健康状态的检查,非常有必要。
具体配置:
整个脚本的思路如下:
1. 通过MegaCli64分别获取异常状态的信息,通常有Degrade,Offline,Critical,Failed等状态
2. 将获取到的异常状态汇总,并提取出有问题的磁盘槽位信息
脚本地址:https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/check_megaraid_status
执行示例:
1
2
[root@idc1-server1 ~]# /usr/local/nagios/libexec/check_megaraid_status
CRIT - Virtual Drives: {Degraded: 0, Offline: 2}, Physical Disks: {Critical: 0, Failed: 2}, Bad Drive: [{adapter: 0, enclID: 2, slot: 7, Span ref: 8, Row: 0}, {adapter: 0, enclID: 2, slot: 1, Span ref: 2, Row: 0}]
(责任编辑:IT)
参考资料:
背景介绍:
具体配置: 脚本地址:https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/check_megaraid_status 执行示例:
(责任编辑:IT) |