HD TURE和传统的磁盘分区助手对于Raid阵列是没办法了。
把RAID拆掉分开检测也不用说了,这么搞数据都没了。。。有没有什么安全可靠的办法吗?
品牌服务器带有硬盘背板的比较方便,损坏的盘会有相应的报警灯点亮。
台机或自己组的比较麻烦,一般硬盘直连阵列卡或主板集成的控制器,需要在控制器的自检界面看硬盘状态如intel的控制器,或安装相应的软件,如lsi的dsm和promise的ip页面。
两盘一般做raid0和1,对于raid0的情况,如果有成员盘故障阵列会崩溃。raid1由于是镜像,损坏一块盘仍然能正常工作,因此常常在没有发现有盘故障的情况下第二块盘故障导致数据丢失。
【常用软件】
1、MegaRAID Storage Manager
2、Hard Disk Sentinel
3、各个厂商自带的iDcard/IPMI/远程卡管理(web/cli/BIOS)
MegaRAID SAS系列raid卡可以用 MegaCli 的工具查看,MegaCli 的linux版本和windows版本网上都有。
Intel Matrix Storage Manager去下载这个软件吧,只要你是使用Intel的南桥组建的阵列,这个软件就能大幅度提升磁盘阵列的随机读取性能,我每次组阵列都会安装这个软件。
两硬盘阵列,除了raid1就是raid0。前者不用担心,反正两块硬盘的内容是一样的;后者担心也没用,raid0就是两块硬盘二合一,根本没有备份,坏了也就坏了。
常用PC服务器阵列卡、硬盘健康监控
通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管理工具来监控。
本文以几种常用的阵列卡为例,展示其阵列卡及硬盘监控的方法。
DELL SAS 6/iR卡,全称LSI Logic SAS1068E,只支持RAID 0, RAID 1, RAID 1+0, 不支持RAID 5等高级RAID特性,不支持阵列卡电池。
DELL PERC PERC H700卡,全称LSI Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
DELL PERC H310 Mini卡 ,全称LSI Logic / Symbios Logic MegaRAID SAS 2008,支持常见RAID级别,不支持高级RAID特性,不支持阵列卡电池。
IBM ServeRAID M5014 SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
IBM ServeRAID-MR10i SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 1078,支持常见RAID级别,不支持高级RAID特性,可选配阵列卡电池,这个卡其实和DELL的PERC 6/i卡是一样的,都是基于LSI MegaRAID SAS 1078基础上OEM出来的。
上面是几种常见的阵列卡型号,更多的可以自行查看官方的技术手册。
下面我们要继续的是,这些阵列卡以及硬盘如何监控,阵列卡的管理也请查看官方技术手册,不在本文讨论范畴,或者查看作者的一个分享PPT:PC服务器阵列卡管理简易手册。
一般地,支持RAID 5的卡,我们称其为阵列卡,都可以使用LSI官方提供的MegaCli工具来管理,而不支持RAID 5的卡,我们称其为SAS卡,使用lsiutil工具来管理。HP的服务器使用其特有的hpacucli工具来管理。
1、MegaCli工具
a) MegaCli -adpallinfo -aall — 查看阵列卡信息
-a 参数指定阵列卡的编号,一般服务器上只会配一个阵列卡,因此我们通常指定为 -a0(阵列卡适配器编号,从0开始) 即可,主要关注下面几个信息:
状态值 对应含义
Product Name : PERC H710 Mini 阵列卡名称
FW Package Build: 21.2.0-0007 阵列卡firmware版本号,版本如果太低,建议升级以提高稳定性及性能
BBU : Present 是否有配BBU电池
b) MegaCli -cfgdsply -aall — 查看阵列配置
状态值 对应含义
Memory: 512MB 阵列卡cache大小,2的N次方,如果不是,说明阵列卡有异常
Number of dedicated Hotspares: 0 阵列是否有专用/独享热备盘(如果有多个逻辑磁盘组/disk group,则可以指定一个硬盘用于全局热备,那么该disk group上的专用热备盘数量为0也不用担心),除了RAID 1/RAID 1+0一般不指定热备盘以外,其他几个阵列级别建议都要指定热备盘
State : Optimal 阵列状态,如果不是 Optimal 就要关注了
Current Cache Policy: WriteBack, ReadAheadNone, Direct, Write Cache OK if Bad BBU 阵列读写cache策略,建议写策略设置为FORCE WB,最起码是WB,预读策略可以关掉,意义不大,几乎没影响
Disk Cache Policy : Disabled 硬盘cache策略,建议关闭,防止意外时数据丢失
Current Power Savings Policy: None 节电策略,建议关闭
Media Error Count: 0 三个错误计数器,任何一个值大于100就要立刻引起关注,尤其要关注起增长速度。1T以上SATA盘,计数值不够精确,可能所有盘上该值都会大于0,一般重启就会重新清0,如果重启后还是大于0的话,赶紧报修吧。SAS盘的计数值则比较准确。
Other Error Count: 0
Predictive Failure Count: 0
Firmware state: Online, Spun Up 查看硬盘状态,如果是unconfigured表示该硬盘未分配加入到阵列中;如果是 unconfigured(bad)表示该盘不但是未分配,而且还坏了,正是“出师未捷身先死”;如果是failed,表示该盘故障无法识别;如果是rebuilding,表示该盘正在重建数据
c) MegaCli -adpbbucmd -aall — 查看阵列卡电池信息
状态值 对应含义
Temperature: 39 C 查看电池温度,如果相比上一次查看高出不少,就需要关注了,或者可以根据经验设置一个基线值
Battery State: Optimal 电池状态,如果不是为Optimal,就需要关注了
Charger Status: Complete 电池充放电状态
isSOHGood: Yes 电池状态,如果不是为Yes,需要关注
Relative State of Charge: 93 % 当前电量,当电量低于15%,或者电池坏掉时,默认都会将写策略从WB改成WT,除非设定为FORCE WB策略
Max Error = 0 % 电池是否有错误信息
Next Learn time: Tue Oct 14 22:06:50 2014 电池充放电时间,注意这是美国时间。另外,新的阵列卡电池很多改成电容式的了,也就不需要重复充放电了
d) MegaCli -fwtermlog -dsply -aALL 查看阵列卡日志,关注里面的error/fail/warn等多个关键字
2、lsiutil工具
lsiutil有交互和非交互两种方式,作为监控,我们肯定选择非交互模式。想要使用交互模式的,可以根据非交互模式自行练习。
a) lsiutil -p 1 -a 20,12,0,0 — 查看硬盘计数器
Invalid DWord Count 2,563 — 任何一个值大于0,都需要引起关注
Running Disparity Error Count 2,366
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
b) lsiutil -p 1 -a 21,1,0,0,0 — 查看逻辑卷状态
状态值 对应含义
Volume State: optimal, enabled 逻辑卷健康状况
Volume draws from Hot Spare Pools: 0 是否有热备
Volume Size 139392 MB, 2 Members 由几块硬盘组成
Primary is PhysDisk 1 (Bus 0 Target 9) 物理硬盘1
Secondary is PhysDisk 0 (Bus 0 Target 3) 物理硬盘0
c) lsiutil -p 1 -a 21,2,0,0,0 — 查看物理硬盘状态
状态值 对应含义
PhysDisk 0 is Bus 0 Target 3 编号
PhysDisk State: online 状态
Error Count 13, Last Error: Command = 28h, Key = 3, ASC/ASCQ = 11h/00h 错误计数器,大于0的话,就需要引起关注
3、hpacucli工具
hpacucli工具查看阵列、硬盘、电池信息,其实就只要一条指令:
hpacucli ctrl all show config detail — 查看阵列详细信息、配置
状态值 对应含义
Controller Status: OK 阵列卡状态
Firmware Version: 1.18 firmware版本,太低了建议升级,以提高稳定性及性能
Cache Board Present: True 是否配备了cache模块
Cache Status: OK cache模块状态
Cache Ratio: 100% Read / 0% Write cache策略,此处只有读cache,不用于写cache,因为没有bbu电池,见下方结果
Drive Write Cache: Disabled 关闭磁盘cache
Total Cache Size: 256 MB cache大小
Total Cache Memory Available: 208 MB 实际可用cache大小,和理论cache大小不一样,说明cache模块可能有问题
No-Battery Write Cache: Disabled 关闭FORCEWB策略
Battery/Capacitor Count: 0 阵列卡BBU电池数量为0,也就是没有BBU模块
Battery/Capacitor Status: Failed (Replace Batteries) 阵列卡BBU电池状态,这里显示是错误状态,需要及时更换
Array: A 第一个乌列阵列,编号从A开始,依次是A、B、C
Status: OK 物理阵列状态
Logical Drive: 1 第一个逻辑卷,编号从1开始
Fault Tolerance: RAID 5 第一个逻辑卷的阵列级别
Status: OK 第一个逻辑卷状态
Caching: Enabled 第一个逻辑卷是否启用了cache策略
physicaldrive 1I:1:1 第一块物理硬盘,编号从1开始
Status: OK 第一块物理硬盘状态
Firmware Revision: HPDA 第一块物理硬盘firmware,如果太低,也需要及时升级,HP的硬盘每个批次都有不同的firmware
常见磁盘阵列监控软件和方案
1、nagios监控raid磁盘阵列(Fusion-MPT SAS系列raid卡 ioc0)- https://cloud.tencent.com/info/4e6151a578e7e3489ea67e63dab23cc1.html
2、Dell服务器各种RAID卡介绍及监控方法 - yJken的博客 - 博客园 https://www.cnblogs.com/yjken/articles/3843216.html
3、Zabbix通过MegaCli实现对LSI Raid卡硬盘监控(LLD) - CSDN博客 https://blog.csdn.net/n88Lpo/article/details/78099152
4、刀片服务器和磁盘阵列卡(RAID)技术---永和维护(转) - 李克华 - 博客园 https://www.cnblogs.com/likehua/p/3682136.html
5、Vmware ESXi查看RAID健康状态 - CSDN博客 https://blog.csdn.net/yxwmzouzou/article/details/78959560
6、MegaCli监控RAID磁盘健康信息 - Tony_Deng - 博客园 https://www.cnblogs.com/tony-d/p/5675096.html
7、磁盘阵列卡 远程监控(MegaRAID Storage Manager)- CSDN博客 https://blog.csdn.net/tangs_/article/details/79504431
8、MegaRAID Storage Manager配置指南_ https://wenku.baidu.com/view/a5c8f05778563c1ec5da50e2524de518964bd381.html
基于linux系统的megaRAID卡安装megacli工具后再下个 check_megaraid_sas 插件就能结合nagios监控,但是windows2003系统,安装megacli Windows版的工具后还需要自己写插件结合nagios监控,因为check_megaraid_sas没有windows版的,这里先写一个megaRAID卡基于windows系统的监控。——插件是Python的哦 可以自由发挥修改和二次开发。
megacli介绍、安装、使用、crontab监控脚本
查看RAID信息的工具有mpt-status、megarc、dell OpenManage。经测试只有megacli可以实现目标,dell OpenManage由于较大90M左右没有安装。
megacli工具非常强大,不仅能查看RAID卡信息,而且还能设置RAID卡,但是不支持SAS 6/iR的RAID卡,不推荐采用megacli在线设置RAID卡,本文也仅用于监控挂接在RAID上的硬盘状态。
1、查看raid卡的型号:
root@3:~# lspci |grep RAID H700
02:00.0 RAID bus controller: LSI Logic / Symbios Logic Device 0079 (rev 04)
root@3:~# lspci |grep RAID PERC 6/i
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)
root@k:~# lspci|grep SAS SAS 6/iR
03:00.0 SCSI storage controller: LSI Logic / Symbios Logic SAS1068E PCI-Express Fusion-MPT SAS (rev 08)
2、安装megacli
root@3:~# more /etc/apt/sources.list
增加如下源:
##add monitor dell perc 6/i raidcontroller's source
deb http://hwraid.le-vert.net/debian lenny main
root@3:~# apt-get update
root@3:~# apt-get install megacli
3、使用megacli查看RAID卡信息
术语:BBU 电池备份单元(Battery Backup Unit)
常用查看命令:
megacli -LDInfo -Lall -aALL 查raid级别
megacli -AdpAllInfo -aALL 查raid卡信息
megacli -PDList -aALL 查看硬盘信息
megacli -AdpBbuCmd -aAll 查看电池信息
megacli -FwTermLog -Dsply -aALL 查看raid卡日志
megacli -adpCount 显示适配器个数
megacli -AdpGetTime –aALL 显示适配器时间
megacli -AdpAllInfo -aAll 显示所有适配器信息
megacli -LDInfo -LALL -aAll 显示所有逻辑磁盘组信息
megacli -PDList -aAll 显示所有的物理信息
megacli -AdpBbuCmd -GetBbuStatus -aALL |grep ‘Charger Status’ 查看充电状态
megacli -AdpBbuCmd -GetBbuStatus -aALL 显示BBU状态信息
megacli -AdpBbuCmd -GetBbuCapacityInfo -aALL 显示BBU容量信息
megacli -AdpBbuCmd -GetBbuDesignInfo -aALL 显示BBU设计参数
megacli -AdpBbuCmd -GetBbuProperties -aALL 显示当前BBU属性
megacli -cfgdsply -aALL 显示Raid卡型号,Raid设置,Disk相关信息
4、使用crontab定时监控硬盘状态的小脚本
该脚本实现在监控到硬盘故障时发出报警邮件,并关联到手机短信,以便通知运维人员及时处理。
root@3:~# more /backup/autobackup/autoshell/check_raid_disk_health
#!/bin/sh
log_dir=/backup/autobackup/logsum/
log_name=_raid_disk_monitor
logtime=$(date +%Y%m%d --date='1 days ago')
fix=.log
host=_`hostname`
STATUS=0
echo "Checking RAID status on $host" >$log_dir$logtime$log_name$host$fix
RAID_Contrller=`megacli -AdpAllInfo -aALL |grep "Product Name" | cut -d: -f2`
echo "Controller : $RAID_Contrller" >>$log_dir$logtime$log_name$host$fix
Online_disk_num=`megacli -PDList -aALL | grep Online | wc -l`
echo "Totall number of Physical disks online : $Online_disk_num" >>$log_dir$logtime$log_name$host$fix
Degrade_disk=`megacli -AdpAllInfo -a0 |grep "Degrade"`
echo $Degrade_disk >>$log_dir$logtime$log_name$host$fix
Degrade_disk_num=`echo $Degrade_disk |cut -d" " -f3`
Failed_disk=`megacli -AdpAllInfo -a0 |grep "Failed Disks"`
echo $Failed_disk >>$log_dir$logtime$log_name$host$fix
Failed_disk_num=`echo $Failed_disk |cut -d" " -f4`
##将raid_disk_monitor.log scp到mail上
scp -P120 $log_dir$logtime$log_name$host$fix lai@60.*.*.*:/data/autobackup/logsum
ssh -p120 lai@60.1.1.1 "cat /data/autobackup/logsum//$(date +%Y%m%d --date='1 days ago')_raid*| mail -s "`echo "
/$(date +%Y'年'%m'月'%d'日' --date='1 days ago')ERROR:tv233_RAID卡硬盘报警"|iconv -f utf-8 -t gbk`" postmaster@126.co
m,1860531****@wo.com.cn -- -f www@xp.com"
[ "$Degrade_disk_num" -ne 0 ] && STATUS=1
[ "$Failed_disk_num" -ne 0 ] && STATUS=1
exit $STATUS
DELL服务器的各种RAID卡的详细参数
1、SAS 6/iR Features
This section provides the specifications of Dell邃「 Serial-Attached SCSI (SAS) 6/iR controller. The following table compares the specifications of the SAS 6/iR Adapter and SAS 6/iR Integrated.
Table 3-1. Specifications of SAS 6/iR
Specification
SAS 6/iR Adapter
SAS 6/iR Integrated
SAS technology
Yes
Yes
Support for x4, x8, or x16 PCI Express Host Interface
Yes
Yes
Form Factor
Standard-Height, Half-Length PCI Adapter
Standard-Height, Half-Length PCI on all systems except on blade servers (where the dimension do not follow industry standards) and some Precision workstations (where the controller has been integrated on the mother board)
I/O controller (IOC)
LSI SAS 1068e
LSI SAS 1068e
Core Speed: 255 MHz
Core Speed: 255 MHz
Operating voltage requirements
+12V, +3.3V, +3.3Vaux
+12V, +3.3V, +3.3Vaux
Communication to the system
PCI-E lanes
System dependent
Communication to end devices
SAS Links
SAS Links
SAS Connectors
2 x4 Internal
2 x4 Internal connectors on all systems, with two exceptions: 4 x1 on Precision workstations with controller integrated on the motherboard, no SAS connector on the controller for the blades (I/O is routed though the PCI connector)
Lead Free
Yes
Yes
Supported operating systems
Microsoftツョ Windows Serverツョ2003 Family, Windowsツョ XP, Microsoft Windows Server 2008 Family, Windows Vista邃「, Red Hatツョ Enterprise Linuxツョ Versions 4 and 5, SUSEツョ Linux Enterprise Server Version 10.
Dell-compliant SAS and SATA compatibility
Yes
Yes
Dell supported direct connected end devices
Dell-compliant physical disks
Dell-compliant physical disks
SMART error support through management applications
Yes
Yes
Backplane supported systems
Yes
Yes
Hardware-based RAID
RAID 0, RAID 1
RAID 0, RAID 1
Maximum number of virtual disks
2
2
Storage management software
OpenManage邃「 Storage Services, SAS RAID Storage Manager
OpenManage Storage Services, SAS RAID Storage Manager
NOTE:The management software that is supported depends on the specific platform.
Support for internal tape drive
No
No
Support for Global Hotspare
Yes
Yes
Maximum number of Hotspares
2
2
2、Dell所有RAID参数对比表
DellTM PERC Products
Model
Interface Support
PCI Support
SAS Connectors
Cache Memory Size
Write Back Cache
RAID Levels
Max Drive Support
RAID Support
PERC H800 Adapter
6Gb/s SAS
PCI-Express 2.0
2x4 external
512MB
512MB NV
1GB NV
Yes (TBBU)
0,1,5,6,10,50,60
192
Hardware RAID
PERC H700 Integrated / Adapter
6Gb/s SAS
PCI-Express 2.0
2x4 internal
512MB
512MB NV
1GB NV
Yes (BBU)
0,1,5,6,10,50,60
16
Hardware RAID
PERC H700 Modular
6Gb/s SAS
PCI-Express 2.0
1x4 internal
512MB
Yes (BBU)
0,1,5,6,10
4
Hardware RAID
PERC H200 Integrated / Adapter
6Gb/s SAS
PCI-Express 2.0
2x4 internal
-
-
0,1,10,supports Non-RAID
16
Hardware RAID
PERC H200 Modular
6Gb/s SAS
PCI-Express 2.0
1x4 internal
-
-
0,1,10,supports Non-RAID
4
Hardware RAID
6Gbps SAS HBA
6Gb/s SAS
PCI-Express 2.0
2x4 External
-
-
-
-
HBA Hardware
PERC 6/E Adapter
3Gb/s SAS
PCI-Express 1.0
2x4 external
512MB
256MB
Yes (TBBU)
0,1,5,6,10,50,60
144
Hardware RAID
PERC 6/I Integrated / Adapter
3Gb/s SAS
PCI-Express 1.0
2x4 internal
256MB
Yes (BBU)
0,1,5,6,10,50,60
16
Hardware RAID
PERC 6/I Modular
3Gb/s SAS
PCI-Express 1.0
1x4 internal
256MB
Yes (BBU)
0,1,5,6,10
4
Hardware RAID
CERC 6/I Modular
3Gb/s SAS
PCI-Express 1.0
1x4 internal
128MB
-
0,1,5,6,10
4
Hardware RAID
SAS 6/IR Integrated / Adapter
3Gb/s SAS
PCI-Express 1.0
2x4 internal
-
-
0,1
8
Hardware RAID
SAS 6/IR Modular
3Gb/s SAS
PCI-Express 1.0
1x4 internal
-
-
0,1
4
Hardware RAID
PERC S300
Windows OS only
3Gb/s SAS
PCI-Express 1.0
2x4 internal
-
-
0,1,10,5
8
Software RAID on HBA
PERC S100
Windows OS only
3Gb/s SAS
-
4 cabled SATA
-
-
0,1,10,5
4
Software RAID on SATA chipset
SAS 5/E HBA
3Gb/s SAS
PCI-Express 1.0
2x4 external
-
---------------------
作者:天府云创
来源:CSDN
原文:https://blog.csdn.net/enweitech/article/details/82893085
版权声明:本文为博主原创文章,转载请附上博文链接!
(责任编辑:IT) |