本文介绍使用shell脚本对Linux系统和进程资源进行监控,讲解很详细,并有实例代码,很实用的文章。
检查进程是否存在 清单 1. 对进程进行监控
复制代码代码如下:
function GetPID #User #Name
{ PsUser=$1 PsName=$2 pid=`ps -u $PsUser|grep $PsName|grep -v grep|grep -v vi|grep -v dbxn |grep -v tail|grep -v start|grep -v stop |sed -n 1p |awk '{print $1}'` echo $pid }
示例演示:
复制代码代码如下:
PID=`GetPID root CFTestApp`
echo $PID
2)结果输出
复制代码代码如下:
11426
[dyu@xilinuxbldsrv shell]$
3)结果分析
4)命令介绍
2. grep: 用于查找文件中符合字符串的当前行。
3. sed: 一个非交互性文本编辑器,它编辑文件或标准输入导出的文件,一次只能处理一行内容。
4. awk:一种编程语言,用于在 linux/unix 下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自
复制代码代码如下:
The process does not exist.
# 检查进程是否存在 if [ "-$PID" == "-" ] then { echo "The process does not exist." } fi 检测进程 CPU 利用率 在对应用服务进行维护时,我们经常遇到由于 CPU 过高导致业务阻塞,造成业务中断的情况。CPU 过高可能由于业务量过负荷或者出现死循环等异常情况,通过脚本对业务进程 CPU 进行时时监控,可以在 CPU 利用率异常时及时通知维护人员,便于维护人员及时分析,定位,以及避免业务中断等。下面的函数可获得指定进程 ID 的进程 CPU 利用率。它有一个参数为进程 ID,它首先使用 ps 查找进程信息,同时通过 grep -v 过滤掉 %CPU 行,最后通过 awk 查找 CPU 利用百分比的整数部分(如果系统中有多个 CPU,CPU 利用率可以超过 100%)。 清单 2. 对业务进程 CPU 进行实时监控
复制代码代码如下:
function GetCpu
{ CpuValue=`ps -p $1 -o pcpu |grep -v CPU | awk '{print $1}' | awk - F. '{print $1}'` echo $CpuValue } 下面的功能是通过上面的函数 GetCpu 获得此进程的 CPU 利用率,然后通过条件语句判断 CPU 利用率是否超过限制,如果超过 80%(可以根据实际情况进行调整),则输出告警,否则输出正常信息。 清单 3. 判断 CPU 利用率是否超过限制
复制代码代码如下:
function CheckCpu
{ PID=$1 cpu=`GetCpu $PID` if [ $cpu -gt 80 ] then { echo “The usage of cpu is larger than 80%” } else { echo “The usage of cpu is normal” } fi }
示例演示:
2)结果输出
3)结果分析 检测进程内存使用量 在对应用服务进行维护时,也经常遇到由于内存使用过大导致进程崩溃,造成业务中断的情况(例如 32 位程序可寻址的最大内存空间为 4G,如果超出将申请内存失败,同时物理内存也是有限的)。内存使用过高可能由于内存泄露,消息堆积等情况,通过脚本对业务进程内存使用量进行时时监控,可以在内存使用量异常时及时发送告警(例如通过短信),便于维护人员及时处理。下面的函数可获得指定进程 ID 的进程内存使用情况。它有一个参数为进程 ID,它首先使用 ps 查找进程信息,同时通过 grep -v 过滤掉 VSZ 行 , 然后通过除 1000 取以兆为单位的内存使用量。 清单 4. 对业务进程内存使用量进行监控
复制代码代码如下:
function GetMem
{ MEMUsage=`ps -o vsz -p $1|grep -v VSZ` (( MEMUsage /= 1000)) echo $MEMUsage } 下面的功能是通过上面的函数 GetMem获得此进程的内存使用,然后通过条件语句判断内存使用是否超过限制,如果超过 1.6G(可以根据实际情况进行调整),则输出告警,否则输出正常信息。 清单 5. 判断内存使用是否超过限制
复制代码代码如下:
mem=`GetMem $PID`
if [ $mem -gt 1600 ] then { echo “The usage of memory is larger than 1.6G” } else { echo “The usage of memory is normal” } fi 示例演示:
1)源程序(假设上面已经查询出 CFTestApp 的进程 ID 为 11426)
复制代码代码如下:
mem=`GetMem 11426`
echo "The usage of memory is $mem M" if [ $mem -gt 1600 ] then { echo "The usage of memory is larger than 1.6G" } else { echo "The usage of memory is normal" } fi
复制代码代码如下:
The usage of memory is 248 M
The usage of memory is normal [dyu@xilinuxbldsrv shell]$
3)结果分析 检测进程句柄使用量
在对应用服务进行维护时,也经常遇到由于句柄使用 过量导致业务中断的情况。每个平台对进程的句柄使用都是有限的,例如在 Linux 平台,我们可以使用 ulimit – n 命令(open files (-n) 1024)或者对 /etc/security/limits.conf 的内容进行查看,得到进程句柄限制。句柄使用过高可能由于负载过高,句柄泄露等情况,通过脚本对业务进程句柄使用量进行时时监控,可以在异常时及时发送告警(例如通过短信),便于维护人员及时处理。下面的函数可获得指定进程 ID 的进程句柄使用情况。它有一个参数为进程 ID,它首先使用 ls 输出进程句柄信息,然后通过 wc -l 统计输出句柄个数。
复制代码代码如下:
function GetDes
{ DES=`ls /proc/$1/fd | wc -l` echo $DES }
下面功能是通过上面的函数 GetDes获得此进程的句柄使用量,然后通过条件语句判断句柄使用是否超过限制,如果超过 900(可以根据实际情况进行调整)个,则输出告警,否则输出正常信息。
复制代码代码如下:
des=` GetDes $PID`
if [ $des -gt 900 ] then { echo “The number of des is larger than 900” } else { echo “The number of des is normal” } fi
示例演示:
复制代码代码如下:
des=`GetDes 11426`
echo "The number of des is $des" if [ $des -gt 900 ] then { echo "The number of des is larger than 900" } else { echo "The number of des is normal" } fi 2)结果输出
复制代码代码如下:
The number of des is 528
The number of des is normal [dyu@xilinuxbldsrv shell]$
3)结果分析
4)命令介绍 使用 Shell 对系统资源进行监控
查看某个 TCP 或 UDP 端口是否在监听 清单 6. 端口检测
复制代码代码如下:
function Listening
{ TCPListeningnum=`netstat -an | grep ":$1 " | n awk '$1 == "tcp" && $NF == "LISTEN" {print $0}' | wc -l` UDPListeningnum=`netstat -an|grep ":$1 " n |awk '$1 == "udp" && $NF == "0.0.0.0:*" {print $0}' | wc -l` (( Listeningnum = TCPListeningnum + UDPListeningnum )) if [ $Listeningnum == 0 ] then { echo "0" } else { echo "1" } fi }
示例演示:
复制代码代码如下:
isListen=`Listening 8080`
if [ $isListen -eq 1 ] then { echo "The port is listening" } else { echo "The port is not listening" } fi 2)结果输出
复制代码代码如下:
The port is listening
[dyu@xilinuxbldsrv shell]$
3)结果分析
4)命令介绍 下面的功能也是检测某个 TCP 或者 UDP 端口是否处在正常状态。
复制代码代码如下:
tcp: netstat -an|egrep $1 |awk '$6 == "LISTEN" && $1 == "tcp" {print $0}' udp: netstat -an|egrep $1 |awk '$1 == "udp" && $5 == "0.0.0.0:*" {print $0}'
命令介绍
查看某个进程名正在运行的个数
复制代码代码如下:
Runnum=`ps -ef | grep -v vi | grep -v tail | grep "[ /]CFTestApp" | grep -v grep | wc -l
检测系统 CPU 负载
在对服务器进行维护时,有时也遇到由于系统 CPU(利用率)负载 过量导致业务中断的情况。服务器上可能运行多个进程,查看单个进程的 CPU 都是正常的,但是整个系统的 CPU 负载可能是异常的。通过脚本对系统 CPU 负载进行时时监控,可以在异常时及时发送告警,便于维护人员及时处理,预防事故发生。下面的函数可以检测系统 CPU 使用情况 . 使用 vmstat 取 5 次系统 CPU 的 idle 值,取平均值,然后通过与 100 取差得到当前 CPU 的实际占用值。
复制代码代码如下:
function GetSysCPU
{ CpuIdle=`vmstat 1 5 |sed -n '3,$p' n |awk '{x = x + $15} END {print x/5}' |awk -F. '{print $1}' CpuNum=`echo "100-$CpuIdle" | bc` echo $CpuNum }
示例演示:
复制代码代码如下:
cpu=`GetSysCPU`
echo "The system CPU is $cpu" if [ $cpu -gt 90 ] then { echo "The usage of system cpu is larger than 90%" } else { echo "The usage of system cpu is normal" } fi
2)结果输出
复制代码代码如下:
The system CPU is 87
The usage of system cpu is normal [dyu@xilinuxbldsrv shell]$
3)结果分析
4)命令介绍 检测系统磁盘空间 系统磁盘空间检测是系统资源检测的重要部分,在系统维护维护中,我们经常需要查看服务器磁盘空间使用情况。因为有些业务要时时写话单,日志,或者临时文件等,如果磁盘空间用尽,也可能会导致业务中断,下面的函数可以检测当前系统磁盘空间中某个目录的磁盘空间使用情况 . 输入参数为需要检测的目录名,使用 df 输出系统磁盘空间使用信息,然后通过 grep 和 awk 过滤得到某个目录的磁盘空间使用百分比。
复制代码代码如下:
function GetDiskSpc
{ if [ $# -ne 1 ] then return 1 fi Folder="$1$" DiskSpace=`df -k |grep $Folder |awk '{print $5}' |awk -F% '{print $1}' echo $DiskSpace }
示例演示:
复制代码代码如下:
Folder="/boot"
DiskSpace=`GetDiskSpc $Folder` echo "The system $Folder disk space is $DiskSpace%" if [ $DiskSpace -gt 90 ] then { echo "The usage of system disk($Folder) is larger than 90%" } else { echo "The usage of system disk($Folder) is normal" } fi 2)结果输出
复制代码代码如下:
The system /boot disk space is 14%
The usage of system disk(/boot) is normal [dyu@xilinuxbldsrv shell]$
3)结果分析
4)命令介绍
总结 作者:于东海、宋波、池辰 (责任编辑:IT) |