Linux下系统负载LoadAverage

时间:2014-09-24 20:23 来源:linux.it.net.cn 作者:it

在linux系统中，查看当前运行的负载情况，可以用命令：w、top、uptime等。
如何通过以上命令来判断系统当前负载是否已经达到极限了呢？

本文就介绍下，如何通过loadaverage返回的数据来判断系统运行情况。

什么是Load？什么是Load Average?
Load用最通俗的语言说就是当前cpu需要干的工作量的多少。
简单的说是进程队列的长度。

Load Average 就是一段时间（1分钟、5分钟、15分钟）内平均负载。

top - 10:02:01 up 180 days, 19:34, 2 users,
load average: 2.77, 2.91, 2.72

以上数据代表1分钟，5分钟，15分钟内的CPU的平均负载。

如果系统cpu超负荷 load average会大于您机器的cpu数量，比如您机器2颗物理cpu在每颗物理cpu上又做了6颗逻辑CPU之后在每颗逻辑CPU上又实现了超线程后，假如此时你在系统中使用cat /proc/cpuinfo |grep 'processor'|wc –l返回24颗，如果load值（15分钟的返回值作为参考依据）长期在24以上，说明系统已经很繁忙了。

当然load值走高也不一定就是cpu资源紧张导致的，我们还需要结合vmstat工具进行确认和判断是cpu不足还是磁盘IO问题又或者是内存不足导致。

那么在Load average 高的情况下，如何确定系统瓶颈呢？

需要借助vmstat工具做进一步分析了。

复制代码代码示例:

	[root@localhost ~]# vmstat 1

	procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------

	 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st

	 1  0 256968  42428 159696 659584    0    0     0     0    0    0  1  0 99  0  0

	 1  0 256968  42304 159696 659584    0    0     0     0 20689 31827  1  1 98  0 0

一、procs列
r 列表示运行和等待cpu时间片的进程数，如果长期大于1，说明cpu不足，需要增加cpu。
b 列表示在等待资源的进程数，比如正在等待I/O、或者内存交换等。
wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%，如果wa超过30%，说明IO等待严重，这可能是磁盘大量随机访问造成的，也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要是块操作)。
id 列显示了cpu处在空闲状态的时间百分比

二、system 显示采集间隔内发生的中断数
in 列表示在某一时间间隔中观测到的每秒设备中断数。
cs列表示每秒产生的上下文切换次数，如当 cs 比磁盘 I/O 和网络信息包速率高得多，都应进行进一步调查。

三、memory列
memory
swpd 切换到内存交换区的内存数量(k表示)。如果swpd的值不为0，或者比较大，比如超过了100m，只要si、so的值长期为0，系统性能还是正常
free 当前的空闲页面列表中内存数量(k表示)
buff 作为buffer cache的内存数量，一般对块设备的读写才需要缓冲。
cache: 作为page cache的内存数量，一般作为文件系统的cache，如果cache较大，说明用到cache的文件较多，如果此时IO中bi比较小，说明文件系统效率比较好。

四、swap列

si 由内存进入内存交换区数量。
so由内存交换区进入内存数量。

五、IO列

bi 从块设备读入数据的总量（读磁盘）（每秒kb）。
bo 块设备写入数据的总量（写磁盘）（每秒kb）

这里我们设置的bi+bo参考值为1000，如果超过1000，而且wa值较大应该考虑均衡磁盘负载，可以结合iostat输出来分析。

六、cpu列

cpu 表示cpu的使用状态
us 列显示了用户方式下所花费 CPU 时间的百分比。us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，需要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%，如果us+sy 大于 80%说明可能存在CPU不足。

查看磁盘负载iostat

每隔2秒统计一次磁盘IO信息，直到按Ctrl+C终止程序，-d 选项表示统计磁盘信息， -k 表示以每秒KB的形式显示，-t 要求打印出时间信息，2 表示每隔 2 秒输出一次。第一次输出的磁盘IO负载状况提供了关于自从系统启动以来的统计信息。随后的每一次输出则是每个间隔之间的平均IO负载状况。

复制代码代码示例:

	[root@localhost ~]# iostat -x 1 10

	avg-cpu:  %user   %nice %system %iowait  %steal   %idle

	           0.33    0.00    0.08    0.04    0.00   99.55

	Device:         rrqm/s   wrqm/s   r/s   w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util

	sda               0.00    17.00  0.00  4.00     0.00   168.00    42.00     0.02    4.00   3.00   1.20

如果 %util 长期接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。
Idle如果长期大于70% IO压力就比较大了,这时一般读取速度有较多的wait.

(责任编辑：IT)