Linux 如何查看系统负载

操作系统的负载状态,反映了应用程序的资源使用情况,从中能找出应用程序优化的瓶颈所在。

系统平均负载,是指处于运行或不可打扰状态的进程的平均数。\
处于运行,表示运行态,占用CPU,或就绪态,等待CPU调度。\
不可打扰,表示阻塞,正在等待I/O

在 Linux 系统中,要查看负载情况一般使用 uptime 命令(w 命令和 top 命令也行)*

一、uptime 命令

$ uptime\
16:33:56 up 69 days,  5:10,  1 user,  load average: 0.14, 0.24, 0.29

以上信息的解析如下:

  • 16:33:56 : 当前时间
  • up 69 days, 5:10 : 系统运行了69天5小时10分
  • 1 user : 当前有1个用户登录了系统load average: 0.14, 0.24, 0.29 : 系统在过去1分钟内,5分钟内,15分钟内的平均负载
  • load average: 0.14, 0.24, 0.29 : 系统在过去1分钟内,5分钟内,15分钟内的平均负载

平均负载解析

查看逻辑 CPU 核心数:

$ grep 'model name' /proc/cpuinfo | wc -l\
1\

运行结果表示,有 1 个逻辑 CPU 核心。以1个CPU核心为例,假设 CPU 每分钟最多处理100个进程 

  • load=0,没有进程需要 CPU
  • load=0.5,CPU处理了 50 个进程
  • load=1, CPU 处理了 100 个进程,这时 CPU 已被占满,但系统还是能顺畅运作的
  • load=1.5, CPU 处理了 100 个进程,还有 50 个进程正在排除等着 CPU 处理,这时,CPU 已经超负荷工作了

为了系统顺畅运行,load 值最好不要超过 1.0,这样就没有进程需要等待了,所有进程都能第一时间得到处理。\
很显然,1.0 是一个关键值,超过这个值,系统就不在最佳状态了。 一般 0.7 是一个比较理想的值。\
另外,load 值的健康状态还跟系统 CPU 核心数相关,如果 CPU 核心数为 2,那么 load 值健康值应该为 2,以此类推。 \
评价系统的负载一般采用 15 分钟内的那个平均负载值。

二、w 命令

$ w\
 17:47:40 up 69 days,  6:24,  1 user,  load average: 0.46, 0.26, 0.25\
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT\
lvinkim  pts/0    14.18.144.2      15:55    0.00s  0.02s  0.00s w

第1行 : 与 uptime 一相同。 \
第2行以下,当前登录用户的列表。

三、top 命令

$ top\
top - 17:51:23 up 69 days,  6:28,  1 user,  load average: 0.31, 0.30, 0.26\
Tasks:  99 total,   1 running,  98 sleeping,   0 stopped,   0 zombie\
Cpu(s):  2.3%us,  0.2%sy,  0.0%ni, 97.4%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st\
Mem:   1922244k total,  1737480k used,   184764k free,   208576k buffers\
Swap:        0k total,        0k used,        0k free,   466732k cached\
\
  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                \
    1 root      20   0 19232 1004  708 S  0.0  0.1   0:01.17 init                                                                    \
    2 root      20   0     0    0    0 S  0.0  0.0   0:00.01 kthreadd                                                                \
...

第1行 : 与 uptime 一相同。

第2行 : 进程数信息。

  • Tasks: 99 total : 总共有 99 个进程
  • 1 running : 1 个进程正在占用 CPU
  • 98 sleeping : 98 个睡眠进程
  • 0 stopped : 0 个停止的进程
  • 0 zombie : 0 个僵尸进程

第3行 : CPU 使用率

  • us (user): 非nice用户进程占用CPU的比率
  • sy (system): 内核、内核进程占用CPU的比率
  • ni (nice): 用户进程空间内改变过优先级的进程占用CPU比率
  • id (idle): CPU空闲比率,如果系统缓慢而这个值很高,说明系统慢的原因不是CPU负载高
  • wa (iowait): CPU等待执行I/O操作的时间比率,该指标可以用来排查磁盘I/O的问题,通常结合wa和id判断
  • hi (Hardware IRQ): CPU处理硬件中断所占时间的比率
  • si (Software Interrupts): CPU处理软件中断所占时间的比率
  • st (steal): 流逝的时间,虚拟机中的其他任务所占CPU时间的比率

需要注意的一些情形:

  • 用户进程us占比高,I/O操作wa低:说明系统缓慢的原因在于进程占用大量CPU,通常还会伴有教低的空闲比率id,说明CPU空转时间很少。
  • I/O操作wa低,空闲比率id高:可以排除CPU资源瓶颈的可能。
  • I/O操作wa高:说明I/O占用了大量的CPU时间,需要检查交换空间的使用,交换空间位于磁盘上,性能远低于内存,当内存耗尽开始使用交换空间时,将会给性能带来严重影响,所以对于性能要求较高的服务器,一般建议关闭交换空间。另一方面,如果内存充足,但wa很高,说明需要检查哪个进程占用了大量的I/O资源。

更多负载情形,可在实际中灵活判断。

四、iostat 命令

iostat命令可以查看系统分区的IO使用情况

$ iostat \
Linux 2.6.32-573.22.1.el6.x86_64 (sgs02)   01/20/2017     _x86_64_   (1 CPU)\
\
avg-cpu:  %user   %nice %system %iowait  %steal   %idle\
           2.29    0.00    0.25    0.04    0.00   97.41\
\
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn\
vda               1.15         3.48        21.88   21016084  131997520

一些值得注意的IO指标 :

  • Device : 磁盘名称
  • tps : 每秒I/O传输请求量
  • Blk_read/s : 每秒读取多少块,查看块大小可参考命令 tune2fs
  • Blk_wrtn/s : 每秒写取多少块
  • Blk_read : 一共读了多少块
  • Blk_wrtn : 一共写了多少块

五、iotop 命令

iotop命令类似于top命令,但是显示的是各个进程的I/O情况,对于定位I/O操作较重的进程有比较大的作用。\

# iotop\
Total DISK READ: 0.00 B/s | Total DISK WRITE: 774.52 K/s\
  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND                                                                \
  272 be/3 root        0.00 B/s    0.00 B/s  0.00 %  4.86 % [jbd2/vda1-8]\
 9072 be/4 mysql       0.00 B/s  268.71 K/s  0.00 %  0.00 % mysqld\
 5058 be/4 lvinkim     0.00 B/s    3.95 K/s  0.00 %  0.00 % php-fpm: pool www\
    1 be/4 root        0.00 B/s    0.00 B/s  0.00 %  0.00 % init

可以看到不同任务的读写强度。

六、sysstat工具

很多时候当检测到或者知道历史的高负载状况时,可能需要回放历史监控数据,这时 sar 命令就派上用场了,sar命令同样来自sysstat工具包,可以记录系统的CPU负载、I/O状况和内存使用记录,便于历史数据的回放。

sysstat的配置文件在 /etc/sysconfig/sysstat 文件,历史日志的存放位置为 /var/log/sa\
统计信息都是每10分钟记录一次,每天的23:59会分割统计文件,这些操作的频率都在 /etc/cron.d/sysstat 文件配置。\

七、sar 命令

使用sar命令查看当天CPU使用:

$ sar\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)\
\
10:50:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle\
11:00:01 AM     all      0.45      0.00      0.22      0.40      0.00     98.93\
Average:        all      0.45      0.00      0.22      0.40      0.00     98.93

使用sar命令查看当天内存使用:

$ sar -r\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)\
\
10:50:01 AM kbmemfree kbmemused  %memused kbbuffers  kbcached  kbcommit   %commit\
11:00:01 AM     41292    459180     91.75     44072    164620    822392    164.32\
Average:        41292    459180     91.75     44072    164620    822392    164.32

使用sar命令查看当天IO统计记录:

$ sar -b\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)\
\
10:50:01 AM       tps      rtps      wtps   bread/s   bwrtn/s\
11:00:01 AM      3.31      2.14      1.17     37.18     16.84\
Average:         3.31      2.14      1.17     37.18     16.84

更多 sar 用法,请 man sar 。

本作品采用《CC 协议》,转载必须注明作者和本文链接
看看自己是不是一个靠谱的程序员,来做题试试。job.xyh.io
Kingmax
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!