服务器崩溃、远程无法访问、阿里云诊断提示IO延迟过长,导致读写受限
服务器监控情况
在晚上4点左右突然疯狂读取硬盘,一直持续
阿里云诊断提示
当前实例的云盘在2023年11月28日 11:13:00出现读写IO延迟过长,或达到了该云盘类型的IOPS上限,导致实例云盘读写受限。
请教下如何排查,急!!
补充:
查了系统的日志 /var/log/message
发现在触发读盘时候有内存oom的信息,内存不足了,估计是内存一直保持满负荷,一跑任务就触发oom,系统读取硬盘保存现场,导致读取量暴增,超出阿里云的io限制,然后就蹦了。
这种推理有没有可能?
因为 执行大量的IO密集型操作,例如数据导入导出、大规模计算任务、大量的文件读写、数据库查询等,都可能导致磁盘的BPS和IOPS指标上涨。
还是结合项目,项目日志,或者其他什么日志,看一下是否半夜四点触发了什么定时任务。
另外看看是今天偶发性,还是每天都这样,今天定位不到的话,明天凌晨不知道会不会还触发。
可能是 数据库慢sql或者缓存集体失效压力给到数据库了~可能 :speak_no_evil:
这台机器上不会是部署了数据库吧?
加swap后目前没有发现问题了。。。 暂时告一段落