服务器崩溃、远程无法访问、阿里云诊断提示IO延迟过长,导致读写受限

服务器监控情况
在晚上4点左右突然疯狂读取硬盘,一直持续
Laravel

阿里云诊断提示

当前实例的云盘在2023年11月28日 11:13:00出现读写IO延迟过长,或达到了该云盘类型的IOPS上限,导致实例云盘读写受限。

请教下如何排查,急!!

补充:
查了系统的日志 /var/log/message
发现在触发读盘时候有内存oom的信息,内存不足了,估计是内存一直保持满负荷,一跑任务就触发oom,系统读取硬盘保存现场,导致读取量暴增,超出阿里云的io限制,然后就蹦了。

这种推理有没有可能?

《L05 电商实战》
从零开发一个电商项目,功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等
《L02 从零构建论坛系统》
以构建论坛项目 LaraBBS 为线索,展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。
讨论数量: 9

磁盘 IO 密集,但是网络带宽没有明显上涨,感觉像是服务器定时任务操作之类的写磁盘,或者数据处理任务之类的。

  • 因为 执行大量的IO密集型操作,例如数据导入导出、大规模计算任务、大量的文件读写、数据库查询等,都可能导致磁盘的BPS和IOPS指标上涨。

  • 还是结合项目,项目日志,或者其他什么日志,看一下是否半夜四点触发了什么定时任务。

  • 另外看看是今天偶发性,还是每天都这样,今天定位不到的话,明天凌晨不知道会不会还触发。

9个月前 评论
redfish (楼主) 9个月前
redfish (楼主) 9个月前

可能是 数据库慢sql或者缓存集体失效压力给到数据库了~可能 :speak_no_evil:

9个月前 评论
  • 装个 iotop ,看看是哪个进程占用的资源
  • 最近做了哪些调整,有没有加新功能等
  • 是否有定时任务
  • 简单的是找后台提交个工单,让他们帮你查看是什么问题。
9个月前 评论
sanders

这台机器上不会是部署了数据库吧?

9个月前 评论
sanders (作者) 9个月前
redfish (楼主) 9个月前

加swap后目前没有发现问题了。。。 暂时告一段落

9个月前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!