关于 Laravel-china.org 宕机两小时的始末
事件始末
11:40 分左右社区无法访问,服务器上所提供的服务 SSH , HTTPS , HTTP 皆无法访问,排除 PHP-FPM 或者服务器端软件问题。
服务器使用的是 UCloud 的服务,登录控制台,查看控制面板里网络流量和服务器负载,没有满负荷情况,相反是无负荷情况,目测为线路问题:
11:53 联系上 UCloud 技术客服人员,反馈情况,中间一直在尝试定位问题。
13:17 技术客服反馈原因为 IP 被 ddos 后封堵,故所有的连接都无法穿透。
17 分钟后过去了,询问下得到了一个『修复时间无法评估』的回复,差点把我急死。
五分钟过去了,得到了一个需要一天解封的回复。
13:40 接收到反馈后,快速上控制台申请一个新 IP ,DNS 将域名绑定到新的 IP 上,等待应用。
14:04 客服通知已经 IP 已经解封。
14:05 DNS 上切回原来的 IP ,网站开始恢复访问。
复盘
整个事件,最坑的是,几年前注册的 UCloud 账号,使用的是一个不常用的邮箱,DDOS 告警时未收到,遇到问题时自己也没想起去查看邮件,导致掉进了这个深坑。
不过,这里要给服务商 UCloud 提下几个建议。
建议一、重大问题要通知到
服务器可用性,事关一个产品的生死。大部分互联网产品都没有做 cname 多服务器分发,IP 就是这台服务器命脉,特殊情况无法避免,掐断可以,但是必须使用最高级别的通知方式。
我的账号是认证了手机的,如果把消息通知按等级划分,以下从低到高:
- 站内信;
- 邮件通知;
- 短信通知;
- 电话通知。
IP 掐断,整个网站瞬间不可用,每一秒流逝,对于网站主人来讲,真的是在滴血。所以至少要短信通知甚至是电话知会,保证客户完全知悉情况。
建议二、控制台无通知
IP 被封堵,既然能发出邮件,相信在控制台做个标示也不难,但是这个 不难 的动作,有时候却非常救命,可惜 UCloud 的控制台并没有。找遍了整个后台,查遍了各种操作日志、消息通知都没有半点 IP 被封堵或者相关的信息。
要是早发现 IP 被堵,技术客服小哥提交解封申请,半个小时内也就解决了。整事件,总共花了两小时 25 分钟,这对于商业网站来说,是非常致命的。
结语
UCloud 一直是 laravel-china.org 的赞助商,服务器这么多年用下来,还是一直非常稳定的,就是这些细节,一定要做好。现在腾讯云阿里云这么在抢市场,只要做好自己,其实是可以不惧怕这些平台的,好东西总有人会买单。
对于 DDOS 的朋友,有啥问题,加我微信 summer_charlie 慢慢聊。社区上很多在学习的同学,别耽误了他们,感谢。
:heart:
灾备方案一是服务商提供合理解决方案,二自己也得做足准备吧。
阔怕
:laughing: 辛苦了,登录不上一直以为自己的电脑网络出问题了,重启了一下发现还是不行,换手机登录还是不行。。。着急死了。。
很牛的说明,Summer 的问题分析能力让人叹为观止
慌得要死
@杨进春 laravel-china.org 一开始只是个小小站点,成本和精力考虑,只做基本的数据和服务器配置备份。看来后面得加强啦
@monkey ? 谢谢你啊,大哥
11:40 去吃饭了,:laughing:
我12点多的时候访问网站,怎么都访问不了,还以为我网络有问题,
@杨进春 进春兄~
又学到了不少
:+1:
买ddos防包 虽然贵点,偶尔抗用
程序猿都午休了。。。所以到1點17才定位到錯誤。。
@xflyhack 先水?你也来啦,随便逛。。。
控制台无通知,这个是有点郁闷。 DDOS攻击也是常见问题,他们应该有推荐相关产品给你,这个费用还是交吧,否则半夜来一堆告警,身心疲惫。
:+1::+1::+1:
@杨进春 紧跟大神步伐~
感觉ddos不一定是有目的性的 我之前买过京东云一个非常便宜的主机 测试了下docker就放在一遍了 放了大概有大半年 直到前几天京东给我发短信说我的服务器被DDOS攻击了 攻击的流量也差不多是3G
不用EIP,就炸房!
今天发现腾讯云外网无法ping通,腾讯云工程师修复了3个小时了还是无解

我还以为我的网有问题
412挂马风暴。仍在扩散
ucloud哇哈哈。。我也碰过
@xflyhack 孙先水?
还是转阿里吧.稳...
我老板在一家不知名的公司买的,我 yum 更新软件包就给我断 IP 了,说流量异常。