阿里云回应史上最大规模宕机故障：存在四大问题！低胸衣，露大腿，大浓妆，影视剧中的“尼姑”们颠覆了人们的认知

9 月 30, 2023

12月18日，阿里云香港Region可用区C发生大规模服务中断事件，对很多客户业务产生重大影响，影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。

一般来说，云服务器宕机只需要一个小时左右便能恢复，而阿里云这次宕机从18日早上8点56分首次检测到故障警告，到次日凌晨0点30分所有服务恢复正常，历时超过15个半小时。

这无疑是阿里云运营十多年来持续时间最长的一次大规模故障。

12月18日，阿里云第一时间对客户进行事件原因分析和维护的进展更新，同时态度诚恳并明确表态，对于受本次故障影响的产品，阿里云将根据相关产品的SLA协议进行赔付。

12月25日，阿里云发布关于阿里云香港Region可用区C服务中断事件的说明，对故障情况进行了详细说明，并公布了整个处理过程，对问题进行了详细分析，还提出了改进措施。声明中阿里云表示，要向所有受到故障影响的客户公开致歉，并尽快处理赔偿事宜。

阿里云的公告显示，冷机系统故障恢复时间过长、现场处置不及时导致触发消防喷淋、客户在香港地域新购ECS等管控操作失败、故障信息发布不够及时透明是导致此次宕机时间长、规模大的四大重要原因。

值得注意的是，此次出故障的机房并非阿里云自建数据中心，而是租用的香港电讯盈科公司机房。目前，阿里云所租用的香港电讯盈科公司机房已修复制冷设备故障，阿里云香港地域所有可用区云产品功能已经全部恢复正常。对于受本次故障影响的产品，阿里云将根据相关产品的SLA协议进行赔付。

END

作者：梅雅鑫

责编/版式：沈新竹

审核：申晴

监制：刘启诚

【大咖谈 | 盘点2022】系列文章

张云勇：数字产业化和产业数字化驶上“快车道”

李彬：借数腾飞，以开放共建赢算力未来

何宝宏：欣欣以向荣，云计算发展持续向好

曹磊：2022年5G行业应用实现“百案千面”

顾维玺：探索“工业互联网+”的多元化服务新生态

范济安：工业互联网前途是光明的，道路是曲折的

唐雄燕：算力网络理念从广泛认可逐渐深入人心

陈运清：算力网络已由理论走向实践