双十一刚过一天，阿里云就崩了。

2023年11月12日17：44开始，阿里云发生严重故障，导致阿里巴巴大量产品无法连接，一时间，“阿里云盘崩了”、“淘宝又崩了”、“闲鱼崩了”、“钉钉崩了”等话题相继登上热搜。

阿里云出现大规模故障，也成为政企们热议的话题，大家关心的问题在于：公有云到底还安全吗？是否还能继续上云？未来应该采取哪些措施来保障稳定可靠？

不要动摇“上云”的方向

一个不争的事实是：阿里云出现严重故障，给上云企业，特别是核心业务跑在云上的企业带来了损失。

一个是故障波及的范围广，故障期间阿里云控制台无法正常登录，API调用异常，导致阿里云全系列产品服务及全球区域数据中心都受到了影响；另一个是持续的时间长，故障持续了3个多小时才基本完全恢复。据不完全统计，除了阿里系几乎全线产品出现故障外，整数云、理工小蜜蜂、饿乐送、cool easy、IOTTEC、纳思云、语雀等平台均受到影响。

如此大的影响规模，如此严重的程度，在公有云历史上都非常罕见。于是，有一些人出现了是否继续上云的疑虑，甚至有人说应该退回到过去自建的模式。

笔者首先给出结论：千万不要动摇“上云”的方向。虽然这次阿里云出现的故障很严重，但我们仍不能否认云相比物理主机具有更高的可靠性。

这是因为传统服务器硬件受到厂商品牌、机型、服务器运行时间以及部件型号故障率等诸多因素影响，更容易出现故障，而云服务提供商通常遵循一对多的模型，而且具有专业的基础运维团队和内核团队，能够在出现问题时快速恢复。相比自建机房的方式，公有云不仅运维成本更低，而且运维更专业、可靠。

某电商公司2018年投入数百万资金自建物理机房，起初系统稳定性连90%都达不到，2020年双11大促活动期间，因业务中断两小时，造成高达100余万的损失。后来该公司改用移动云云主机，公司业务系统稳定性提高至99%，建设维护成本下降60%，问题迎刃而解。

更重要的是，上云相比自建机房更是能为企业带来无可比拟的价值。在数字化转型的大背景下，云作为数字化转型的重要支撑技术，具有按需使用、弹性伸缩、资源共享等优势，可以提升企业的业务敏捷性，降低企业的成本。而且，云计算也是人工智能的基座，只有在云的基础上，企业才能更好地拥抱智能时代。

从千行万业无数企业的实践也能看到这一点。例如，对可靠性要求最为苛刻的金融企业，也在将核心业务上云。以邮储银行为例，其新一代分布式核心系统为全行6亿多个人客户提供了日均20亿笔的处理能力，联机交易处理效率提升一倍，批处理效率提升33%。

正如长江黄河不会倒流，上云的大方向也不会因为出现一些坎坷而发生改变。

鸡蛋不要放在一个篮子里

上云的方向没问题，但是上云的路径和具体策略却需要借助阿里云故障时间进行重新审视。

比如对于核心业务上云的企业，就有必要警惕云集中的风险，实施多云战略势在必行。

Gartner公布的2023年三季度新兴风险报告显示，云集中风险连续第二年进入“五大新兴风险”综合榜单，其中中国市场的这种风险尤为突出。正如Gartner法律风险与合规实践部门研究总结徐然所说，“云服务集中化风险正在成为大多数企业的共识，许多企业和机构现在面临这样的处境：一旦单个云服务商出现故障，将导致业务发生严重中断。”

破局云集中风险的一个有效途径，就是实施多云战略，就像不要将鸡蛋放在同一个篮子里一样。Flexera发布的《2021年云计算市场发展状态报告》显示，有92%的企业采用了多云战略，就是如此。

采用多云战略的好处显而易见，一方面，企业可以将风险分散，防止出现某个云厂商出现故障时企业业务中断的风险，实现双保险、多保险；另一方面，企业也能选择各领域最优的云服务厂商，形成最佳组合来满足业务需求。

通过这次阿里云宕机事件，还有一个警示意义，那就是必须要重视灾备。事实上，灾备服务也是云相比自建机房的重要优势，云服务提供商通常会提供灾备服务，以满足企业数据安全和业务连续性需求。

但是需要指出的是，不同云厂商的灾备服务能力也是有差异的。例如，华为云就具有同城AZ（Available Zone，可用区）内、跨AZ、异地跨区的两地三中心容灾方案和1000公里以上的城市级容灾能力。河钢集团，就采用华为云提供的两地三中心容灾备份方案，实现了系统的平稳可靠运行，任何时候都能实现业务0中断。

所以，对于将核心业务放在云上的企业，只有不将鸡蛋放在一个篮子里（多云与多地灾备），才能最大限度保障企业核心数据的安全和业务的平稳运行。

后记：选云，要选可靠的云

毋庸置疑，阿里云这次出现如此大的故障，会对其未来的市场开拓带来负面影响。野村综研（上海）数字化能力中心总监陶旭骏就表示，政府和国企央企市场是云市场的非常重要的客户群，他们对安全性和稳定性的要求是压倒成本和性能的，阿里云会在开拓企业市场时受到挑战。

可以预计，这次事件也会对政企在选择云服务厂商时带来影响，大家会有一个强烈的共识：选云，要选可靠的云。因为，不管是性能，还是成本，都必须有一个前提，那就是高可靠性、高可用性。打个比方，高可靠性和高可用性是1，其他是0，如果没有前者，后者也不复存在。

那么什么是可靠的云呢？我觉得，首先要看企业的基因。比如华为云，就根植华为的基因，华为从运营商业务起家，运营商对于产品的可靠性、稳定性有极高的要求，如我们经常听到的电信级要求，要求在不间断运行、高稳定性、可靠性上有5个9的级别。正是这样严苛的要求，让高可靠性、高可用性刻在了华为、华为云的骨子里，渗透到了血液里。

其次要看企业在高可靠性、高可用性上的技术能力，尤其是运维安全上的内功。事实上，在软硬件迭代加速、企业需求瞬息万变、不确定性加剧的大背景下，云服务的运维也在发生变革，运维既要保稳，也要敏捷。令人欣喜的是，业界的头部厂商正在身体力行地推动运维模式的变革，从运维组织、人员能力、知识体系发展等全维度进行变革，强化稳定可靠性。

稳定可靠一直是各云厂商的业务重点和难点，为此进行了各种组织上和体制上的设计。例如，华为云内部就专门有一种职业，叫做SRE（Site Reliabllitiy Engineer，站点可用工程师），还系统定义了包括质量管理机制、运维平台等SRE的能力体系。京东云通过京东云云泰-稳定性主动管理平台，为客户提供全链路的云上安全保障，其基于混沌工程原理，可以做到先于用户发现问题、先于感知修复问题。金山云服务器带来完善的管理员面板功能，可以让用户快速了解实例情况、配置实例、挂载和扩容硬盘等，随时掌控资源使用情况。

总而言之，针对阿里云出现故障这一事件，需要客观理性看待：既不能因噎废食，改变上云的大方向；也不能置若罔闻，需要对上云的路径和策略进行重新审视，需要对云服务厂商进行全面审视。

只有这样，企业的云上之旅和数字化转型步伐才能既快又稳。