IT 越依赖云服务,用户就越有可能因云中断而遭受停机和收入损失。由于云中断事件的发生,超过 60% 的使用公共云的组织在 2022
年报告了损失,因此云中断并不是公司不太可能面临的异常事件。
但是中断是否足以成为永远离开云的理由?还是应该坚持使用这种基础架构类型,尽管存在偶尔停机的风险?
本文将介绍您需要了解的有关云中断的一些内容,其中包括云中断的主要原因以及可以采取哪些措施减少云停机的影响。
云中断是云提供商的服务对最终用户不可用的时间跨度。供应商的基础设施出现故障(由于错误、电源故障等),客户无法访问基于云的资产,直到供应商解决问题。
云中断是由供应商控制范围内和之外的多种原因引起的。以下是常见的一些原因:
停电:与电源相关的问题导致 43% 的云停电,并造成严重的停机时间和经济损失。不间断电源 (UPS) 故障是电力事故的第|一大原因。
网络安全:分布式拒绝服务
(DDoS)等网络攻击使数据中心的传入流量过载。在这种情况下,最终用户无法通过相同的网络基础设施访问服务。其他威胁(例如勒索软件或SQL
注入)可能会迫使提供商关闭服务并离线解决问题。
人为错误:一个错误的命令或布线错误可能会导致整个 IT 基础设施瘫痪。人为错误会导致导致停机的物理和软件问题。
技术问题:云服务依赖于复杂的硬件技术系统,因此如果错误能够在雷达下隐藏足够长的时间,可能会导致云中断。
软件错误:故障和错误在云数据中心中很常见。问题背后的常见罪魁祸首是数据格式错误、与错误相关的错误、计时错误和常量值错误。
网络问题:与网络通信和第三方电信合作伙伴相关的问题是云中断的另一个常见原因。
维护:定期维护和系统升级有时会导致中断,尽管最终用户通常会提前知道这些事件。
环境原因:飓风、火灾、雷暴和地震等事件也会引发云停机,要么使设施处于危险之中,要么破坏该地区的电网。
更复杂的部署:更复杂的部署模型(例如混合、分布式和多云)使数据中心运营复杂化,从而产生更多错误机会。
以下是公司为减轻云中断的影响而采取的措施:
消除单点故障:在现场服务器机房或二级提供商处准备每个关键任务 IT
组件的备份。如果云出现故障,您将执行故障转移(切换到备用服务器、硬件组件、网络等的过程)以确保业务连续性。
制定应急计划:灾难恢复计划概述了团队在发生中断时的工作的分步策略。该计划提供有关保护数据、执行故障转移、确保业务连续性和恢复操作的说明。及时规划云中断可避免浪费时间评估停机期间的最佳行动方案。
投资更高可用性的 SLA:如果您的关键业务任务无法承受长时间的云中断,请寻找更高可用性的服务水平协议 (SLA),例如保证 99.9%
正常运行时间的协议。这些合同的成本更高,但让您的服务在线成为云提供商的首要任务。
执行定期数据备份:备份可确保您的团队在云中断损坏或删除数据库时有办法恢复文件的最新版本。理想情况下,备份应该在每小时一次到每天一次之间自动进行(取决于任务关键性)。
尽快检测中断:您的团队设置的任何其他云监控功能都有助于实时识别中断,而不是等待提供商的通知。
TAG: