重新审视灾备计划的必要性

日期: 2012-08-20 作者:Wayne Rash 来源:TechTarget中国 英文

  2012年6月29日,,华盛顿迎来了一场强暴雨灾害天气。这种名为“Derecho”类型的天气现象非常罕见,大多数人甚至从未听说过它。这种不同寻常的复杂恶劣天气从未跨越过山脉范围,如阿利根尼山脉。但是这次却发生了,自此也将防灾计划带入了世人的眼中。

  亚马逊靠近杜勒斯国际机场的庞大数据中心内部是一个完全冗余的系统,并且能够承担电源冗余备份、电网冗余和网络访问冗余,减弱大规模断电时的联合冲击,包括网络中断、电话线路中断和电池系统中断。如果没有冗余系统,不但所有事情将停机,也没有人可以调用备份。当然,即使工作人员已经知道即将发生停机事件,他们也没有任何办法。因为大部分通路已被封锁。

  灾害来临的紧迫性

  虽然我们经常宣扬灾难备份的益处,但是在灾害来临时,没有人能提前做好准备。当暴虐的天气突然来临时,没有警告和预测,也没有任何人和机构能够做的更多。事实上,亚马逊在遭受该灾害之后能够获得重新联机,并在第二天早上完全恢复其受到影响的客户已经很令人瞩目了。

  但是,在面对灾害时能做到像亚马逊这样的企业只有少数几个。对于规模较小的组织,其可用资源更少,在灾难性打击来临时,根本无法应对。截止到7月2日,依然有许多这样的公司没有从停机中恢复,有些可能将永远无法恢复。

  当然,那些规模较小的企业也没有灾备计划,最后可能都不了了之。有些企业有计划,但是没有进行测试,导致在紧要关头灾备计划没有起作用。另外有些企业已经进行了足够的测试,但是就像亚马逊,规划人员无法计划出一切。

  小型测试实验室的备份计划

  在我自己创办的公司中设有测试实验室,能为一些IT杂志和计算机专业媒体撰写评测。我想我可以制定除了玛雅预言,或更有可能的小行星撞击地球等世界末日之外的任何计划。我在实验室测试设备,都采用备用发电机,备用WiFi热点联网及制定空气调节计划。

  但是就实验室而言,从我最后一次估算了电力负载还没有对最新的配置进行测试时,整体配置正在发生悄悄的变化。更糟糕的是,我假定了实验室附近的T-Mobile电力会至少会在维持几天才会失效,因为它在近段时间一直正常运行着。

  当全世界都停机时,恢复是很难的

  当暴风雨在漆黑的夜晚来临,首先提示的是西北方的闪电。然后是比之前任何时候都猛烈的暴风雨降临这片区域。这比我经历过的任何飓风都糟糕,曾经在非洲西海岸的一次经历是我之前见过的最糟糕天气,当它来到时天气状况令人焦虑。45分钟后,电力、互联网服务、电话服务和此前可靠的手机信号全都失效了。

  但是我启动了发电机并开始启动实验室的基础设施。一个接一个的,交换机和服务器恢复了正常,风扇的呼呼声和闪烁的灯光让我安心,一切都将顺利恢复。然后,我开启了HP服务器来处理域名系统(DNS)、动态主机配置协议(DHCP)和目录服务。与此同时,低电压报警也开始逐个消失。但是我没有足够的能力让实验室运转,尽管我之前测试过。

  所以我关闭了服务器和其他计算机,并完成基础设施的启动。我能够这样做并让一切运行起来,但是这也接近了发电机能力的极限,这绝不是一件好事情。但那个时候我发现这并不重要了。我的实验室可能会运转起来,但它不能与外界沟通,因为外界还没有运转起来。当能够运行时,对世界其他地区并非能有多大的帮助,尤其是当你意识到,你要另外购买发电机并设置负载分担。

  事实上,我得买两个完整的N+1功能的发电机。但在此期间,我还记得我不得不更频繁的对整个系统运行测试,尤其是在我添加更多的服务器、新的交换机或网络管理设备之后。我并没有准备好,并且这对于我来说也会产生更多的成本。

  在这种情况下,所有的规划将不会有任何区别。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐