CrowdStrike事件揭露关于IT的残酷真相

日期: 2024-07-29 作者:Patrick Thibodeau翻译:邹铮 来源:TechTarget中国 英文

美国立法者希望CrowdStrike首席执行官George Kurtz解释其软件更新如何导致数千次航班取消、医院中断和紧急呼叫中心中断。如果Kurtz作证,他将面临各种尖锐问题,质疑CrowdStrike公司的能力。

据微软称,对于有缺陷的软件更新如何导致中断,从而影响850万台运行Windows操作系统的设备,解释原因是一回事。但要真正理解发生了什么,我们必须超越代码的层次。

管理问题、监督不力、员工流失、培训、流程、沟通、资源分配和工具投资是否促成了这次中断?这些都是关键问题,特别是当我们采用具有不透明算法的人工智能系统时,该系统将使一些决策自动化,并有可能对我们的国家安全和经济造成更大的损害。

对于解决这些问题,我们没有一个良好的开端。

周三,CrowdStrike发布了初步事件后审查,其中包括其快速响应步骤清单,以防止未来发生此类全球停电。然而,这部分是基本软件质量实践的列表,例如本地开发人员测试,程序员首先在他们的机器上运行测试。

Jim Johnson说,本地开发人员测试只是基本的单元测试,即在单个孤立的机器或环境中测试软件。Johnson最近从Standish Group长期主席的职位退休,该组织是研究软件故障的研究组织。

Johnson在查看CrowdStrike软件弹性和测试预防计划后说,我没有看到他们的反应能防止未来出现的任何问题。

Johnson批评CrowdStrike将他认为的标准行业实践作为其解决方案,而不是引入更严格或创新的措施来防止其关键安全基础设施的未来中断。

CrowdStrike缺陷而中断的企业也有很多解释要做。

CrowdStrike客户自身的问题

为关键基础设施和数据中心运营提供建议的Uptime研究所的研究主任Daniel Bizo说,你可以外包流程,你可以外包工作,但你不能外包责任。

然而,有些企业并没有陷入灾难,因为他们有保护自己的流程。

例如,尽管纽约市经历了一些中断,但并没有影响紧急911系统,因为该市经常在沙盒中隔离和测试软件更新,其中应用程序无法访问系统或网络。该城市首席技术官Matthew FraserCrowdStrike中断开始后不久的简报会上说:在这种情况下,没有运气可言。这需要很好的提前规划和实践。

重大中断的威胁将增加,不仅仅是因为人工智能系统的固有风险。随着依赖性的增加和集中在更少的供应商中,第三方中断正在增加。正常运行时间研究所发现,2023年,第三方相关问题导致9%的数据中心中断,高于2020年的5%

Bizo说,云服务、网络和服务提供商的相互依赖性即使是资源最丰富的客户也在劫难逃

然而,Bizo表示,各企业必须部署应急措施,以确保包括第三方系统在内的备份和恢复流程。他说,保护操作包括定期测试,以及识别第三方关键任务依赖项,并将云服务和安全软件提供商视为潜在的单点故障。

Bizo说,在查看应用程序和单个系统时,问题是:如果我丢失了那个怎么办?如果我失去了那个,会有什么影响?

如果CrowdStrike高管面对美国国会,他们将面对美国立法者和相关人员,这些人不太可能满足于简单技术解释。在对波音737 Max飞机坠毁后的调查中,他们采取全面方法的能力显而易见。在他们随后的报告详细介绍了波音和联邦航空管理局的根本原因,例如技术设计缺陷、错误假设和管理故障。

咨询委员会成员兼2022年信息和软件质量联盟关于《The Cost of Poor Software Quality in the U.S》报告的作者Herb Krasner表示,这个问题通常需要高层提高组织意志力。他补充说,具体的意思是,质量通常不是组织目标。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐