何坪洪:规避业务风险是IT风险管理终极目标

日期: 2011-09-08 来源:TechTarget中国 英文

    走进要采访公司的大门,却被要求全身从头到脚换上全白色防尘服。听说如果进入生产车间,会安排更复杂的更衣及清洁消毒流程。为了防止任何对产品污染的可能,连行政办公区都要求禁止一切食品和植物,整个环境几乎是全洁净白色的,仿佛置身于美国大片中的高科技生物研究所,给人以无比震撼的感觉。

  这就是位于苏州工业园区的惠氏营养品公司,秉承”用制药的经验生产奶粉”的理念,在奶粉的研发和生产过程中遵照制药行业的经验和标准。生产的每一个环节都要经过严格的检测,自原材料进厂至成品出厂,整个过程要经过600多道检测。为了确保奶粉的产品质量万无一失,整个生产过程应用了高端信息技术及自动化控制系统,将产品污染的可能性降到最低。生产车间采用药品生产的洁净标准,对温度、温度、气压、微生物、虫害等进行全天候监控。面对如此严格的质量控制和先进的生产工业,担任该公司信息技术部负责人何坪洪博士从IT风险控制的策略、战术、技术三方面,讲述了公司坚持的行业最严格的IT控制体系。

  高要求风险控制策略,保证最严格的行业标准

  近年来中国婴幼儿奶粉事件的发生,给奶粉行业的安全和标准提出更加严格的要求,因此其IT风险控制的策略需要满足各种不同的法规要求。在制定IT风险控制策略时,首先要符合不同国家、不同行业的法律法规的要求,如果不能满足,业务将会面临很大的风险。比如在美国,IT系统的设计要考虑到萨班斯法案,及联邦政府相关机构对于IT系统的要求,在为澳大利亚生产药品必须符合TGA(TherapeuticGoodsAdministration即治疗用品管理条例)的相关要求,中国制药行业最近也要求一些处方类药物必须实行国家电子监管码系统。公司IT风险控制的政策,要围绕这些法律法规,结合公司内部的特殊性来制定。

  风险管控的难点是很难识别风险是什么,一般公司也没有专门的人和组织对IT风险进行管控,对于IT风险为什么要做管理和控制?我们的做法是制定风险评估方法,用一个二维的矩阵来描述,根据某件事情发生的概率,标出1、2、3、4、5级,该事情发生后引起的后果有多么严重,再标出1、2、3、4、5级,画出一个矩阵来。风险的关注点就是得分值比较高的项目,分值高的就要严格加以控制,分值低的优先级较低。利用这个方法,可以把在IT管理范围之内需要控制的项目,全部列出来,大的项目一般是跟业务运营的结果相关,对公司造成损失较大,比如公司骨干网络、ERP系统、用户管理系统等,将IT的管理范围全部勾选出来,这样有助于将IT可能面临的风险一目了然。比如如果ERP系统出现故障,4-5个小时之内都无法恢复,那么这时候会认为问题非常严重,严重等级设定就为5级,根据事情发生的概率有多大计算概率等级,由此我们就可评估当前到底出现问题有多大,并根据此现状制定如何规避的风险措施。这个方法还应用到项目实施过程中,用于判断新项目对产品质量的影响,也可以用于判断新项目在合规方面的影响。

  IT审计是公司在风险控制上的另一项策略。在外企基本上每年都要做,何博士坦言其实不太担心外面的公司来审计,最担心的是公司内部派来的IT审计官,在公司总部有专门的IT审计部门,这些人拥有非常丰富的IT背景,尤其对IT风险控制方面。因为他们最知道这个公司的要求是什么,会按照我们界定的要求一项一项的检查。如果是外面的审计,通常只能按照行业的标准来审计,并不清楚这家公司的特定的要求。总部派来的审计是每年都会来,任何派过来的人都要认真对待。他们审计的一个重点就是看IT如何对风险的控制。审计官是代表公司管理层来检查IT的管理工作,而风险控制是其重中之重,大到是否合规,小到用户帐号,都在其审计范围之内。这种更加严格要求、不断鞭策的力量,会让IT管理者任何时候都不能掉以轻心。

  借助流程控制,在战术上保护IT与业务目标一致

  在战术成面上,会借助规范化的IT风险流程,保护IT与业务目标一致,提高绩效,降低风险与控制成本。何博士介绍说,在最严格的法规和制药行业标准下,我们的IT需要通过流程控制做到不允许人犯错误,确保合格的人员、正确的步骤、正确的数量、正确的设备、正确的参数(温度、时间等),正确的材料、正确的位置,公司所有人员都做到完成顺应既定的流程。

  首先,用户账号管理是最基本的控制,通过成员权限实现分级管理,不同级别有不同权限控制。如用户帐号管理,单点登录及认证,强制密码规则,入离职管理,权限控制流程等。在惠氏公司有一套专门的管理账号的应用系统,用以管理用户在各系统中的权限申请、审批、新增、修改、注销。对于外部的供应商访问公司网络控制更加严格,账号分配实行责任人制度,每个供应商用户的帐号都有对应责任人管理,责任人在系统中提出申请审核通过方可创建账号,并且每季度必须在系统里对其帐号做审核确认,一旦责任人没有在制定时间内审核,那么该供应商账号就会自动失效。公司有一本信息安全指南,在这本书里,有一些最基本的让员工容易接受、容易理解和容易操作的方法,比如每个人必须对自己的用户账号负责,必须承担由此账号在系统中产生的记录和结果等。

  其次是对企业及产品的风险的严格管理,所有技术(包括软件)需要进行验证后方可上线投入使用,由于行业特点,无法对每个产品进行质量检测,验证是为了确保系统在规定的步骤下能产生100%完全一样的结果,确保产品在规定的步骤和条件下能产生完全一样的结果。验证是美国食品药品管理局(FDA)提出的一项要求,后来很多其它国家或行业法规也有这项要求,它对信息技术在特定行业的应用提出了更高的要求。对于任何偏离验证结果的数据、现象、结果等均需要进行偏差调查及整改,如产品生产过程中出现的温度偏差,PH值偏差,设备故障,软件系统故障,实验室样本偏离标准值等。针对如何管理这些偏差的生命周期,IT提供一套完整的解决方案供业务部门去发起偏差调查、跟踪、分析、结案。此外,任何跟产品相关的变更,由变更决策委员会进行预审、终审等确保变更不会对企业产品产生风险。同理,也需要相产的应用系统管理各种变更,包括变更请求、影响分析、委员会评判、方案设计、委员分审批、变更实施、结案等流程。

  第三是利用有效流程保持业务持续运行,也是最至关重要的。保持业务持续运行最根本有效办法就是制订应急计划、灾难恢复计划和业务连续性计划,通过预防性和恢复性措施的结合,把灾难或者安全事故,例如可能由于自然灾害、突发事件、设备故障和故意的行为所导致的破坏,减少到一个可以接受的水平,保证组织重要业务的持续运行。

  那么应急计划该如何制定?需要有详细的操作计划文档,出现问题后,第一响应、第二响应、第三响应分别是什么。这个非常重要,因为当发生紧急情况时,人的大脑会陷入一片混乱,不知道什么事情该先做,什么事情后做,这时候唯一的法宝就是这本操作指南,不用想,打开这本百宝箱,从第一页开始,什么东西放在那里,供应商的联系方式电话号码是多少,等等,步骤和内容都十分详细,按照书上内容一步一步往下做,就可以把系统恢复回来。惠氏的指南手册是在全球的标准模板和要求下,根据区域不同,做适当调整和添加,有着集团共性和区域的个性特征。

  在灾难恢复计划中,还能通过技术,进行实时备份,精确到灾难发生前一秒甚至更短时间的数据,会全部保存,下来唯一要做的就是要根据操作手册逐步将系统恢复回去。如果实力更足,可以把整个数据中心做异地备份。即在此地的数据中心不能使用,远在千里之外的另一个数据中心又启动了。这个成本比较高,目前在银行、电信等单位就是采用这样的数据中心备份模式。但这种投资非常大,要求业务量非常大,一般公司和工厂都不会用,也用不上。

  对于业务部门,一旦发生问题,该如何让业务继续,需要有业务持续计划。所谓业务持续计划,就是为了防止正常业务行为的中断而建立的计划。如果ERP系统宕机,在没有系统的情况下,如何确保业务继续进行。这时需要分析,在业务流程中哪些地方是必须使用系统才能进行下去的,哪些地方不需要使用系统也可以进行,可以用手工记录的就先记录下来,等到系统恢复后,再补录入系统,保证业务不会中断。比如需要向客户发货,但系统宕机了,按照发货的流程,需要做发货的操作然后才发货,但实际上真正的发货只是装箱、卡车可以开走,其实表示已经发货,这个时候就可以把所有的事件都记录下来,卡车里都有哪些东西,物料号都是多少,数量多少,发给谁,记录在纸上,让卡车开走了,完成这个发货流程,等系统恢复后再记录下来。因此操作者不能被系统固化思维,影响业务的进程,通过有效风险控制,做到最小化对业务的干扰效果,使业务能尽快回复正常运行。

  关注运营细节,利用技术实现规避风险

  在日常业务中,还有很多小细节就可能造成业务中断,因此要加强对人的管理和教育,风险意识深入人心,落实到每个员工的日常工作中。从公司人员政策上要求每个人一定要接受培训,关于公司与IT风险方面的政策,知道什么事情可以做,什么事情不能做。在以前曾经有个例子,某天突然发现部分网络瘫痪,最后遍历所有的端口才发现,原因是有个员工私自拔掉了自己的网线,本来一端是从交换机出来或者墙面出来的,他把自己的这根线网线两端都连上去了,使网络形成一个回路,导致整个网络故障。这件事情对于员工来说可能是很小的事情,但如果没有跟员工讲过,这种事情就会发生。因此为了减少人为操作的失误,IT部门为用户提供傻瓜式的服务,只要员工在自己座位上坐下,网络就是通的,完全不用自己管,开机即可。要经常教育自己的员工,当出现问题后,不能擅自拆卸机器或设备,一定要通知IT来帮助解决问题。

  在当今快速增长的IT环境下,许多业务要求信息系统提供全天候的服务。尽管IT部门可能会采取各种保护措施来防止系统受到破坏,保证系统的正常运行,但是系统中硬件的故障及意外的灾难仍是不可避免的,只是灾难发生的几率可能会相对小些。这种灾难一旦发生将会给企业造成损失,轻则造成运行业务非正常中断,影响系统的功能,重则破坏整个系统。

  IT风险控制的操作层面,会借助技术辅助IT风险的管控,比如SSO单点认证,SOD分析(权责分离)。权责分离即将工作流程中不同的步骤分配到合适的岗位,比如下采购订单的人不能自己收货,但要做一些分析,进行岗位和职责分析,进行分离设计。在网络设计上,采用冗余及容错设计,双倍或多倍的成本确保高可靠性及高可用性。这些包括广域网上应用MPLS多协议标签交换,尖端的硬件容错计算机系统(如Stratus)的应用,存储阵列,双核心交换机,双路备份电源,自发电厂供电及不间断电源UPS,各种监控技术(物理温湿度烟感等监控,软件监控服务器、网络设备等)。有条件的采用多层网络设计(企业网络、生产网络、工控网络分离),分级管理控制,在各级之间实施IPS防入侵系统以及ACL访问控制列表等。

  计算机病毒的防范是一个永远不能忽略的话题。相信任何一家公司都会采用成熟的技术对计算机病毒严加防范,随着重视程度的提高,越来越少地听说大规模计算机病毒的爆发。这也是各公司对IT风险管控的进步。

  最后,何博士强调,随着技术的进步,管理水平的上升,IT给业务带来的价值已不容置疑,现在已经不是”要不要用”的问题,而是”用好管好”的问题。业务越来越多地依赖于信息技术,防范风险在IT管理中也扮演着越来越重要的角色。其终极目标是降低业务运营的风险,减少公司在财务上及合规上的风险。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 案例分析:企业IT运维到底该外包吗?

    企业里面的IT管理可能会遇到千奇百怪的问题,而其中最要命的莫过于企业组织机构、人员、设备都非常分散的情况。我们作为IT人应该怎么解决呢?

  • CIO经验:IT风险控制防胜于治

    记者采访了耐世特汽车系统(苏州)有限公司IT经理刘哲,他结合公司实际经验,分享了IT风险控制,防大于治的观点。

  • 云计算经验集锦top10

    云计算热度不减,也算是2011年的IT界的关键词了。在2011年即将过去的时候,TT CIO汇集了2011年下半年的10条云计算经验,也收录了对云计算的讨论声音和影响变化。

  • SOA“怪物”的诞生与IT治理

    目前很多企业拥有与国际竞争对手一样的软硬件系统,甚至技术和设备强于对方,单从技术的成熟性和先进性而言,整体应用水平不低,但结果往往会实施出SOA怪物……