宝钢股份是我国最现代化的钢铁联合企业,以其诚信、人才、创新、管理、技术等诸方面综合优势,奠定了在国际钢铁市场上世界级钢铁联合企业的地位。公司专业生产高技术含量、高附加值的钢铁产品,产品覆盖汽车制造、家电生产、石油开采、油气输送等领域,出口日本、韩国、欧美等四十多个国家和地区。作为负责生产控制级计算机的设备维护部门也感受到了前所未有的压力:随着公司业务范围的不断拓展,共要负责178套计算机系统运行维护工作,运行维护响应速度及服务质量面临严峻考验;各类技改、科研、改善等自主开发任务,使得人力资源的短缺日益严重。原先分散的、手工的IT系统运行维护管理模式已经无法满足发展的需求,寻求一种合理IT管理模式迫在眉睫。
1、企业IT管理的三层构架
企业的IT管理工作分为运作层、战术层和战略层,如图1所示。
从上面的三层架构可以看出,目前的IT管理大部分还处于系统&网络管理层次,即主要还是侧重于对IT基础设施本身的技术性管理工作。我们希望通过成熟的ITIL管理理念使IT支持与业务应用相结合;通过对IT管理流程的规划、设计建立和实施,进入服务管理阶段,实现信息系统管理效率和服务管理质量的同步提升,降低人工操作和管理带来的风险。使现在人工完成的事件记录、分派、通知、解决等过程自动化,规范业务支持流程,提高人员的工作效率和服务水平。
2、ITIL理念介绍
2.1 ITIL的由来和发展
ITIL是Information Technology InfrastructureLibrary的缩写,意为信息技术基础设施库,它是英国政府中央计算机与电信管理中心(CCTA)在20世纪90年代初期发布的一套IT服务管理最佳实践指南。在此之后,CCTA又在HP、IBM、BMC、CA、Peregrime等主流IT资源管理软件厂商近年来所做出的一系列实践和探索的基础之上,总结了IT服务的最佳实践经验,形成了一系列基于流程的方法,用以规范IT服务的水平,并在2000—2003年间推出了新的ITIL V2.0版本,这就是目前的ITIL标准。
ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,企业的IT部门和最终用户可以根据自己的能力和需求定义自己所要求的不同服务水平,参考ITIL来规划和制定其IT基础架构及服务管理,从而确保IT服务管理能为企业的业务运作提供更好的支持。对企业来说,实施ITIL的最大意义在于把IT与业务紧密地结合起来,从而让企业的IT投资回报最大化。
经过近20年的发展,ITIL以流程为主线,进行了全面的扩充,最终形成了如图2所示的框架。这个框架现在成为了事实上的IT服务管理知识框架体系。
这一服务管理规范被划分为两个领域:服务支持和服务提供。服务支持的重点是IT服务的日常运行和支持,服务提供关注的是IT服务的长期计划和改进。
ITIL来源于实践,反过来它又用于指导实践。它列出了各个服务管理流程的“最佳”的目标、活动、输入和输出以及各个流程之间的关系,但并没有说明具体的日常运营活动。其重点是保证流程实现其应有的功能并与其他流程相协调。至于具体怎样实现这些功能,组织可根据实际需要采取不同的方式。
此外,实施ITIL并不是需要组织重建其所有的IT管理部门和职能。ITIL提供了一个指导性框架,这个框架可以保留组织现有的IT管理方法和技术中的合理部分,同时增加必要的方法和技术,并且方便和加强了各种IT职能间的沟通和协调。
2.2运行维护平台相关概念
事件:与计算机设备运行维护相关的所有事情。事件管理流程的目标是尽可能快地把服务恢复正常,使故障对运行的影响最小化。
问题:影响系统正常运行的根本原因。问题管理的目标是找到影响系统正常运行的根本原因并取得永久的解决方案。
变更:在运行维护过程中对系统所作的各种改变,包括增加、删除和修改。变更管理的目标是对变更的过程进行控制,对变更的结果进行记录;避免由于变更对系统或者服务造成的负面影响。
3、建立服务管理平台的目标和原则
3.1建立目标
3.1.1 处理流程的规范化
从事件创建、分派、升级、处理到最后关闭结束,所有的过程均在服务管理平台中进行了严格合理的定义。其问所涉及到的各类人员:如运行监控人员、系统责任人员、技术支撑人员和管理人员等,都在指定的范围和规范化的框架和流程下进行日常工作,从而保证问题处理的所有环节有条不紊,并具有最优效率。
3.1.2处理过程的可跟踪性
在事件处理过程中,通过全自动通知功能如邮件、任务栏等,及时通知相应的维护人员进行快速响应。在指定的时间内没有合理解决,将按照预定的升级规则,通知到高级别的处理人或管理层,进行问题移交,以分配更强大的资源来处理关键的问题。过程每个环节的活动情况均在服务管理平台中进行记录。
3.1.3历史问题可查询借鉴
服务管理平台是一个ITIL标准下的综合系统,除了事件和问题管理之外,还需具有知识库管理、变更管理、配置管理等围绕IT服务管理的其他部件。服务管理平台能对配置情况进行记录和更新,并把每个问题和变更与用户以及发生故障的配置项对应起来,形成历史记录以便查询和借鉴。
3.1.4知识经验的分享
可以根据故障发生的频度,把经过实践证明正确的解决方案形成知识库,供维护人员使用。维护人员通过知识库及时选择最优方案,可解决大部分通常和一般性问题。
3.1.5员工工作业绩可量化考核
通过服务管理平台的统计和分析功能,能提供各种有关查询报表,对运行维护人员的工作可以进行数量和质量上的记录和统计。
3.1.6统计分析提供决策依据
对于计算机运行维护的管理人员和部门,能通过服务管理平台了解更多的宏观信息。如:某个时间段内哪些方面的故障出现的数量最多、哪些方面的故障解决的效率最高或最低、维护人员的工作负荷统计问题、分布在哪些系统或设备等等。
这些故障分布以及故障处理效果,能从最直接的层面反映计算机系统的运作状态以及维护管理的效果。帮助管理和决策部门对于服务状况进行全面掌握和了解,从而进一步做决策和趋势分析。
3.2设计原则
以提升服务为核心,通过惟一的管理平台和请求人口将原本分散在各生产线的、相互隔离的流程处理模式统一起来并使之标准化。它把复杂的IT管理活动梳理成若干个核心流程,并把这些流程从各个视角规范化、标准化。
我们的目标是组建一个大型的、使用人员众多的管理平台,这就要求系统在设计时,首先要考虑到可靠性和性能,同时还要很好的安全保证体系以及集中管理;同时,由于管理流程正处于管理模式重新定位和调整的阶段,要求系统具有管理简便、灵活性较高和外部接口支持特性较强等特点,能够满足处于变新的管理模式。
3.2.1 高可靠性
管理平台是服务支持系统的窗口,每天要处理各类应急的请求和流程,因此必需具有高可靠性。一方面需要保证单机节点具有高可靠性的同时,另一方面还要求能在整体结构上进行冗余配置,通过增加节点能及时进行性能扩充,避免出现单点故障以及未来业务发展后的性能瓶颈。
3.2.2 高性能
系统部件和体系的设计,需保证最终的系统具有高性能。在结构上,能实现负载均衡,满足业务不断增长对IT服务更大的需要。
3.2.3安全性
由于涉及到不同管理层面和使用层面的用户,管理平台需具有较高的安全性,必需支持分组管理以及灵活的数据访问控制。
3.2.4可扩展性
系统之建设,往往是一个不断完善的递进的过程。这就要求管理平台系统的设计和部署,需考虑到系统进一步扩大所面临的各种扩展性要求。能满足系统接人用户不断增长、功能不断完善的情形下,对系统在性能和可靠性等各个方面的技术要求。
3.2.5兼容性
管理平台要能够兼容现已实施的管理工具和环境,最大限度地整合现有的工具和资源。同时,应提供开放的体系结构和标准的集成接口与技术,具有未来对第三方管理工具进行集成的能力。
3.2.6外部接口支持
管理平台应提供多种接口和方式。包括传统GUI、WEB以及未来的无线手持设备等。提供充分的外部接口,以满足不断发展的多种信息交互方式。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国