首页 首页 人工智能 查看内容

引入IT治理理念 保障业务连续性

木马童年 2019-4-29 14:35 143 0

2010年反复无常的市场环境和激增的经营压力,使到企业面临更多的挑战。当前企业的业务运营日益依赖于网络和IT技术,使到源于IT系统运行中断而导致的关键业务中断的风险也随之而来。因此,越来越多的企业将注意力从灾 ...

2010年反复无常的市场环境和激增的经营压力,使到企业面临更多的挑战。当前企业的业务运营日益依赖于网络和IT技术,使到源于IT系统运行中断而导致的关键业务中断的风险也随之而来。因此,越来越多的企业将注意力从灾难发生之后的业务恢复,转移到如何保持企业关键业务连续性上来。

在上周五,笔者参加了信息产业部主办的一个IT治理研讨会。在本次研讨会上,众多CIO关注的焦点是如何构建IT治理的业务连续性恢复管理机制。因为业务连续性与恢复对于企业的长久持续经营是至关重要。实施业务连续性管理(BCM:Business Continuity Management,)是确保业务体系连续有效地运作,未雨绸缪地防范各种突发事件,以尽可能低的成本全面提高业务系统的可靠性和可用性的关键。这里和大家分享我的一些心得体会。

一.什么是IT治理的业务连续性管理?

IT治理是公司治理的一种具体表现,用于描述企业是否采用有效的机制,使得IT的应用能够完成组织赋予它的使命,同时平衡信息技术应用过程中的风险,以确保实现组织的战略目标。因此,IT治理主要涉及两个方面:IT要为企业交付价值,同时IT风险要降到最低。其中保持业务连续性管理是降低IT风险的一个具体体现。

(1)为什么需要业务连续性管理?

尽管每个人都不愿意提及灾难,更不希望灾难降临,但灾难常常不期而至。那么,什么样的威胁能够导致企业业务的中断?据国信办发布的《重要信息系统灾难恢复规划指南》中明确定义:灾难是由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受的突发性事件。由此可见,灾难不仅指自然的原因,也包括人为的原因。从大到天灾小至人祸,并不以人们的意志为转移。比如突然的停电、病毒攻击、自然灾害等。事实上,企业要保持业务连续性,最大的威胁并不是来自于火灾、地震等小概率、大影响的灾难。相反,企业的业务更多地受到诸如人员错误、流程缺陷等事件的威胁。虽然它们对企业经营的影响力远不如那些重大灾难,但是它们却时刻潜伏在企业的周围,随时一触即发,同样会对企业造成致命的打击。总之,无论是重大灾难还是轻微事故,在发生时都可能会给企业运营造成一定的中断,而持续运营则是任何企业的一项基本要求。

从某种程度上说,IT科技进步让企业更有竞争力了,但也让企业更脆弱了。而且事实也表明,传统的业务管理方法及流程在遭遇IT灾难时常常不堪一击,甚至可能随时崩溃。根据 Meta Research的一份研究表明:尽管IT灾难是小概率事件,但它一旦发生就是高风险事件,因为哪怕是1%的IT灾难也能导致100%的损失。因此,在面对突如其来的IT灾难事件时,只有构建真正有效应对灾难事件的IT治理管理体系,才能保证业务的连续运行。其中,业务持续性管理(BCM)就是用来对付突发事件的管理方法。应急属于典型的东方思维,当人们面对灾难时,才会想起应对之道,而业务持续管理则属于典型的西方思维,它提供的是应对突发事件的解决之道。

(2)业务连续性管理的具体内容

IT治理业务连续性管理系统关注的是企业在突发事件后,应对风险自动调整和快速反应的恢复能力。包括如何应对灾难事件以及在事件之后如何恢复正常的运转,还包括应对措施的演练。虽然业务连续性计划无法预防灾难的发生,也无法解决灾难到来时企业遇到的所有问题,但是它至少可以为企业提供一个减少损失的备选方案。参照英国标准化协会BSI的BS25999标准,IT治理业务连续性管理包括灾难恢复、危机管理、风险管理。具体内容主要有三个方面:①是高可用性,是指提供在本地故障情况下,能继续访问的能力。无论这个故障是业务流程、物理设施、IT软/硬件的故障。②是连续操作,是指当所有设备无故障时保持业务连续运行的能力。③是业务恢复,是指当灾难破坏业务应用时,在不同的地点恢复业务的能力。

一般而言,业务连续性恢复的级别越高,其成本越高,所以业务连续性管理很重要的一项工作就是评估最优化的成本与时间方案,找到最佳结合点。因此,找出业务最大容忍的中断时间,是非常关键的一步。建立业务连续性系统BCM有两个重要指标:RTO和RPO。RTO是恢复时间目标,是指灾难发生后从IT系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营时所需要的时间。RPO是恢复点目标,是指能够恢复至可以支持业务运作,系统及数据恢复到怎样的更新程度。它可以是上一周的备份数据,也可以是上一次交易的实时数据。简单的说:恢复时间目标(RTO)是最大可允许中断时间;恢复时点目标(RPO是数据损失可允许的最远回溯时点。

二.建立高效保障业务连续性系统的步骤

参考本次研讨会上众多CIO对IT治理业务连续性的发言,BCM的实施包括一系列企业管理行为,核心是制定并实施业务连续性计划。BCM的实施过程可以分为以下五个主要步骤:业务影响分析、风险分析、设定灾难容忍时间指标、确定恢复的成本控制策略、制定测试与演练计划等。

(1)业务影响分析,制定所需防范的灾难范围

业务影响分析是指根据业务需求来定义所需防范的灾难范围和相关参数。分析包括定性或定量分析关键业务中断的影响或损失、确定关键业务功能的损失标准、确定最大容忍时间指标、制定恢复的优先顺序。然后,对业务重要性进行分类,分别考察决策时间、评估时间、等待时间,进而准确定义RTO和RPO。

简单的说,业务影响分析主要是识别出企业的关键业务活动和企业对这些关键业务活动所能容忍的业务最大中断时间,并对这些业务所依赖的要素进行分析,最后按照恢复的优先级排序并确定出关键活动。总体说来,是分别定义事件的重要和紧急程度,对于最重要、最紧急的事情,进行重点及时处理。对于紧急的灾难事件,容忍时间限度要放宽,可用灾难级DRTO、DRPO(Disaster Recovery)来衡量;而对于日常工作中的普通问题,时间限度则要变小,要求必须实时备份,在系统故障发生时及时追回数据。可用运行级ORTO、ORPO (Operational Recovery)来衡量。

(2)风险分析,明确需要防范的灾难类型

一般来说,灾难风险可分为突发性和渐进性两大类。企业需要考虑要预防哪些灾难风险,这些灾难风险会使业务中断多久等。针对不同的灾难风险,实现业务连续性技术保护手段时也是有所区别的。根据各行业的特点和国际上相关机构的调查,硬件故障、人为错误、软件错误居信息系统故障发生概率的前三位,而自然灾害是属于小概率事件,但由于破坏力大也是业务连续灾备系统必须防范的重要内容。也就是说,通过风险分析,明确IT系统需要承受的灾难类型,并对诸如系统故障、硬件故障、数据受损、火灾及地震等各种意外情况采取的合适的备份和保护方案。同时,针对不同的灾难风险等级,它们的防范策略应该是不尽相同的。

(3)依据业务关键程度,设定灾难容忍时间指标层次

对于业务连续性系统来说,它毕竟是一个IT容灾系统,在灾难发生后需要有一个恢复的过程。解决这一问题的方法是对企业的业务采取全局审视的态度,先将最关键的应用以最快的速度恢复出来。业务连续性规划中最关键的是:了解对企业最重要的东西,因为全面恢复是需要很长时间的。因此,必须明确当IT系统发生意外无法工作时,依据业务停顿所造成的损失程度,设定用户对于IT系统发生故障的最大容忍时间,这也是设计IT治理业务连续性方案的重要技术指标。

通过业务影响分析,估计业务停顿随时间而造成的损失,进而确定对该企业而言比较合适的RTO和RPO容忍时间指标。通常企业规模大,要求的RTO恢复时间越短;而RPO恢复点目标的确定则不是依赖于企业业务规模,而是决定于企业业务的性质和业务操作依赖于数据的程度。所以,对业务关键程度进行分析,设定灾难容忍时间指标层次,以调整控制措施是很有必要的。

(4)成本控制,平衡风险等级和业务连续性的关系

一般来说,业务恢复目标应是越短越好,但这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。因此业务连续性应当根据业务恢复的总体成本对最关键的应用进行权衡。因为把一切都立即恢复出来通常是不现实的作法,如果企业并不是立即需要某些业务数据,却为这些业务数据制订高恢复等级就是在浪费时间、精力和金钱。当然如果企业有足够的钱,完全可以创建任何一种解决方案。

但在多数情况下,却不必如此。因为有时企业的某些业务并不需要迅速的立即恢复。根据不同的恢复目标和实现方案,灾难业务连续技术方案一般可分为七个级别。在这七个级别的灾备方案中,随着灾备目标不同,方案及成本也有不同。简单的说,就是恢复时间要求越短,成本越高。所以,合适的IT治理业务连续性管理方案应是基于风险等级和成本相应平衡的。

(5)业务连续恢复方案,不能光建不练

IT治理业务连续恢复方案是为了减少灾难发生后带来的损失,和保证IT系统所支持的关键业务能在灾难发生后,及时恢复和继续运作所作的事前计划和安排。因为灾难业务连续恢复系统只在灾难发生后才会考虑启用,在企业日常运营中并不投入使用。所以,即使业务连续性计划存在有问题也不会立即暴露出来。基于这个原因,业务连续恢复计划不能光建不练。

也就是说,制定好IT治理业务连续恢复计划后,并不是万事大吉和束之高阁,不经过演练的计划方案无异于纸上谈兵。但很多企业并没有意识到这一点,往往花费了大量的人力和物力制定了IT业务连续恢复系统就以为万事大吉了。殊不知,在IT灾难状态下这些措施并不一定有效。所以,即使建立了业务连续恢复计划,测试和演练也是非常有必要的,而且这也是有效的IT治理必不可少的关键一步。

(责编:陈广成)

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

灾难恢复 管理系统 风险管理 风险分析 存储设备 解决方案
0