《银行业信息系统灾难恢复管理规范》2008版-在农业银行的应用

更新时间:2012-02-17 17:24:54  《银行业信息系统灾难恢复管理规范》在中国农业银行的应用        一、背景        数据大集中为银行带来集约化经营管理…

更新时间:2012-02-17 17:24:54
 《银行业信息系统灾难恢复管理规范》在中国农业银行的应用
       一、背景
       数据大集中为银行带来集约化经营管理优势的同时,也带来了信息系统风险的相对集中,这使得银行经营发展对信息系统连续运行的要求也越来越高。加强信息系统灾备体系建设,保障业务连续运行,已经成为影响银行市场竞争能力的一个重要因素。
       信息系统灾备体系建设是一项复杂的系统工程,需要充分借鉴国内外先进经验,遵循成熟的标准规范,根据自身组织机构特点和信息系统建设实际情况灵活建设。关于信息系统灾难备份与恢复,西方发达国家积累了丰富的经验,建立了比较成熟的的标准体系,如:国际灾难恢复协会(DRII)的《业务连续性规划师专业实践》(《Professional Practices for Business Continuity Planers》);信息系统审计与控制协会(ISACA)的《COBIT管理指南》(《COBIT Management Guidelines》)等;我国也制定了相关的标准规范,如:《信息安全技术 信息系统灾难恢复规范》(GB/T 20988- 2007)、《信息安全技术 信息安全风险评估规范》(GB/T 20984-2007)等。
       为了规范和引导银行业信息系统灾难恢复工作,有效防范银行业信息系统风险,保护银行业客户的合法权益,中国人民银行在继承国际先进标准和国家标准的基础上,针对银行业信息系统、业务流程、组织体系、监管要求的特点,制定并发布了金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T 0044-2008)(以下简称“JR/T 0044”),该标准成为我国银行业信息系统灾备体系建设的重要指导性文件。
       二、标准概述
       JR/T 0044从组织机构、灾难恢复需求、灾难恢复策略、灾备系统、灾备中心运维、预案、应急响应和灾难恢复等灾难恢复工作的七个主要方面进行了系统地说明和规定。
       (一)组织机构设立和职责。提出灾难恢复组织机构应分为决策层、管理层和执行层,在灾难恢复工作中,分别承担重大事宜的决策、恢复工作的管理和协调、恢复工作的具体实施等不同职责。
       (二)灾难恢复需求分析。详细说明了灾难恢复需求分析的方法和具体步骤。
       (三)灾难恢复策略制定。详细介绍了灾难恢复策略的制定方法和主要内容,即:按照成本风险平衡原则,确定每项关键业务功能的灾难恢复能力等级、灾备布局模式、灾备资源的获取和保障方式等。
       (四)灾难备份系统实施。介绍了灾备基础设施建设和灾备系统建设的基本要求。
       (五)灾备中心运行维护管理。说明了灾备中心运行维护管理制度的范围和运行维护的主要工作内容。
       (六)灾难恢复预案。详细介绍了灾难恢复预案的主要内容、制订原则和过程。
       (七)应急响应和灾难恢复。介绍了信息系统发生紧急事件或灾难事件后,应采取的紧急措施和应注意的工作环节。
       三、JR/T 0044在农业银行应用
       农业银行非常重视灾备体系建设,将其作为全行信息化建设的重点工程。在灾备体系建设过程中充分遵循JR/T 0044相关规定,结合本行实际情况,规划、设计了完善的灾备体系框架,分设多个灾备项目,合理安排工作任务和工作次序,稳步推进灾备体系建设并取得了丰富成果,有效地提高了风险管控能力,提高了股东、客户和合作伙伴的信心。
       (一)成立备援测试中心,明确灾备管理工作定位。
       灾备体系庞大而复杂,需要多个部门协同工作,是一项长期工程,因此,灾备体系建设工作宜由某个全职部门牵头开展。为有效推进灾备体系建设工作,农业银行于2008年成立了备援测试中心,下设灾备管理部,全面负责全行灾备体系建设规划和管理。根据JR/T 0044对灾难的定义,即“由于人为或自然的原因,造成信息系统严重故障、瘫痪或其数据严重受损,使信息系统支持的业务功能停顿或服务水平达到不可接受的程度,并持续特定时间的突发性事件”,以及从应急响应和灾难恢复工作要点(见JR/T 0044 附录A)来看,灾备管理工作的定位应该是应对信息系统发生极端灾难情况而进行的灾难备份与恢复管理工作,它依托于生产日常管理体系进行备份管理和紧急事件预警管理,当紧急事件导致信息系统瘫痪时,通过评估恢复信息系统所需的时间是否超过RTO(恢复时间目标:灾难发生后信息系统从停顿到必须恢复的时间要求),来判断紧急事件是否为灾难事件,并决策是否进行灾难宣告,之后分别进入灾难恢复流程或应急处置流程。农业银行经过分析和研究,明确了灾备管理、应急管理、生产日常管理、IT连续性管理和业务连续性管理等概念之间的关系,如右图所示。其中特别需要指出的是,灾备管理应对的是物理性灾难,对于逻辑性灾难,灾备管理无能为力,逻辑性灾难是应急管理的工作范畴。
       (二)规划灾备体系建设,明确工作思路。
       农业银行根据全行信息系统架构及部署情况,全方位地规划了灾备体系建设工程,计划按照“3个层次、5个项目”的工作思路,全面建设灾备体系。“3个层次”即总行、一级分行、二级分行等3层信息系统部署架构;“5个项目”即总行数据中心异地灾备项目一期和二期、总行数据中心同城灾备项目、一级分行灾备项目和二级分行灾备项目等,其中总行数据中心异地灾备项目一期和二期分别基于北京现有资源和正在建设当中的北京数据中心的资源。农业银行计划通过这些项目完成灾备体系初步建设,然后进入持续维护管理阶段,不断演练,不断完善灾备体系。
       (三)设计灾备体系框架,建设灾备体系。
       JR/T 0044将灾难恢复预案定义为“信息系统灾难恢复所需组织、流程、资源等预先制定的行动方案,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能”。农业银行根据该定义,综合考虑灾难恢复策略、组织机构、灾难恢复预案和管理制度等,设计了完善的灾备体系框架。
       1.开展业务影响分析,制定灾难恢复策略。
       农业银行按照JR/T 0044要求,“根据业务功能分析、业务中断影响分析并综合考虑系统间的依赖性,确定信息系统的恢复优先级”,对全行部署的所有信息系统进行了梳理,分析各个信息系统的部署地点、相互之间的依赖关系、所支撑的业务和业务中断的影响程度等,划分各个信息系统的恢复需求等级,排列恢复优先级,并结合当前资源情况,明确了灾难恢复的信息系统范围和恢复时间指标。
       农业银行在总行层面,采取了“两地三中心”的布局模式,其中异地灾备中心与软件开发和测试复用机房、网络、系统和运行保障等基础资源,充分贯彻JR/T 0044所倡导的成本风险平衡原则。在一级分行和二级分行层面,农业银行均采用了“多主一备”的布局模式。
       2.建立灾难恢复指挥体系,明确工作职责。
       农业银行根据JR/T 0044对灾难恢复组织机构的要求,结合本行组织架构,成立了“包含决策层、管理层、执行层”的灾难恢复指挥体系。决策层由高层管理者组成,主要负责批准灾难恢复预案的启动和重大事项决策;管理层由业务、技术、后勤等相关部门负责人组成,在决策层的领导下开展工作,主要负责协调资源并指挥灾难恢复工作;执行层由业务、技术、后勤等相关部门工作人员和外部机构人员组成,在管理层的领导下开展工作,负责灾难恢复的具体实施及恢复后的运行维护工作。三层组织通过指挥/报告机制、协调机制、联络机制、保障机制等灾难恢复工作机制,确保各层之间、同层各部门之间能够信息传达及时、沟通顺畅,确保灾难恢复工作能够顺利进行。
       3.编制灾难恢复预案,组织灾难恢复演练。
       农业银行首先设计了灾难恢复预案框架,即至少要包含JR/T 0044所描述的“组织、流程和资源”等预案主要内容,然后设计了灾难恢复预案的文档形式,编制了《数据中心信息系统灾难恢复预案》。预案由三部分组成:第一部分是灾备体系建设,主要介绍发生灾难之前的灾备体系建设工作,包括策略制定、组织机构落实和资源配置等;第二部分是灾难恢复流程,主要介绍发生灾难后,为了恢复信息系统的重续运行,灾备中心进行响应及恢复的工作流程;第三部分是附录,这里收录了涉及保密信息(如系统、网络的技术配置和操作手册等)、变更频繁(如任务一览表、联络清单等)、以及作为工作文档模板(如报告单、命令单等)的内容。这种预案结构的最大优点是第一部分和第二部分内容相对稳定,作为预案主文档可以不必频繁修订,便于预案的维护管理,各分支机构可以参考这个预案框架,结合自身实际情况,重点编制附件部分,然后落地实施。
       农业银行在搭建灾备系统的同时,同步编制了相应灾难恢复预案,之后组织了灾难恢复演练。JR/T 0044指出,“演练是为了验证灾难恢复预案的完整性、易用性、明确性、有效性和兼容性,提高单位的预案执行能力”。所以,灾难恢复预案的制定完成,只是解决了预案有没有的问题,预案是否有效还需要通过不同形式、不同深度的演练来进行验证。农业银行按照JR/T 0044对演练目的、形式、层次、组织实施、评估和预案修订的指导,制定了详细的演练计划,设计了详尽的演练方案模板,模板内容包括演练组织管理和技术配置等演练前准备工作,桌面演练、模拟演练、实战演练的目标与定位,演练流程脚本,预期执行结果,演练风险控制和演练评估标准等具体实施方案,以及演练执行过程中的控制、记录、问题汇总和演练后的总结等。
       4.制定灾备管理制度,维护管理灾备体系。
       JR/T 0044用整整一章阐述“灾难备份中心的运行维护管理”,另用一节阐述“灾难恢复预案的管理”,并把灾备管理制度建设放在了首要位置,作为灾备体系建设可持续发展和有效运作的重要保障。农业银行拟从总行和分行两个层面分别制定《数据中心灾备管理实施细则》和《分行灾备管理实施细则》,并与更高层面的《重大突发事件应急预案》和《信息系统应急管理工作实施细则》等有机衔接。灾备管理制度的主要内容将包括预案管理(如问题管理、变更管理、版本管理以及发布管理等)、测试管理、演练管理、灾备项目管理、培训管理、监督管理、灾备系统运维管理、灾难响应与处置管理等。
       四、农业银行灾备体系建设的阶段性成果和社会效益
       在JR/T 0044的指导下,农业银行灾备体系建设取得了丰富的阶段性成果。在“数据中心异地灾备项目(一期)”中,已经制定完成灾难恢复策略和灾难恢复预案,实现了核心业务数据从上海到北京的远程异步实时备份,搭建了异地灾备系统和网络,基本达到了第5级灾难恢复能力等级的要求。如果上海数据中心发生灾难,农业银行可以确保柜台、ATM和自助终端等交易渠道和95599客服热线得到快速开通,确保单折业务、银行卡业务、资产业务和联行业务等核心基本业务可以开展。2010年10月,农业银行历史上首次完成了多技术领域集成的、综合性的、业务级的总行数据中心部分重要信息系统的异地灾难恢复演练,这标志着农业银行已初步具备灾后快速恢复核心业务的能力。另外,农业银行北京数据中心已开工建设,该中心包含2万平方米的机房,建成后将主要承担总行异地灾备系统和管理信息系统的运行功能;上海同城灾备中心也在进行选址和规划设计。
       在“二级分行灾备管理项目”中,农业银行在试点分行制定完成了灾难恢复策略、灾难恢复预案及预案模板,并于2010年8月由总行、浙江省分行、绍兴市分行联合组织了一次二级分行及以下网点信息系统灾难恢复实战演练。此次演练将参演网点的所有高、低柜及自助设备业务均切换到灾备线路和服务器上,办理了一天的真实业务,这在农业银行灾备体系建设中具有突破性的意义。
       农业银行已经初步建成并仍在不断深化完善的灾备体系,是实施全面风险管理的重要举措,既是对业务数据和业务连续性的保护,也是对股东、客户和合作伙伴的一种信心保证,有力提高了农业银行的市场竞争能力,为农业银行实现“3510”规划,建设“优秀大型上市银行”,提供了强有力的支撑。
       五、总结
       农业银行深入学习、研究和应用JR/T 0044,在灾备体系建设工程中取得了丰富的经验。
       (一)必须重视灾备管理工作定位。
       灾备体系建设首先要得到高管层的重视和支持,并明确灾备管理工作的定位,厘清灾备管理与应急管理、IT连续性管理和业务连续性管理之间的界限,以及与生产日常管理的有机衔接。然后,才能在此基础上成立并逐步完善灾备组织机构,并使其与全行应急管理组织体系有机结合。另外,由于灾备体系建设是一项企业级工程,需要多个部门积极参加,所以为了保障灾备管理工作的顺利开展,在明确工作定位的基础上,还要争取人员和资源的投入,成立一个由各个相关部门骨干人员组成的核心工作组,指导和协调相关部门积极参与整个灾备体系的初建工作。
       (二)必须重视业务影响分析和业务恢复预案。
       业务影响分析的目的是为了反映业务恢复需求,其分析结论是制定灾难恢复策略的依据,这对预案编制和演练都有决定性的影响。然而,众多的业务主管部门在进行业务影响分析时,难免出现口径不统一、视角不统一、衡量标准不统一的问题,所以选择合适的部门牵头完成业务影响分析工作就显得尤为重要。另外,不要忽视业务恢复预案。事实上,灾难发生后,技术和业务是灾难恢复不可分割的两个条线,仅靠技术恢复还不足以形成完整的灾难恢复预案,不能确保可以恢复营业,必须从业务管理的角度制定相应的恢复预案。
       (三)必须重视持续开展灾难恢复演练。
灾难恢复预案必须具备有效性、完整性、易用性、明确性和兼容性,而检验这些特性的最佳手段就是持续开展灾难恢复演练。通过演练,可以验证灾备体系的灾难恢复能力,改进灾难恢复流程,纠正灾备体系中的缺陷,打造一支思想过硬、技术精湛的灾难恢复团队。农业银行参照JR/T 0044,将演练划分为桌面演练、模拟演练和实战演练三种类型,按照“先简单后复杂,先桌面后实战,先单项后集成”的工作思路,循序渐进,逐步推进演练深度和广度,从而保障了演练工作可以持续开展。
       (四)必须重视灾备体系全过程维护管理。
       为保障灾备体系动态可持续发展,保持灾难恢复预案的长期有效性和可行性,不断提高灾备人员的切换和生产运行技能,必须建立起一套行之有效、贯穿于整个灾备体系建设工程、长期运转的全过程维护管理机制。这个管理机制应贯穿于灾备体系初建过程和灾备体系常态化管理过程当中,通过灾备管理制度来规范开展。

作者: admin

为您推荐

发表评论

返回顶部