| ITIL中有一个持续性管理,其中的一个核心是灾难恢复计划(disaster recovery planning,DRP),它实施的是一个技术框架,支持在灾难发生之前、之中、之后的业务需求。其主要目的是将系统风险降低到可接受的程度,确保重大业务中断事件发生后,能使用一种可接受的经济方式恢复关键的业务运作。 DRP也是业务持续性计划(business continuity planning,BCP)中子计划,事实上,在企业中业务持续性计划是由业务部门的领导制定,而DRP是由IT部门来领导。 如果一个IT部门/组织没有灾难恢复计划,那是不可想象的,那灾难恢复计划的制定有哪些步骤呢?下面就个人经验分享: 1、至少安排一个执行人员负责,此人需要熟悉业务方面操作,可以寻求向业务部门请一位,事实上,执行人员需要确保IT设施受到保护。 2、成立团队,这些需要考虑的人员是技术人员,特别重视的是这些人员中必须有灾难恢复计划的经验,若无,建议向外公司请顾问 3、确定支持关键业务功能的应用程序/系统 4、确保这些系统的关键数据是有备份的,而且是可靠的 5、制定计划,确定在发生灾难时,使用的是外部资源还是内部资源 6、对这个计划进行实施演习,如果成功,则为所有的应用系统设计一个更加全面的恢复计划。则形成一套方法模板 灾难恢复计划的例子模板: (1)恢复计划概况及规范   a.计划的目的和目标   b.人员安排及责任描述   c.恢复行动总结 (2)灾难报警及行动过程评估   a.恢复管理初始通报   b.领导通报   c.  灾难确认和评估   d.灾难恢复计划行动和恢复人员通报 (3)灾难恢复管理过程   a.恢复操作管理   b.恢复操作控制   c.支持协作部门 (4)处理条件及操作服务过程   a.建立替代操作或者备份区域(如果可行的话)   b.恢复和重建基本的数据和信息   c.激活备份的计算机工具   d.激活备份的通讯及网络工具   e.激活基本处理及操作服务   f.激活终端用户界面和服务 (5)恢复过程工具   a.激活损坏评估以及对建筑物、设备、软件、数据、信息和供应残存价值评估   b.修理及置换受损场所   c.重新激活备份场所 (6)激活厂家支持 (7)计算机中心服务灾难水平说明   a.表明当影响了企业计算能力的灾难发生之后需要提供的服务水平   b.这份服务说明表必须被包括在“服务水平协议”之中,并且向所有使用IT部门提供的IT服务说明 例如: | 序号 
 | 服务 
 | 故障预见 
 | 故障级别 
 | 故障预防措施 
 | 故障处理和恢复措施 
 | 要求时间 
 | 责任人员 
 | 备注 
 |  | 1 
 | *** 
 | MQ服务器硬件损坏,造成到***系统通讯中断 
 | 二级 
 | 1、准备备用环境:以另一台同型号服务器做备用机--目前是***系统的四台AP服务器中的一台(具体服务器名);
 在(具体服务器名)预先安装配置MQ环境;
 2、保证系统安装配置指南的可用性和练习;
 
 | 1、如果硬盘无故障,将一台***系统的AP服务器(IP地址)的硬盘拔出、而将MQ服务器的硬盘拨下来插到**ip的服务器上使用,***服务器停止提供***的AP服务; 
 | 2小时内完成 
 | *** 
 |   
 |  | 2、如果系统硬盘不可用,根据手册重新配置一台MQ服务器。 
 | 3小时内完成 
 |  | 2 
 | F5负载均衡器损坏 
 | 一级 
 | 启用备用机 
 | 备用机已经激活,可按原来方式配置 
 | 1小时内完成 
 | *** 
 |   
 |  | 3 
 | 有一台小型机出现故障无法使用 
 | 视情况而定 
 | 1、测试小型机群集和RAC的有效性和切换过程中可能发生的异常;2、建立完善的备份策略和测试备份的可用
 
 | 向IBM报修等待故障恢复后加入到群集中 
 |   
 | 正式环境的备份恢复无法测试 
 |  | 4 
 | 两台机器都出现故障无法使用 
 | 一级 
 | 如有可能,准备***系统DB的备用服务器,与正式系统环境配置相同;建立完善的备份策略
 
 | 向IBM报修故障处理;如有备机则按照手册在备用服务器上进行恢复
 
 |   
 | *** 
 |   
 |  | 5 
 | 磁盘阵列出现故障无法使用 
 |  | 6 
 | 核心交换机故障或网络故障导致网络不可访问***系统 
 | 一级 
 | 建立完善的网络设备故障切换方案 
 | 按相关方案执行 
 |   
 |   
 |   
 |  | 7 
 | Internet网络出口故障 
 | 一级 
 | 1、申请多个厂商备用出口;2、测试监测出口切换的有效性;
 
 | 如无备用出口,则只能向电信报障等待修复 
 |   
 | *** 
 |   
 |  | 8 
 | 外部域名系统故障;造成外网无法用域名访问系统 
 | 二级 
 | 定期检查外网* 域名状况; 
 | 联系域名服务商处理;通知外网用户以IP访问系统; 
 |   
 | *** 
 |   
 |  | 9 
 | 内部域名系统故障;造成内网无法用域名访问系统 
 | 三级 
 | 定期检查内网 域名状况;配置多台DNS服务器 
 | 启用备用的DNS服务器;如果处理时间较长则通知内网用户以IP访问系统; 
 | 1小时内完成 
 |   
 | 
 恢复报告: 1 测试目的 2 测试范围
 3 测试说明
 4 测试方法及使用资源
 5 测试演练内容
 5.1 数据恢复测试
 5.1.1 环境准备
 5.1.2 恢复数据
 5.1.3 恢复验证
 5.2 应用恢复测试
 5.2.1 环境准备
 5.2.2 恢复应用
 5.2.3 恢复验证
 5.3 验证结果
 |