| 
 4.1.        可用性建模工具 
 
 应该具有以下功能: ¨         预测可用性数据的发展趋势。 ¨         可以从CMDB中接受数据的输入。 一般来讲,一个Excel表格就可以提供这些功能。 
                           ITSS培训  
4.2.        可用性监控工具 
 
 应该具有如下功能: 
 ¨         可以对IT组件进行监控,监控的对象包括:响应时间、可用性等。 ¨         可以生成监控报表。 例如:HP Openview Internet Services, HP Openview Operation, CA Unicenter等。  
5.           可用性管理中的常见技术 
 
 5.1.        可用性的计算 
 
 1.  对于单个部件的可用性计算公式 
 
 可用性一般是以百分数的形式来表示的。公式如下: 可用性 = (AST - DT)/ AST × 100 其中: AST: Agreed service time,协商后的服务可用时间。 DT:Actual downtime during agreed service time, 实际的宕机时间。 例如:对于某项服务,经于用户协商之后,达成的服务可用时间是:360天×24小时。但是一年过去,发生了三次服务中断的事故,服务中断了10小时,那最终的服务可用性等于 (360×24 - 10)/ (360×24) × 100 = 99.884% 
 
 2.  多个部件的可用性计算公司 
 
 当某服务是有多个部件组成的,那么耽搁部件的计算公式,可以参考上面章节的介绍,但是对于整个服务的可用性计算,则需要对这些部件的关系及每个部件的可用性做通盘考虑。 情况一:当这些部件是“串行”的组成了服务,例如: 则采取如下的计算步骤: ¨         服务的可用性= Host × Network × Server× Workstation ¨         即等于 = 0.98 × 0.98 × 0.975 × 0.96 = 0.8989 ¨         总的可用性等于 89.8% 情况二:当这些部件是“并行”的组成了服务,例如: 则采取如下的计算步骤: 1) 先计算两个主机的可用性, = 1  - (1-Host)×(1-Host)                             = 1 - (1-0.98)×(1-0.98)                            = 0.9996 2) 然后,再按照情况一的公式来计算总的可用性 = 0.9996 * 0.98 * 0.975 * 0.96 = 0.9169 3) 最终的可用性是91.69% 5.2.        部件故障影响分析 (Component Failure Impact Analysis, CFIA) 在进行差距分析的时候,需要识别出单点故障以及评估相应的影响,这个时候“部件故障影响分析,Component Failure Impact Analysis (CFIA)”可以提供一个很好的帮助。 
                                    ITSS认证 
 
 1.  基本CFIA的分析方法 
 具体的步骤如下: 
 1)  首先确定关键业务(VBF)的所有组成部件,可以参考该关键业务的系统框架,应该包括:平台级部件、IT部件、网络部件、数据部件、应用部件等等。 
 2)  编制表格,见下: 3)  将所有的配置项放到左边的一列中,将所有的关键业务放到顶部的一行中。 4)  然后,对每一个配置项进行如下的评估。 a)   当配置项出故障后,不会影响到相应关键业务,则将对应的表格中留空白。 b)   当配置项出故障后,会影响到相应的关键业务,则对应的表格中插入字符“X”。 c)   当配置项出故障后,有另外的配置项替代,且关键业务不受影响,则对应的表格中插入字符“A”。 d)   当配置项出故障后,有另外的配置项替代,但是关键业务需要重新恢复,则对应的表格中插入字符“B”。 例如,下图所示: Figure 8.12 - Sample configuration and basic CFIA grid 5)   完成这个表格的制作后,对某一个关键业务来说,所有标有“X”的配置项,都有可能形成单点故障。并且充表中可以看出,每一个配置项对各个关键业务的影响程度,可以用来进行风险评估。  
 
2.  高级的CFIA分析方法 
 
 在评估过程中,可以将基本的CFIA分析方法进行扩展,增加一些列来描述其他的属性,例如: ¨         故障发生的几率:用来反映配置项故障发生的几率。数据可以根据MTBF的值来决定。 ¨         故障恢复时间:用来表示发生故障后的配置项恢复时间。 ¨         恢复步骤:用来指导具体的恢复工作。 ¨         依赖关系:用来表示当配置项发生故障后,还有哪些依赖的配置项也会发生问题。 5.3.        故障树分析(Fault Tree Analysis, FTA) 故障数分析技术用来对故障进行分析,即当发生一个故障后,预测对相应的服务有什么影响,可以用来计算可用性。(此处只对FTA进行简单的介绍。) 1.   FTA中的事件类型 ·         基本事件。即最底层的事件,表示某种类型的故障,例如:电源故障、备份线路故障、机器故障等。 ·         结果事件。即中间层次的事件,指底层的多个基本事件发生后所产生的结果。 2.   事件之间的关系 ·         “或(OR)”关系 ·         “与(And)”关系 下图是FTA的一个简单的例子:  
  |