monicazhang 发表于 2015-7-17 14:41:26

可用性管理的常见ITSS技术分析方法

20150717    淡然

续上


4.         流程支持工具

4.1.      可用性建模工具

应该具有以下功能:¨         预测可用性数据的发展趋势。¨         可以从CMDB中接受数据的输入。一般来讲,一个Excel表格就可以提供这些功能。
                           ITSS培训
4.2.      可用性监控工具

应该具有如下功能:
¨         可以对IT组件进行监控,监控的对象包括:响应时间、可用性等。¨         可以生成监控报表。例如:HP Openview Internet Services, HP Openview Operation, CA Unicenter等。
5.         可用性管理中的常见技术

5.1.      可用性的计算

1.对于单个部件的可用性计算公式

可用性一般是以百分数的形式来表示的。公式如下:可用性 = (AST - DT)/ AST × 100其中:AST: Agreed service time,协商后的服务可用时间。DT:Actual downtime during agreed service time, 实际的宕机时间。例如:对于某项服务,经于用户协商之后,达成的服务可用时间是:360天×24小时。但是一年过去,发生了三次服务中断的事故,服务中断了10小时,那最终的服务可用性等于 (360×24 - 10)/ (360×24) × 100 = 99.884%

2.多个部件的可用性计算公司

当某服务是有多个部件组成的,那么耽搁部件的计算公式,可以参考上面章节的介绍,但是对于整个服务的可用性计算,则需要对这些部件的关系及每个部件的可用性做通盘考虑。情况一:当这些部件是“串行”的组成了服务,例如:则采取如下的计算步骤:¨         服务的可用性= Host × Network × Server× Workstation¨         即等于 = 0.98 × 0.98 × 0.975 × 0.96 = 0.8989¨         总的可用性等于 89.8%情况二:当这些部件是“并行”的组成了服务,例如:则采取如下的计算步骤:1) 先计算两个主机的可用性, = 1- (1-Host)×(1-Host)                            = 1 - (1-0.98)×(1-0.98)                           = 0.99962) 然后,再按照情况一的公式来计算总的可用性 = 0.9996 * 0.98 * 0.975 * 0.96 = 0.91693) 最终的可用性是91.69%5.2.      部件故障影响分析 (Component Failure Impact Analysis, CFIA)在进行差距分析的时候,需要识别出单点故障以及评估相应的影响,这个时候“部件故障影响分析,Component Failure Impact Analysis (CFIA)”可以提供一个很好的帮助。
                                    ITSS认证

1.基本CFIA的分析方法
具体的步骤如下:
1)首先确定关键业务(VBF)的所有组成部件,可以参考该关键业务的系统框架,应该包括:平台级部件、IT部件、网络部件、数据部件、应用部件等等。
2)编制表格,见下:
配置项      关键业务关键业务一关键应业务二…关键业务n
配置项一




配置项二









3)将所有的配置项放到左边的一列中,将所有的关键业务放到顶部的一行中。4)然后,对每一个配置项进行如下的评估。a)   当配置项出故障后,不会影响到相应关键业务,则将对应的表格中留空白。b)   当配置项出故障后,会影响到相应的关键业务,则对应的表格中插入字符“X”。c)   当配置项出故障后,有另外的配置项替代,且关键业务不受影响,则对应的表格中插入字符“A”。d)   当配置项出故障后,有另外的配置项替代,但是关键业务需要重新恢复,则对应的表格中插入字符“B”。例如,下图所示:Figure 8.12 - Sample configuration and basic CFIA grid5)   完成这个表格的制作后,对某一个关键业务来说,所有标有“X”的配置项,都有可能形成单点故障。并且充表中可以看出,每一个配置项对各个关键业务的影响程度,可以用来进行风险评估。

2.高级的CFIA分析方法

在评估过程中,可以将基本的CFIA分析方法进行扩展,增加一些列来描述其他的属性,例如:¨         故障发生的几率:用来反映配置项故障发生的几率。数据可以根据MTBF的值来决定。¨         故障恢复时间:用来表示发生故障后的配置项恢复时间。¨         恢复步骤:用来指导具体的恢复工作。¨         依赖关系:用来表示当配置项发生故障后,还有哪些依赖的配置项也会发生问题。5.3.      故障树分析(Fault Tree Analysis, FTA)故障数分析技术用来对故障进行分析,即当发生一个故障后,预测对相应的服务有什么影响,可以用来计算可用性。(此处只对FTA进行简单的介绍。)1.   FTA中的事件类型·         基本事件。即最底层的事件,表示某种类型的故障,例如:电源故障、备份线路故障、机器故障等。·         结果事件。即中间层次的事件,指底层的多个基本事件发生后所产生的结果。2.   事件之间的关系·         “或(OR)”关系·         “与(And)”关系下图是FTA的一个简单的例子:               

愁容骑士 发表于 2018-5-9 14:05:11

学习下,多谢分享
页: [1]
查看完整版本: 可用性管理的常见ITSS技术分析方法