学习资料: ITIL先锋论坛专家讲堂直播 300期视频回放 
 
 
 
  
 
 
 
七、事件管理流程的设计 
 
有效的事件管理不是在服务投入运营的时候才设计的。既然事件管理是监视服务的性能和可用性的基础,准确的监视目标和机制应该在可用性管理和容量管理流程中(服务设计阶段)进行说明和批准。 
然而,这并不意味着事件管理是由不十分相干的系统开发人员来完成,然后就与被监控的系统一起发布到运营管理中,也不意味着一旦设计并得到批准,事件管理流程就稳定了。日常运行活动将定义其他的事件、优先级、告警和其他改进,这些都将通过持续改进流程反馈回服务战略和服务设计中。 
 
1、规范 
规范定义了对配置项的监视内容及其影响的处理方式。 
规范中的一部分包含了一组需要制定的决策,另一部分则是执行这些决策的设计机制。 
(1)需要制定的决策包括 
需要监视什么? 
需要进行哪类监视(例如主动或被动;性能或输出)? 
何时生成事件? 
需要在事件中传递哪类信息? 
谁需要该信息? 
(2)需要设计的机制包括 
事件如何生成? 
配置项的标准特性中是否已经具备事件生成机制?如果是,哪些将被使用?是否足够?还需要定制以包含更多信息吗? 
哪些数据将用于构成事件记录? 
事件是自动生成还是必须由CI轮询? 
事件的记录和存储位置? 
如何收集补充数据? 
 
2、错误消息 
错误消息功能对所有组件都是十分重要的。尤其重要的是所有软件应用设计都应支持事件管理。这可能包括提供有意义的错误消息和代码,明确标明具体的故障点和最可能的原因。在这种情况下,新应用的测试应该包括对事件的生成是否准确进行测试。 
新兴技术,如Java管理扩展( JMX)或HawkNL提供了相关的工具来构建分布式、基于Web的模块化和动态解决方案,用于管理和监视设备、应用和服务驱动网络。这时程序员就可以在编码时减少错误或者不再需要在代码中考虑错误消息问题,从而实现优良的标准化和代码独立性。 
 
3、事件监测和告警机制 
出色的事件管理流程还要包括设计和安装工具,用于过滤、关联和升级事件。 
关联引擎特别需要与规则和标准组合在一起,这些规则和标准能确定某类事件的重要性和响应行动。 
事件监测和告警机制的设计包括: 
 通过事件管理流程进行管理的所有业务流程及相关业务知识; 
各配置项支持的服务的服务级别管理要求; 
配置项的支持责任人; 
配置项正常和异常运行情况; 
了解同类事件(有关同一配置项或多种类似配置项)的重要性; 
有效支持配置项的所有信息; 
有助于诊断配置项问题的信息; 
熟悉故障优先级和分类代码,以便创建故障记录; 
了解所有与受影响配置项互相依赖的配置项; 
来自厂商或历史经验的已知错误。 
 
4、阈值的确定 
阈值本身不是由事件管理流程设置和管理的。但是,要确定每个配置项的性能级别是困难的。大多数阈值都不是一个常量,它们一般由许多相关变量组成。具体变量和阈值的选取需要根据管理目标的需要来确定。 
 
八、触发器与流程接口 
任何情况出现都可能启动事件管理流程。关键是定义哪些情况的出现是重要的,哪些需要采取行动。触发器包括: 
定义在设计文档、运营级别协议(OLA)或标准运行程序(SOP)中的任何级别配置项性能的异常; 
自动化流程或进程的异常,比如,一项分配给构建团队的例行变更没有按时完成; 
事件管理监视的业务流程的异常: 
自动化任务和作业的完成; 
设备或数据库记录中的状态改变; 
一个应用或数据库被一个用户或自动化的进程或作业访问; 
设备、数据库或应用达到既定的性能的极限。 
 
事件管理应与任何需要监控的流程都有交互接口,特别是在事件发生后不需要实时监视但需要某种形式上的干涉流程。与其他流程的接口包括: 
与业务应用和业务流程的接口,以便能够监测重要的业务事件并采取行动(比如,业务应用报告客户帐号的异常,这可能表明出现欺诈或安全漏洞); 
主要的IT服务管理流程关系,比如故障、问题和变更管理; 
容量和可用性管理确定什么事件是重要的、阈值多少是合适的以及如何响应事件等。反过来,事件管理通过对事件的响应和对实际事件的报告,从而提高服务的性能和可用性; 
配置管理能够利用事件确定基础架构中配置项的状态,通过与配置管理系统中的基线比较确定是否在组织内发生非授权变更; 
资产管理则利用事件管理确定资产的生命周期状态。比如,当一个新的资产成功配置并运行起来的时候,则会产生一个事件; 
事件是一个丰富的信息来源,这些信息在知识管理系统中进行处理; 
事件管理扮演了重要角色,确保尽早发现对服务级别协议的潜在影响,以及尽快修复有关故障,以便对服务目标影响最小。 
 
九、关键绩效指标 
为评价事件管理流程的有效性和效率性,可以采用以下关键绩效指标: 
按照类别划分的事件数量; 
按照重要性划分的事件数量; 
需要人工干预及是否执行完毕的事件数量和百分比; 
导致故障或变更的事件数量和百分比; 
由问题或己知错误引发的故障数量和百分比; 
重复事件的数量和百分比; 
有关性能或可用性问题的事件数量和百分比(例如,在过去6个月内超出阈值的次数); 
按平台或应用分类的事件数量和百分比; 
相比故障数量,事件的数量和比例。 
 
10、关键成功因素 
事件管理流程有效实施的关键成功因素在于设定恰当的过滤级别。事实上,事件的重要性是随着不同的情况发生变化的。比如,用户今天登录到系统是正常的事件,但是如果这个用户明天离开了这个组织后还企图登录这个系统就是安全事件。 
要达到正确的过滤级别,有三个关键点: 
事件管理流程与其他流程集成,这将确保重要的事件会报告给这些流程; 
设计新服务时要时刻考虑到事件管理; 
不管事件管理流程的准备工作如何充分,还是会有不恰当的事件过滤问题,因此还是应该有一个正常的流程来评估过滤的有效性。 
 
在整个IT基础架构中部署监控代理时,做好计划是很重要的,将其作为一个项目进行管理,需要在项目周期内分配和保证充足的时间和资源。 
 
 |