查资料了 |
event包括通知(notification),警告(alert),对服务造成影响或将要造成影响的event,可以归类到incident,并使用incident流程处理。 |
我来抛出一个观点吧。 为什么非此及彼呢,不能使二者兼有之么? 首先这个是监控作为一个event出现,目前最主要的是立即处理这个event。 其次处理完之后可以由此提出一个incident,找出出现的原因及相关解决办法,以后后续如何改进工作避免出现类似情况发生,再次----可以由此及彼排查目前具备这种情况的设备有多少,出现这种现象的几率及避免的方式。 |
绝对是incident,因为符合“尚未影响到服务的配置项故障”(Failure of a Configuration Item that has not yet affected Service)。详见incident的定义: 1)An unplanned interruption to an IT Service (服务的非计划中断 [注:计划中断不算downtime,要从SLA可用性计算中减去,例如:停机维护]) or 2)reduction in the Quality of an IT Service (IT服务质量的降低 [注:也许尚未中断,但是服务质量降低了,例如:网络拥塞导致的响应时间延长]). 3)Failure of a Configuration Item that has not yet affected Service is also an Incident [注:CI虽然故障但尚未影响到服务质量,但是潜在影响已经发生,例如:网络的备份线路故障,虽然暂时不影响服务质量,但是在此期间一旦主用线路同时出现故障,导致无法实现SLA目标,例如:白金级或金级,此时就会影响服务质量]. 还举了一个例子:For example, Failure of one disk from a mirror set (映像集里的一个磁盘的故障). Incident是event中的一类,其他event还包括警告(alert)或通知(notification)等,例如:有些监控工具会纪录用户对于关键设备的登入/登出操作,作为通知显示给系统管理员。 |