
一、基本信息与目的
监控和事态管理实践的目的是通过观察、分析和适当响应服务组件中的状态变化来支持服务组件的正常运行。该实践识别并优先处理基础设施、应用程序、服务、业务流程和信息安全事件,并建立对这些事件的适当响应。
二、关键术语与概念
1.事态
事态被定义为对服务或其他配置项(CI)管理具有重要意义的任何状态变化。
2.监控
对系统、实践或服务的重复观察,以检测事态并确保当前状态已知。分为:
- 主动监控:监控工具主动轮询配置项
- 被动监控:配置项在满足条件时自行通知监控工具
3.事态类型
- 信息性事态:仅记录用于报告和分析
- 指示性事态:需要执行预定义人工活动
- 警告事态:需要进一步调查
- 异常事态:表明操作失败或服务中断
4.阈值
触发预定义响应的度量值,用于过滤监控数据并提供服务中断预警。
三、实践成功因素整合技术专业知识与理解组件如何支持价值流,识别需监控的服务,平衡监控粒度。
2.确保监控数据可供利益相关方使用
提供关于服务绩效的实证依据,支持服务测量和持续改进。
3.确保事态被及时检测和处理
事态管理效率取决于服务架构和自动化水平。
四、流程和活动
1.监控规划
- 定义监控目标和范围
- 定义事态类型和阈值
- 建立服务健康模型
- 制定监控行动计划
2.事态处理
- 事态检测和记录
- 事态过滤和关联
- 事态分类和响应选择
- 通知发送和响应执行
此外还包括评审活动,如重大事态评审和服务健康模型评审
五、组织和人员
1.关键角色
- 服务所有者:定义监控目标
- 设计师和开发人员:确定可监控参数
- 监控专家:设置阈值和规则
- 运营管理人员:定义响应计划
2.组织结构
组织中很少有专门的监控团队。通常,服务运营人员负责监控。重要的是在服务设计阶段就规划监控,并在整个组织中一致应用实践。
六、信息和技术
1.信息交换
监控和事态管理依赖高质量信息,包括客户、服务、供应商和服务运行状态数据。
2.自动化和工具
支持工具包括工作流管理、监控工具和分析报告工具。建议建立监控策略、了解手动活动后再自动化、使用机器学习检测异常。
七、合作伙伴和供应商合作伙伴可以:
- 在产品中提供监控功能
- 提供监控配置文档
- 为托管环境提供监控工具
- 执行监控活动
重要的是确保对外包服务的监控访问权限。
八、实践成功建议- 建立监控策略并定期更新
- 理解被监控组件的业务目的
- 考虑所有利益相关方需求
- 避免监控未知重要性的事态
- 定期评审监控报告效果
- 在中断后分析如何防止未来问题
- 使用自动化评估事态并响应
ITIL 4大师级课程官方授权讲师长河老师原创,末经许可,不得转载
|
|