如何构建IT监控管理体系?(一)IT监控管理流程设计 IT监控工具大家都不陌生,是目前做IT运维的必须工具之一,但大部分组织都遇到相当尴尬的情况:“平时不用,用时不管用”。花重金购买亦或者花很大精力把开源IT监控工具部署起来,能够获取指标、能够有告警就认为监控已经完成了。奇怪的现象出现了: 为什么会出现这种状况呢?其中有一个最重要的原因就是:缺少从管理的纬度来设计IT监控这项任务到底该如何做。 今天我们来解读一下ITIL4的“监控和事态管理实践”是如何从管理的视角来管理IT监控体系?只有在管理上想明白了IT监控该如何做,那么IT监控的价值才能真正的发挥出来。
$ Q& Z/ H- W( l: |: a) J& G' M9 d7 A* c: ^* T8 h- n$ `) l# R
4 F. t9 I+ X, U: z3 f# P. v2 q; m
ITIL4监控和事态管理实践在讲什么?
{# y/ T# M1 I8 I6 E% v( ?
+ g8 I% D+ P; j& y该实践的核心假设是: 1)监控的本质是:探测、跟踪和记录被监控对象状态的变化。 2)不是所有的状态变化都需要被关注,监控的目标和阈值以及其他规则决定,应该将哪些状态变化定义为事态。 3)并不是所有的事态都需要被关注和需要同样的响应策略,事态的处理要求决定:应该如何响应和处理事态。 监控和事态管理实践的目的是什么? 如何从管理的纬度确定“为什么监控、监控什么、如何监控以及如何处理监控形成的告警和事态,形成监控管理的闭环”。 监控和事态管理的关键成功要素: 1)建立和维护描述各类型事态和探测它们所需的监控功能的方法/模型(确定监控对象、服务目标、监控指标) 2)确保及时,相关且足够的监控数据提供给相关的利益相关者(提供有效的监控信息) 3)确保发现、解释事态,并在需要时尽快采取措施 (事态的定义和处置) 如何能够达到上述目的: 监控和事态管理核心通过三个管理流程达到上述目的:监控规划流程、事态处理流程、监控和事态的评审流程 9 V! F- x& E+ g9 ? H
* b% G* O7 a: f$ s
* f" @% c5 ] |; N! C& K! ]如何构建一个有效的监控:监控规划流程 4 B8 W5 o7 s( X6 I3 L" n! Q4 [/ l! P# ~
3 t/ p7 _6 ~! `4 g: R$ K( F我们在构建组织的IT监控管理要求、IT监控管理体系和部署IT监控工具时,首先应该有一套规范的监控规划流程,核心要回答清楚: 1)我们为什么要监控:监控的目标? 2)我们计划监控什么:监控的计划? 3)我们如何确定监控对象的状态变化是正常的:服务健康状态模型? 4)我们应该关注哪些状态变化? 5)检测到的状态变化应该如何识别其优先级? 6)检测到的状态变化应该通知谁?谁负责? 监控规划流程的概括 监控规划流程的基本步骤 如何处理监控产生的告警:事态处理流程 1 v. u8 R3 H( D7 {: ~2 J- Z* U% D
- @+ R/ ]3 g7 y& l# o* D, R如何针对一类或一个监控对象规划监控计划和策略 + \2 L: Y4 U, G% x
+ m! \0 t' @1 I+ h0 P6 r
大家通过监控规划流程和事态处理的流程了解了执行一类服务/资源监控的基本步骤和执行过程。那么在其中是否有一些具体的执行方法呢?这个我们将在下一期中给大家介绍如何基于SRE的SLO方法来执行监控规划流程。敬请期待。 2 u. Q# m; X$ r; X
$ E: H$ ^% L* G$ n% s& C5 d
5 L9 U+ j$ l3 I% @ |