×
标签: 暂无标签


如何构建IT监控管理体系?(一)IT监控管理流程设计


IT监控工具大家都不陌生,是目前做IT运维的必须工具之一,但大部分组织都遇到相当尴尬的情况:“平时不用,用时不管用”。花重金购买亦或者花很大精力把开源IT监控工具部署起来,能够获取指标、能够有告警就认为监控已经完成了。奇怪的现象出现了:
  • 真正出现故障的时候发现工程师并不用监控,还是用户报故障,工程师手动排查;
  • 监控系统有很多的告警,但也没人处理,监控系统妥妥的变成了摆设。

为什么会出现这种状况呢?其中有一个最重要的原因就是:缺少从管理的纬度来设计IT监控这项任务到底该如何做。 今天我们来解读一下ITIL4的“监控和事态管理实践”是如何从管理的视角来管理IT监控体系?只有在管理上想明白了IT监控该如何做,那么IT监控的价值才能真正的发挥出来。

ITIL4监控和事态管理实践在讲什么?


该实践的核心假设是:
1)监控的本质是:探测、跟踪和记录被监控对象状态的变化。
2)不是所有的状态变化都需要被关注,监控的目标和阈值以及其他规则决定,应该将哪些状态变化定义为事态。
3)并不是所有的事态都需要被关注和需要同样的响应策略,事态的处理要求决定:应该如何响应和处理事态。
监控和事态管理实践的目的是什么?
如何从管理的纬度确定“为什么监控、监控什么、如何监控以及如何处理监控形成的告警和事态,形成监控管理的闭环”。
监控和事态管理的关键成功要素:
1)建立和维护描述各类型事态和探测它们所需的监控功能的方法/模型(确定监控对象、服务目标、监控指标) 2)确保及时,相关且足够的监控数据提供给相关的利益相关者(提供有效的监控信息) 3)确保发现、解释事态,并在需要时尽快采取措施 (事态的定义和处置)
如何能够达到上述目的:
监控和事态管理核心通过三个管理流程达到上述目的:监控规划流程、事态处理流程、监控和事态的评审流程

如何构建一个有效的监控:监控规划流程


我们在构建组织的IT监控管理要求、IT监控管理体系和部署IT监控工具时,首先应该有一套规范的监控规划流程,核心要回答清楚:
1)我们为什么要监控:监控的目标?
2)我们计划监控什么:监控的计划?
3)我们如何确定监控对象的状态变化是正常的:服务健康状态模型?
4)我们应该关注哪些状态变化?
5)检测到的状态变化应该如何识别其优先级?
6)检测到的状态变化应该通知谁?谁负责?
监控规划流程的概括
640.png
监控规划流程的基本步骤
640 (1).png
如何处理监控产生的告警:事态处理流程
640 (2).png

如何针对一类或一个监控对象规划监控计划和策略


大家通过监控规划流程和事态处理的流程了解了执行一类服务/资源监控的基本步骤和执行过程。那么在其中是否有一些具体的执行方法呢?这个我们将在下一期中给大家介绍如何基于SRE的SLO方法来执行监控规划流程。敬请期待。







上一篇:什么是SRE,如何从 0 建设 SRE 运维体系?
下一篇:ITIL4、DevOps和SRE在IT运维中该如何选择
slbenben

写了 1670 篇文章,拥有财富 10288,被 10 人关注

B Color Link Quote Code Smilies

成为第一个吐槽的人

手机版|小黑屋|最新100贴|论坛版块|ITIL先锋论坛 |粤ICP备11099876号|网站地图
Powered by Discuz! X3.4 Licensed  © 2001-2017 Comsenz Inc.
返回顶部