那次事故至今让我印象深刻。那是某大型通信企业AIOps系统刚上线的第一个月。凌晨两点,系统预测核心交换机将在两小时内发生故障,并自动触发了紧急切换流程。
所有运维人员被叫醒,流量被导向备用链路,然而两个小时过去了——什么也没发生。原本正常的主线路因为自动切换反而中断了三分钟。第二天,业务负责人气得直拍桌:“AI不是 supposed to be smarter than us 吗?”
这就是AIOps落地初期最典型的问题——预测有了,标准没跟上。
算法固然强大,但如果没有清晰的流程、数据、角色与责任标准,它就成了无法被验证的“黑箱”。那次误报事件之后,我带领团队重新审视了整个智能运维体系,最终我们发现问题的根源,不在AI,而在缺乏ITSS的约束。
AIOps的核心是“智能”,而ITSS的核心是“有序”。只有当两者结合,智能才不会变成混乱的自动化。
在ITSS标准体系中,智能运维属于运行维护能力成熟度的高阶阶段。按照《GB/T 28827.9-2023 信息技术服务 运行维护 第9部分:智能运维管理要求》,智能分析、自动响应、知识学习都必须基于流程管理、数据管理、知识管理三大标准域展开。换句话说,没有标准化,就没有真正的智能化。
我们为那家通信企业重新设计了AIOps落地架构。
第一步,是流程标准对齐。我们将AIOps的事件识别、告警聚合、根因分析、自动决策等环节,全部映射到ITSS流程体系中对应的事件管理、问题管理、变更管理模块。AI的每一步动作,都必须对应一个流程节点和责任角色。这样,当AI做出决策时,系统会自动触发流程审批,保证“智能”始终在可控范围内。
第二步,是数据标准统一。AIOps的算法训练依赖大量日志、性能、配置数据,但过去各系统格式不一、命名混乱。我们引入ITSS数据标准,将指标字段、告警级别、事件类型全部标准化。统一的数据口径让AI模型的输入更干净,也让输出结果更具可解释性。 当我们重新训练模型后,预测准确率从原来的78%提升到了91%,误报率下降了近一半。
第三步,是知识体系融合。AIOps的学习能力来自于经验积累,而ITSS中的知识管理正好提供了这种结构化的经验存储机制。我们将历史事件、问题解决方案、专家经验转化为知识图谱,让AI不仅能“算”,还能“懂”。例如,当AI识别到数据库连接异常,它会自动检索知识库,找到最可能的根因及解决方案,而非一味报警。
当体系逐步稳定后,我们开始进入真正的智能化阶段。AI不仅能预测,还能决策。比如,当系统识别到应用CPU利用率持续上升且趋势匹配过去的异常模式时,它会先验证阈值、再检查变更计划、最后自动执行资源扩容。整个过程全程自动化,但每一步都有标准可追溯。
就在那次优化项目的中期,我们组织了一次内部实践活动——
艾拓先锋组织基于ITSS的IT运维流程沙盘实战演练,大家可以在现场通过实操,掌握设计和优化ITSS流程的方法。那次演练我们让学员亲自体验AI与流程结合的力量:同样一条异常日志,AI可以提出五种可能原因,但只有在标准化流程下,它才能自动验证、判断、执行。很多人说那次培训改变了他们对AIOps的理解——原来智能不是“替代人”,而是“放大人”。
半年后,我们在这家通信企业的生产环境中观察到显著变化:
- 事件识别准确率提高了23%;
- 误报工单减少60%;
- 自动闭环率从15%提升到72%。
而最令我欣慰的是,运维团队从最初的抵触转向了主动探索,他们开始自己定义AI规则、参与算法反馈,甚至推动财务部门用AI模型预测运维成本。
当然,智能化带来的挑战依然存在。AIOps并非万能,它的输出仍然依赖标准输入。我们遇到过AI建议错误地屏蔽告警,也遇到过因为知识库数据不足导致AI迟钝的情况。每一次偏差,都提醒我们:ITSS标准不是束缚,而是AI的底座。 我常说,智能化的最大陷阱,是“自动但不可解释”。而标准化的最大意义,就是让每一次自动化都有迹可循。
从那以后,我在每一个AIOps项目中都会坚持“三件事”原则:
- 标准先行——先定义规则,再训练模型;
- 流程固化——让AI决策始终嵌入ITSS流程管理;
- 数据回流——让每一次运维行为都成为AI再学习的样本。
有了这三步,智能运维才能从“实验室玩具”变成“生产级能力”。
如今,那家通信企业的运维中心已经实现了全链路智能监控。AIOps系统不再只是“预测工具”,而是运维流程的一部分:它知道该报警给谁、何时触发变更、怎样生成报告。我们甚至将AI模型评估指标纳入运维绩效考核,让“算法”也成为流程管理的对象。
我仍记得那位运维总监后来对我说:“我们以前以为AI是魔法,现在才明白,它只是更精准的执行者。”
我笑着回应:“没错——标准才是智能的基石。”
|