ITSS在AIOps智能运维中的应用与实践

slbenben

那次事故至今让我印象深刻。那是某大型通信企业AIOps系统刚上线的第一个月。凌晨两点，系统预测核心交换机将在两小时内发生故障，并自动触发了紧急切换流程。

所有运维人员被叫醒，流量被导向备用链路，然而两个小时过去了——什么也没发生。原本正常的主线路因为自动切换反而中断了三分钟。第二天，业务负责人气得直拍桌：“AI不是 supposed to be smarter than us 吗？”

这就是AIOps落地初期最典型的问题——预测有了，标准没跟上。

算法固然强大，但如果没有清晰的流程、数据、角色与责任标准，它就成了无法被验证的“黑箱”。那次误报事件之后，我带领团队重新审视了整个智能运维体系，最终我们发现问题的根源，不在AI，而在缺乏ITSS的约束。
AIOps的核心是“智能”，而ITSS的核心是“有序”。只有当两者结合，智能才不会变成混乱的自动化。
在ITSS标准体系中，智能运维属于运行维护能力成熟度的高阶阶段。按照《GB/T 28827.9-2023 信息技术服务运行维护第9部分：智能运维管理要求》，智能分析、自动响应、知识学习都必须基于流程管理、数据管理、知识管理三大标准域展开。换句话说，没有标准化，就没有真正的智能化。
我们为那家通信企业重新设计了AIOps落地架构。
第一步，是流程标准对齐。我们将AIOps的事件识别、告警聚合、根因分析、自动决策等环节，全部映射到ITSS流程体系中对应的事件管理、问题管理、变更管理模块。AI的每一步动作，都必须对应一个流程节点和责任角色。这样，当AI做出决策时，系统会自动触发流程审批，保证“智能”始终在可控范围内。
第二步，是数据标准统一。AIOps的算法训练依赖大量日志、性能、配置数据，但过去各系统格式不一、命名混乱。我们引入ITSS数据标准，将指标字段、告警级别、事件类型全部标准化。统一的数据口径让AI模型的输入更干净，也让输出结果更具可解释性。当我们重新训练模型后，预测准确率从原来的78%提升到了91%，误报率下降了近一半。
第三步，是知识体系融合。AIOps的学习能力来自于经验积累，而ITSS中的知识管理正好提供了这种结构化的经验存储机制。我们将历史事件、问题解决方案、专家经验转化为知识图谱，让AI不仅能“算”，还能“懂”。例如，当AI识别到数据库连接异常，它会自动检索知识库，找到最可能的根因及解决方案，而非一味报警。

当体系逐步稳定后，我们开始进入真正的智能化阶段。AI不仅能预测，还能决策。比如，当系统识别到应用CPU利用率持续上升且趋势匹配过去的异常模式时，它会先验证阈值、再检查变更计划、最后自动执行资源扩容。整个过程全程自动化，但每一步都有标准可追溯。

就在那次优化项目的中期，我们组织了一次内部实践活动——
艾拓先锋组织基于ITSS的IT运维流程沙盘实战演练，大家可以在现场通过实操，掌握设计和优化ITSS流程的方法。那次演练我们让学员亲自体验AI与流程结合的力量：同样一条异常日志，AI可以提出五种可能原因，但只有在标准化流程下，它才能自动验证、判断、执行。很多人说那次培训改变了他们对AIOps的理解——原来智能不是“替代人”，而是“放大人”。

半年后，我们在这家通信企业的生产环境中观察到显著变化：

事件识别准确率提高了23%；
误报工单减少60%；
自动闭环率从15%提升到72%。

而最令我欣慰的是，运维团队从最初的抵触转向了主动探索，他们开始自己定义AI规则、参与算法反馈，甚至推动财务部门用AI模型预测运维成本。
当然，智能化带来的挑战依然存在。AIOps并非万能，它的输出仍然依赖标准输入。我们遇到过AI建议错误地屏蔽告警，也遇到过因为知识库数据不足导致AI迟钝的情况。每一次偏差，都提醒我们：ITSS标准不是束缚，而是AI的底座。 我常说，智能化的最大陷阱，是“自动但不可解释”。而标准化的最大意义，就是让每一次自动化都有迹可循。

从那以后，我在每一个AIOps项目中都会坚持“三件事”原则：

标准先行——先定义规则，再训练模型；
流程固化——让AI决策始终嵌入ITSS流程管理；
数据回流——让每一次运维行为都成为AI再学习的样本。

有了这三步，智能运维才能从“实验室玩具”变成“生产级能力”。
如今，那家通信企业的运维中心已经实现了全链路智能监控。AIOps系统不再只是“预测工具”，而是运维流程的一部分：它知道该报警给谁、何时触发变更、怎样生成报告。我们甚至将AI模型评估指标纳入运维绩效考核，让“算法”也成为流程管理的对象。

我仍记得那位运维总监后来对我说：“我们以前以为AI是魔法，现在才明白，它只是更精准的执行者。”

我笑着回应：“没错——标准才是智能的基石。”

上一篇：ITSS服务持续性管理：从风险预案到应急演练
下一篇：ITSS标准的核心理念：以服务为中心的管理思想

ITSS在AIOps智能运维中的应用与实践

评论