ITIL先锋论坛给我们带来了一份超给力的报告,讲的是某运营商如何用上AIOps——也就是IT运维的人工智能技术,让整个系统运作得更聪明、更高效。报告里头,他们从四个方面分享了经验:运营商的IT系统和运维是怎么发展的、AIOps是怎么落地和应用的、他们是怎么推广这个技术的,还有就是对未来的运维有啥展望。
先说说IT系统和运维发展: 运营商的IT系统,包括管理支撑系统(MSS)、网管支撑系统(OSS)、业务支撑系统(BSS)还有业务系统及产品(SSS)。特别是BSS,规模大、架构复杂,正在升级换代呢。而MSS虽然规模小,但数量不少,技术栈也挺复杂的。这些系统的成长,让运维工作也跟着上了一个新台阶,成了个理想的实验场。
AIOps的落地与应用实践: AIOps是怎么落地和应用的。他们搞了自主自愈、无人值守,让运维事件自动化,操作平台化,平台还能编排呢。还有,他们让一些运维场景智能化,整个运维平台一体化,复杂场景也智能化了,关键场景都用上了自动化和智能化技术。具体措施嘛,有这么几条: - 建立和管理运维流程、标准:流程化、标准化。 - 工具标准化管理:平台化、自动化。 - AIOPS场景预研:对异常检测、根因分析、知识图谱这些经典场景开展预研,优先解决运维的痛点。 - 自动驾驶模型对标优化:从L1~L3的水平,整体拔高到平均L3以上的水平,形成多场景全流程串联。 - 扩展生产对象及丰富场景:扩充对象、扩充场景、扩充联动,打造故障诊断、知识管理联动等高阶场景。
推广方法和运维平台建设心得: AIOps推广方法和运维平台建设的心得,包括: - 明确推广目标和计划:场景特点+现实痛点+推广目标+落地时间。 - 构建推广效果评估指标:AIOps场景指标体系+月报分析。 - 优化运维工作量结构:转变维护人员思维+引导+压降。 - 建立团队分工协同机制:角色分工+周报月会+双周落地复盘+持续迭代。 - 重点场景专项分析推广效果:异常检测、故障诊断、运维机器人等重点场景专题分析。 - 管控运维后台登录账号:限制后台+鼓励智能化自动化+定期统计。
对未来运维的展望: 展望未来运维的方向,包括: - 持续演进的数智化运维平台:端到端可观测中心、统一入口、流程平台、日志平台、数据库管理平台、自动化测试平台。 - 规划思路:明确分工界限,同质能力合并。 - 探索尝试应用各种AIOps场景:不断探索尝试应用各种AIOps场景,寻求应用效果不错的AIOps场景,期盼交流新技术、新理念在运维中的应用,例如元宇宙、ChatGPT。
应用成效: AIOps应用的成效,包括: - 完成B域、M域核心系统接入:包括性能、业务、告警、日志等X大类在内的XXX种指标项,纳管资源XXX多项,日处理指标数据XXX条。形成故障自愈预案XXX个。 - 故障诊断准确率:XX%。 - 故障诊断运维成本降低:XX%。 - 故障处理效能提升:约XX%。 - 智能机器人工单推荐能力:智能运维机器人智能修复能力,智能机器人智能问答能力。 - 图谱知识管理:文档、数据库、申告单等不同类型数据的自动学习,图谱知识推理。 - 降本:问答、推荐使用频率X次+/月,减少X万张事件单/年,节约人力X万元/年;操作执行X万次以上,折算数据修改单X万张,每年节约人力X万元。 - 增效:以某千万用户级别地市为例,该地市每月XXX多张IT投诉工单的平均处理时长缩短了XX左右,显著提升了客户满意度。
这篇文章给运营商的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过自主自愈无人值守、运维事件自动化、运维操作平台化、运维平台具备编排能力、部分运维场景智能化等措施,实现AIOps的落地和应用,提升运维管理的质量和效率,为其他运营商提供了可借鉴的实践路径。
|