×

微信扫一扫,快捷登录!

标签: 暂无标签
粘贴上传202501111452342514..png


ITIL先锋论坛给我们带来了一份超给力的报告,讲的是某运营商如何用上AIOps——也就是IT运维的人工智能技术,让整个系统运作得更聪明、更高效。报告里头,他们从四个方面分享了经验:运营商的IT系统和运维是怎么发展的、AIOps是怎么落地和应用的、他们是怎么推广这个技术的,还有就是对未来的运维有啥展望。

先说说IT系统和运维发展:
运营商的IT系统,包括管理支撑系统(MSS)、网管支撑系统(OSS)、业务支撑系统(BSS)还有业务系统及产品(SSS)。特别是BSS,规模大、架构复杂,正在升级换代呢。而MSS虽然规模小,但数量不少,技术栈也挺复杂的。这些系统的成长,让运维工作也跟着上了一个新台阶,成了个理想的实验场。

AIOps的落地与应用实践:
AIOps是怎么落地和应用的。他们搞了自主自愈、无人值守,让运维事件自动化,操作平台化,平台还能编排呢。还有,他们让一些运维场景智能化,整个运维平台一体化,复杂场景也智能化了,关键场景都用上了自动化和智能化技术。具体措施嘛,有这么几条:
- 建立和管理运维流程、标准:流程化、标准化。
- 工具标准化管理:平台化、自动化。
- AIOPS场景预研:对异常检测、根因分析、知识图谱这些经典场景开展预研,优先解决运维的痛点。
- 自动驾驶模型对标优化:从L1~L3的水平,整体拔高到平均L3以上的水平,形成多场景全流程串联。
- 扩展生产对象及丰富场景:扩充对象、扩充场景、扩充联动,打造故障诊断、知识管理联动等高阶场景。

推广方法和运维平台建设心得:
AIOps推广方法和运维平台建设的心得,包括:
- 明确推广目标和计划:场景特点+现实痛点+推广目标+落地时间。
- 构建推广效果评估指标:AIOps场景指标体系+月报分析。
- 优化运维工作量结构:转变维护人员思维+引导+压降。
- 建立团队分工协同机制:角色分工+周报月会+双周落地复盘+持续迭代。
- 重点场景专项分析推广效果:异常检测、故障诊断、运维机器人等重点场景专题分析。
- 管控运维后台登录账号:限制后台+鼓励智能化自动化+定期统计。

对未来运维的展望:
展望未来运维的方向,包括:
- 持续演进的数智化运维平台:端到端可观测中心、统一入口、流程平台、日志平台、数据库管理平台、自动化测试平台。
- 规划思路:明确分工界限,同质能力合并。
- 探索尝试应用各种AIOps场景:不断探索尝试应用各种AIOps场景,寻求应用效果不错的AIOps场景,期盼交流新技术、新理念在运维中的应用,例如元宇宙、ChatGPT。

应用成效:
AIOps应用的成效,包括:
- 完成B域、M域核心系统接入:包括性能、业务、告警、日志等X大类在内的XXX种指标项,纳管资源XXX多项,日处理指标数据XXX条。形成故障自愈预案XXX个。
- 故障诊断准确率:XX%。
- 故障诊断运维成本降低:XX%。
- 故障处理效能提升:约XX%。
- 智能机器人工单推荐能力:智能运维机器人智能修复能力,智能机器人智能问答能力。
- 图谱知识管理:文档、数据库、申告单等不同类型数据的自动学习,图谱知识推理。
- 降本:问答、推荐使用频率X次+/月,减少X万张事件单/年,节约人力X万元/年;操作执行X万次以上,折算数据修改单X万张,每年节约人力X万元。
- 增效:以某千万用户级别地市为例,该地市每月XXX多张IT投诉工单的平均处理时长缩短了XX左右,显著提升了客户满意度。

这篇文章给运营商的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过自主自愈无人值守、运维事件自动化、运维操作平台化、运维平台具备编排能力、部分运维场景智能化等措施,实现AIOps的落地和应用,提升运维管理的质量和效率,为其他运营商提供了可借鉴的实践路径。







上一篇:深入探讨一个具体的私有云FinOps案例
下一篇:来看看这个案例:数字体验监控与测试服务
slbenben

写了 1924 篇文章,拥有财富 11774,被 11 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

返回顶部