×

微信扫一扫,快捷登录!

标签: 暂无标签
粘贴上传202501111135293477..png



咱们今天聊的是一个超酷的分享报告,讲的是一个互联网巨头的IT运维故障分析和智能运维的实战经验。这份报告是ITIL先锋论坛,也就是国内最火的数字化时代IT服务管理交流社区,给咱们带来的。报告里头,他们从四个角度切入:运维的趋势、现状和挑战、如何提升运维体验,还有龙蜥运维SIG(兴趣组)的那些事儿。目标是探讨在云原生时代,怎么实现智能化的“零”运维,还分享了好多实战案例呢!

先说说运维的趋势:
云原生技术的崛起,正逼着运维工作往智能化“零”运维的方向转型。现在有了FaaS、Serverless这些模式,开发小哥哥小姐姐们只管写代码,运维环境啥的他们都不用操心,这给咱们运维人员带来了新的挑战。同时,微服务框架和容器化部署/PaaS的流行,让咱们运维人员得对系统有更透彻的理解,才能搞定基础设施的运维任务。

再说说运维的现状和挑战:
现在运维产品的情况嘛,有配置部署管理、系统监控和社区工具等等,但这些工具的问题也不少,比如执行过程不闭环、数据接口和日志采集都是基于操作系统的,这些都需要专业的系统运维人员来搞定。而且,用的中间件一多,问题离根源就越来越远了,运维起来就更费劲了。

怎么提升运维体验呢?
几个办法,比如降低应用运维的门槛、深入分析问题的根源、智能化的告警和监控诊断联动等等。特别提到了SysOM(System Operation & Maintenance),这是龙蜥社区系统运维SIG搞出来的一站式操作系统运维平台,专门解决工具碎片化和门槛高的问题。SysOM 2.0的内存诊断功能和实践场景,比如内存大盘、OOM诊断和Cache分析等等,能帮咱们快速找到内存消耗的应用或容器,分析内存问题,还能直接查看系统的内存分布和健康状况呢。

龙蜥运维SIG(兴趣组)是啥?
龙蜥运维SIG是龙蜥社区的一个兴趣小组,专门研究系统运维领域的技术探索和实战。报告里头提到了龙蜥大讲堂,这是个分享运维经验和最佳实践的平台。还有SysOM 2.0的诊断中心功能,包括内存相关诊断功能和调度相关诊断功能,这些功能能帮咱们运维人员更深入地了解系统性能和问题所在。

SysOM 2.0的调度负载诊断、调度抖动诊断、存储诊断等功能,这些功能通过诊断系统负载高、进程负载贡献度、系统调度火焰图等,帮咱们运维人员定位和解决系统性能问题。比如说,调度负载诊断能诊断系统负载高是不是影响了系统的sys利用率、hardirq/softirq和io,而调度抖动诊断则能追踪内核长时间不调度和长关中断的堆栈。

在存储诊断方面,SysOM 2.0提供了IO流量分析、IO延迟分析和IO HANG诊断等功能,这些功能能帮咱们分析IO链路延迟、界定IO HANG问题,并通过提取vring特征来界定磁盘HANG或OSHANG。

这份报告给IT运维人员带来了一整套智能运维解决方案,通过介绍SysOM 2.0的多种诊断功能,展示了在云原生时代怎么实现智能化“零”运维,提升运维效率和系统稳定性。






上一篇:这家互联网巨头是怎么在混合云大数据SRE上大显身手的!
下一篇:某互联网公司的云原生大数据运维管理,真是IT运维管理界的一股清流呢!
slbenben

写了 1924 篇文章,拥有财富 11774,被 11 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

返回顶部