×

微信扫一扫,快捷登录!

标签: 暂无标签
粘贴上传202501111537081358..png






云主机无人值守和自助服务的实战案例,这可是滕圣波(云普)这位高级技术专家在GOPS全球运维大会2020深圳站上给大家带来的精彩演讲哦!他从为啥我们需要无人值守、怎么通过自助服务实现目标、智能诊断、自动化修复,还有AI和数据的幕后英雄五个角度,深入浅出地分享了云主机无人值守和自助服务的实战经验和心得。

为啥我们需要无人值守呢:
先说说运维,它其实是一种服务,服务的对象就是那些使用基础设施的业务团队。云计算IAAS也是一种运维服务,服务的对象变成了使用云的开发和运维团队。随着云计算的蓬勃发展,如何避免随着规模扩大而带来的客户侧运维成本的直线上升,就成了一个大问题。现在的情况是,客服那边人力投入太多,客户的烦恼包括运维成本高、响应时间长、还有隐私泄露的风险等等。

无人值守的目标怎么通过自助服务来实现呢:
滕专家在演讲中提到,IAAS运维的拆分包括了库存、资源保障、调度、冷热迁移、虚拟化、块存储、网络、机房、物理设备等基础设施,还有上层管控、基础产品、服务侧运维(用户不可见运维)、事件监控、客户服务、工单反应、扩容、重启、修改IP、资源编排ROS、运维编排OOS等客户侧运维(用户可见运维)。广义的自助服务包括诊断、修复、推荐,自助服务水平是云厂商的核心竞争力,能覆盖80%的ECS常见问题,解决问题的时间从几小时缩短到分钟级别,还不需要客服人工参与,隐私泄露风险也不存在了,AI+数据,让问题诊断和修复越来越精准。

自助服务里的智能诊断是怎样的呢:
滕专家详细介绍了云服务器(ECS)实例的智能诊断,比如磁盘扩容没生效、实例性能异常、实例没法启动/停止、实例远程访问不了等问题。一键开启ECS健康诊断,就能涵盖ECS服务问题、虚拟化异常、底层物理机故障、实例配置问题、磁盘问题、网络问题、Guest OS问题等等。ECS诊断能力一览表和ECS智能诊断Demo都展示了具体的诊断能力。

自助服务里的自动化修复又是啥情况呢:
介绍了ECS实例自动化修复,包括ECS修复能力一览表,展示了具体的修复能力。修复能力的透明合规包括自动化修复、运维编排服务OOS提供自动化引擎、云助手命令提供GuestOS内的执行能力、一切修复逻辑可见、OOS公共模板和云助手公共命令代码开源、一切修复操作可回滚、镜像、快照、数据备份、一切记录可审计、阿里云操作审计ActionTrail、一切权限可控、阿里云RAM角色控制。智能诊断修复的Demo展示了具体修复过程。

自助服务背后的AI与数据能力是怎样的呢:
滕专家探讨了诊断修复背后的AI和数据能力,包括数据采集、数据清洗、数据分析、数据模型、特征分类、预测和推荐、行为分析、专家经验、决策树、客户画像、态势感知、根因分析、异常诊断、自动修复、优化推荐等等。AI驱动的自助服务架构和AI驱动的异常处理展示了具体应用。AI的例子包括实时内存异常感知、准确率70%以上、实时预测链路延时控制在100s以内、内存异常原始数据、内存异常数据、异常特征、实时预测模型、投票模型、预测数据、主动运维、模型效果分析、宕机事实验证。AI的例子:诊断决策树展示了具体决策过程。背后的数据包括监控、特征、事件通知、运维动作、查询分析、分类、格式标准化、可视化、物理机数据、虚拟化数据、网络数据、控制面数据、GuestOS内数据、实时数据、准实时数据、离线数据、数据处理、数据采集。数据采集部分提到,阿里云ECS近两年持续投入构建异常宕机数据集,未来计划演进成为XX集团在异常预测上的“ImageNet数据集”并开源,为异常预测在业内的发展贡献更大的价值。

云主机无人值守和自助服务案例给我们提供了云主机无人值守和自助服务的宝贵实践经验,展示了如何通过智能诊断、自动化修复、AI与数据能力,提升运维效率,降低运维成本,为其他企业提供了可借鉴的实践路径。








上一篇:云计算技术的兴起和普及已经对IT运维领域产生了深远的影响
下一篇:智能运维的算法和场景在IT运维管理领域中扮演着至关重要的角色
slbenben

写了 1836 篇文章,拥有财富 11302,被 11 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

返回顶部