这篇文章,是ITIL先锋论坛——国内最火的IT服务管理交流社区——带来的。他们分享了一份报告,讲的是某互联网巨头在云原生大数据运维管理上的那些事儿。报告里,他们从四个方面切入:业务现状、架构介绍、环境和组件服务、还有统一的日志监控告警,把他们是怎么搞定云原生大数据运维管理的那些经验,掰开了揉碎了讲了个透。
先说说业务现状和背景吧: 大数据这活儿,得先搭一套完整的生产环境,里面各种组件得配合得严丝合缝,还得管理一堆复杂的依赖关系。这不,移植起来就费劲,环境耦合得厉害。为了应对这些挑战,公司决定走云原生路线,追求那种无服务状态感知、弹性伸缩得飞快、故障转移也麻溜的高级特性。具体咋整的呢?架构微服务化、应用容器化、基础设施不可变、声明式API,这些招儿一出,部署变得简单可靠,一致性也上去了,故障点少了,环境稳如老狗,功能变更和演进也变得轻松多了。
架构介绍来一波: 云原生运维,得强调伸缩性好、移植性强、环境感知弱、资源占用低、稳定性高。运维功能得能跟上集群规模的节奏,设计得可插拨式,快速接上用户自己的组件,适应各种复杂的环境。云原生大数据功能架构图,展示了三大平台一大支撑体系,包括元数据管理、用户与权限管理、运维管理平台、任务开发与调度、平台服务层、生态整合服务、核心引擎层、统一数据存储、资源调度层和环境管理等等,一应俱全。
环境管理与组件服务,咱们接着聊: 环境管理这块,他们把整个环境按功能职责分成了三块:控制面、系统面、数据面。控制面管环境管控,系统面负责主体业务运行,数据面提供引擎层的运行资源支持。组件服务呢,按部署区域分成了系统级、集群级、租户级、项目级四类,分别承载业务管控逻辑、采集支撑业务数据、租户独占业务支撑和项目相关业务组件。还有组件服务的Helm Chart、定制化改进、磁盘管理的问题分析和统一调度方法,也都一并讲了。
统一的日志监控告警,咱们也得聊聊: 日志方面,他们强调业务隔离、高效采集、公平分配和安全可靠。介绍了日志数据链路,包括Collector、Log Proxy、ElasticSearch、Filebeat等组件,还有云日志服务和日志搜索功能。告警方面,开源方案和流程概览都展示出来了,包括创建Rule、写入数据库、同步规则、查询告警事件、通知模块等环节。还有动态消息模板、通知方式插件化、定时巡检、异常消息重发和失败消息生成告警等功能。监控方面,他们分析了痛点,比如数据存储性能不足、可用性低、整合度低等,并介绍了监控架构概览、性能优化、功能优势等。
这篇文章,给互联网公司的云原生大数据运维管理提供了不少实用的经验。它展示了如何利用云原生技术,优化和提升运维管理,让系统更稳定可靠,运维效率也跟着水涨船高。
|