本文旨在探讨基于事件管理的质量体系建设实践,由平台业务中心的质量专家在GOPS全球运维大会2020深圳站上进行分享。报告从事件管理质量框架、从0到1的建设实践、上游质量控制、以及未来发展方向四个维度,深入阐述了事件管理在质量体系建设中的应用与实践。
事件管理质量框架: 事件管理所面临的挑战,如高事故率、处理效率低下、缺乏有效管控、以及对用户体验关注不足等问题。为应对这些挑战,报告提出了主站APP事件管理框架,该框架包括事件感知、识别、分发、响应、跟进、复盘、改善和度量等关键环节。事件管理的核心能力涵盖标准制定、效率提升、流程优化和度量体系四个方面,旨在增强事件感知能力、完善标准、提升效率和优化管理运营。
事件管理从0到1的建设实践: 事件管理模型,涉及西格玛质量管理平台、系统事件、事件响应、IT服务台、线上用户反馈、用户/业务方、系统监控等要素。事件管理方法论包括事件发生、解决、报备、登记、复盘和后续改进等环节。事件管理的发展路径分为三个阶段: 1. 阶段一:建立单一类型事件的分级标准,确立事件管理的基础流程,由单一组织负责全流程跟进,管理较为粗放,数据维度有限、度量指标简单、缺乏工具平台支持。 2. 阶段二:涵盖多种事件类型,整合多渠道事件来源,建立跨团队的事件处理流程,数据维度丰富、度量指标全面、并建设线上平台进行管理。 3. 阶段三:整合事件管理规范,实现全流程标准化,建立覆盖各事业部和前中台虚拟组织的流程机制,实现无缝对接,打造SaaS化事件管理平台,深度集成流程工具,持续提升效率和用户体验。
事件管理要素: - 标准:涵盖事件分级标准、事件定责及扣分标准、事件处置规范,为事件管理绩效考核提供明确依据。 - 事件级别:从P0(特大事故)到P6(一般问题),严重程度依次递增,涵盖问题和事故两大类。 - 流程:包括事件响应、解决、报备(周知)、改善、复盘等环节。 - 度量:涉及解决率%、关闭率%、逃逸率%、严重事件占比%、平均解决时效%等指标,用于衡量事件解决情况、整体完成度、测试团队整体测试质量、度量范围内事件质量、以及事件整体解决效率和质量。
事件管理-西格玛质量平台: 报告介绍了事件管理的系统平台,包括事件域、可选事件字段、事件标签、自定义报表、工作流集成邮件、咚咚等功能,支持系统自助推动事件的填报、解决、改善的完成。SAAS化管理提供了所有配置字段的数据筛选能力,支持多维度报表展示。
事件管理-典型问题: - 感知:包括线上用户反馈、IT服务台、内部反馈、VIP反馈、监控发现、舆情(热点)反馈等。 - 改善:涵盖测试改进、监控优化、流程改进、系统优化等,改善比例分别为12%、14%、34%、40%。 - 组织:涉及中台、子集团、部门A、部门B、部门C等,质量接口人负责用户研究和舆情团队。 - 定责:包括唯一责任方(单方)、主次责任方(双方)、责任共同承担方(多方),事件定责由QA根据事件复盘情况认定,若存在异议且沟通后未达成共识,则提交技术委员会确定。
事件管理的价值: 事件管理的价值体现在记录各类事件、沉淀经验、形成事件知识库;为业务团队提供规范化事件处置的系统流程;通过事件结果反推上游流水线的合规质量管理;通过长期的事件管控,增强团队对线上问题风险的重视;将事件管理与绩效挂钩,有效提升责任心。
事件管理上游质量控制: 事件数据反映的问题,如变更导致的问题、评估问题、代码逻辑问题等。事件管理上游质量控制涉及需求、开发、测试、发布、部署、验收等环节,包括变更管理、评估管理、代码评审等。具体措施包括变更计划的评估、变更测试验证、变更授权、变更周知、变更执行/灰度、变更故障处理、变更记录等。
事件管理发展方向探索: 事件管理后续发展方向的探索,包括管理自治、感知智能化、举一反三能力。管理自治基于事件管理方法论、标准、流程、度量、工具平台赋能内外部团队,形成团队内部自驱动的事件管理自治。感知智能化包括监控智能化、反馈智能化、舆情热点预测。举一反三能力通过事件改善专家评审机制,深入分析问题相似场景,提炼共性逻辑,提出更具预防性、更高价值的事件优化方案。
本文为基于事件管理的质量体系建设提供了宝贵的实践经验,展示了如何通过事件管理提升运维质量,实现从0到1的建设实践,控制上游质量,探索发展方向,为其他企业提供可借鉴的实践路径。
|