本篇报告旨在深入探讨AIOps技术在运维团队实践中的应用情况,由腾讯游戏AIOps技术负责人在GOPS全球运维大会2020·深圳站上进行了精彩分享。报告从腾讯游戏DataOps和AIOps的发展历程、日常工作中的典型案例剖析、以及AIOps在运维日常工作中的服务模式等三个维度,全面展示了腾讯游戏在AIOps领域的实践成果和宝贵经验。
关于腾讯游戏DataOps和AIOps的发展历程: 自2003年腾讯游戏技术运营团队成立以来,伴随着游戏业务的蓬勃发展,团队历经平台产品化、D/O分离、运营开发团队成立、基于PaaS模式的运维开发转型等关键阶段。2015年,团队开始积极探索DataOps和AIOps领域,至2017年已初显行业影响力,至2019年团队规模已扩展至400余人。DataOps和AIOps的发展历程涵盖了技术运营的持续演进、团队规模的不断壮大以及行业影响力的显著提升。
日常工作中的典型案例剖析: AIOps在腾讯游戏运维日常工作中的具体应用案例,涵盖助力游戏地图设计、化解游戏运营危机事件、辅助开发提升用户体验、提升运维工作效能、革新运维监控工作方式、指导运维发现异常日志等方面。 1. 助力游戏地图设计: - 利用坐标映射和线性回归算法,实现场景坐标系与像素坐标系的精准映射,优化游戏地图设计。 - 数据流包括数据采集、处理和分析,算法模型应用涵盖线性回归模型,游戏策划使用路径包括数据可视化和优化建议。 - 优化案例揭示了楼梯侧方位置的设计优化,有效提升了玩家体验。 2. 化解游戏运营危机事件: - 针对**恶意信息猖獗的问题,面对数据量庞大、检测速度缓慢、语法变种繁多、扫描流程繁琐等诸多挑战,采用屏蔽词表、字音库、字形库、过滤器、模糊筛选、AC自动机等技术手段,显著提高了检测效率。 - 优化前后的扫描效率对比表明,拼音扫描模式和标准扫描模式的效率均得到显著提升。 3. 辅助开发提升用户体验: - 针对某大型MOBA类端游的掉线问题,面对数据格式不规范、海量数据处理等挑战,采用数据上报、清洗、需求分析等方法,有效提升了用户体验。 - 数据需求包括目标信息、基础属性、交叉数据等,数据处理包括随机森林预测、重点维度筛选、相关性分析等。 - 优化效果显示,重连失败率和掉线玩家转化率显著改善,业务收益包括提升玩家留存率和减少投诉。 4. 提升运维工作效能: - 针对扩容缩容过程中大量人力投入的问题,通过快速、准确、高质量的执行系统,建立模型、预测、调整参数等方法,有效提升了运维工作效能。 - 原理包括数据源、数据清洗、数据预处理、最小二乘法、机器学习平台等,效果显示智能运维在扩容缩容方面的显著优势。 5. 改变运维监控工作方式: - 无需人工配置策略,覆盖更多复杂场景,告警更加精确。通过曲线分类、算法原理、模型训练、模型应用等方法,改变了运维监控工作方式。 - 应用案例包括不同指标的告警策略优化,效果显示智能运维在告警准确性和效率方面的显著提升。 6. 指导运维发现异常日志: - 通过原始日志、向量化的日志、实现流程等方法,指导运维发现异常日志。应用案例包括日志分析和异常检测,效果显示智能运维在日志分析方面的显著优势。
关于AIOps在运维日常工作中的服务模式: AIOps在运维日常工作中的服务模式,包括面对业务众多、场景多样、需求差异较大等情况下的服务提供方法。服务模式包括: 1. 业务众多:如何提供服务? 2. 场景众多:如何提供服务? 3. 需求差异较大:如何提供服务?
本篇报告为AIOps在运维团队的实施提供了宝贵的实践经验,展示了通过DataOps和AIOps技术,如何提升游戏运维的效率和质量,应对实际工作中的挑战,为其他企业提供了可借鉴的实践路径。
|