×

扫描二维码登录本站

QQ登录

只需一步,快速开始

SRE日常工作:应急事件处理

标签: 暂无标签
可靠性是 MTTF(平均失败时间)和 MTTR(平均恢复时间)的函数(参见文献)。评价一个团队将系统恢复到正常情况的最有效指标,就是MTTR。

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高。当不可避免地需要人工介入时,我们也发现与"船到桥头自然直"的态度相比,通过事先预案并且将最佳方法记录在"运维手册(playbook)"上通常可以使MTTR 降低3倍以上。初期几个万能的工程师的确可以解决生产问题,但是长久看来一个手持"运维宝典"经过多次演习的 on-call 工程师才是正确之路。虽然不论多么完备的"运维手册"也无法替代人的创新思维,但是在巨大的时间压力和产品压力下,运维手册中记录的清晰调试步骤和分析方法对处理问题的人是不可或缺的。因此,Google SRE将大部分工作重心放在"运维手册"的维护上,同时通过"Wheel of Misfortune"等项目不断培训团队成员。




上一篇:SRE的耳目:监控系统
下一篇:稳定性管理的重点:变更管理
FYIRH

写了 198 篇文章,拥有财富 1122,被 1 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

手机版|小黑屋|最新100贴|论坛版块|ITIL先锋论坛 |粤ICP备11099876号|网站地图
Powered by Discuz! X3.4 Licensed  © 2001-2017 Comsenz Inc.
返回顶部