ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 立即注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 868|回复: 0

可靠性是大型分布式系统最基本的功能

[复制链接]
发表于 2020-12-5 23:54:21 | 显示全部楼层 |阅读模式
当然,为了有效地进行故障调试,自我检查中所依赖的内部运作细节也应该暴露给管理整体系统的操作员。在非计算机领域中对自动化影响的类似讨论——例如,民航生"或工业应用中——经常会指出高效的自动化的缺点美∶随着时间的推移,操作员与系统的有用的、直接接触会逐渐减少,因为自动化会覆盖越来越多的日常活动。不可避免的,当自动化系统出现问题时,操作员将无法成功地操作该系统。


由于缺乏实践,他们已经丧失了反应的流畅性,他们有关系统"应该"做什么的心理模型不再反映现实中系统"正在进行"的活动。这种情况在系统非自主运行时出现得更多,即,当自动化逐渐取代了手动操作,假设其他的手工操作仍然可能执行,并且如之前一样一直可用。令人难过的是,随着时间的推移,这一假设终将不再正确∶这些手动操作最后将无法执行,因为允许它们执行的功能已经不存在了。


Google也经历过自动化在某些条件下是有害的情况,参看下面"自动化∶允许大规模故障发生"补充材料。但是以 Google的经验来看,在更多的系统中自动化和自主化的行为不再是可选择的附加项。随着服务规模扩大,肯定是这样的。但是不论系统规模大小,系统中具有更多自主行为的系统仍然有很多好处。可靠性是最基本的功能,并且自主性、弹性行为是达到这一特征的有效途径。





上一篇:Borg(谷歌内部的k8s)∶仓库规模计算机的诞生
下一篇:对大型分布式系统运维的建议
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

参加 ITIL 4 基础、专家、大师级认证、长河ITIL实战沙盘、DevOps认证、ITSS服务经理认证报名
ITIL(R) is a registered trademark of AXELOS Limited, used under permission of AXELOS Limited. The Swirl logo is a trademark of AXELOS Limited, used under permission of AXELOS Limited. All rights reserved.

QQ|ITIL ( 粤ICP备11099876号 )|appname

GMT+8, 2023-9-26 20:12 , Processed in 0.100880 second(s), 27 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表