×
搜索
热搜词
ITIL培训
ITIL认证
ITIL课程
DevOps认证
ITSS培训
新手福利
长河ITIL 4专题
ITIL知识库
ITIL考证
干货下载
ITIL沙盘实战
专家直播
ITIL4成熟度评估
开源ITIL软件
返回主页
登录
注册
登录ITIL更精彩
下次自动登录
忘记密码
立即注册
登录
其他帐号登录:
微信扫一扫,快捷登录!
用户组:游客
主题
帖子
威望
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
退出
[loopa]
[/loopa]
滚动公告:
ITIL Master(大师)之路(2023-10-06)
收看本周专家讲堂的方法(2023-09-28)
ITIL先锋论坛专家讲堂精彩回放
作者:
忘我之境
阅读
ITIL 4 Foundation培训课程 长河讲授
作者:
slbenben
阅读
长河ITIL流程沙盘实战训练营
作者:
admin
阅读
ITIL先锋论坛干货下载中心
作者:
匿名
ITIL认证学习和流程落地实践
阅读
全国巡回ITIL聚会系列活动
作者:
august
ITIL认证学习和流程落地实践
阅读
来自:
IT服务管理体系及ITIL工具
汗青
2020-12-05
分布式监控系统的警报过多的案例
Google内部的基础设施通常提供某个SLO(参见第4章),并且伴随有相应的SLO监控。很多年以前,Bigtable SLO是基于某个假想的客户端的平均性能得出的。由于Bigtable 和底层存储技术栈中的一些问题,平均性能受很大的"长尾"所影响∶请求中最差的5%比其他的请求要慢很多倍。 当接近SLO目标的时候,系统会 ...
2633
0
0
汗青
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
萨达
2020-12-05
监控系统的长期维护应注意哪些事项
本章描述的理念整合起来就成为Google SRE广泛接受和遵循的监控与警报设计哲学。虽然这个设计哲学有一定理想性,但是书写和评审某个新警报时可以依赖的好方法。该哲学同时有助于鼓励团队在解决问题时向正确的方向进行。 当为监控系统和警报系统增加新规则时,回答下列问题可以帮助减少误报∶ ● 该 ...
2324
0
0
萨达
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
我行我素
2020-12-05
度量分布式系统监控的指标时采用怎样合适的精度
构建监控系统时,很多人都倾向于采用某种量化指标的平均值∶延迟平均值,节点的平均CPU使用率,数据库容量的平均值等。后两个例子中存在的问题是很明显的∶CPU和数据库的利用率可能波动很大,但是同样的道理也适用于延迟。如果某个Web服务每秒处理1000个请求,平均请求延迟为100ms。那么1%的请求可能会 ...
2451
0
0
我行我素
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
蓝蓝
2020-12-05
分布式系统应该监控哪4 个黄金指标
监控系统的4个黄金指标分别是延迟、流量、错误和饱和度(saturation)。如果我们只能监控用户可见系统的 4个指标,那么就应该监控这 4个。 延迟服务处理某个请求所需要的时间。这里区分成功请求和失败请求很重要。例如,某个由于数据库连接丢失或者其他后端问题造成的HTTP 500错误可能延迟很低。计算 ...
2896
0
0
蓝蓝
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
2020-12-05
图片
监控系统应该解决两个什么问题
监控系统应该解决两个问题∶什么东西出故障了,以及为什么出故障。 "什么东西出故障了"即为现象(symptom)∶"为什么"则代表了原因(可能只是中间原因,并不是根源问题)。表6-1列出了一些现象,以及它们对应的原因。 表6-1∶ 现象与原因的示例 "现象"和"原因"的区分是构建信噪比高的监控系统时最 ...
2646
0
0
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
Wendy
2020-12-05
为什么要对监控系统设置合理预期
监控一个复杂的应用程序本身就是一项复杂的工程项目。即使在具有大量现成的基础设施的情况下,标记、收集、显示,以及报警这些工作,通常需要10~12个人组成的标准Google SRE团队中的1~2个人全职进行监控的构建和维护工作。由于我们花了很多精力将通用的监控基础设施进行了改造和集中化,这个数字已经随 ...
2378
0
0
Wendy
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
太帅
2020-12-05
为什么要对分布式系统进行监控
监控一个系统有多个原因,包括如下几项。 分析长期趋势数据库目前的数据量,以及增长速度。又例如每日活跃用户的数量增长的速度。 跨时间范围的比较,或者是观察实验组与控制组之间的区别使用Acme Bucket of Bytes2.72 或者Ajax DB3.14(都是虚构的系统名称名字)哪个请求速度更快?增加新节点后 ...
2317
0
0
太帅
@
2020-12-5
来自:
IT服务管理体系及ITIL工具
姚明
2020-12-05
如何做好分布式系统的监控
Google的SRE团队在构建监控系统和报警系统方面遵循一些核心思想和最佳实践。本章在决定何时需要人工干预(发出紧急警报)的问题上提供了一些指导意见,同时也讨论了如何应对那些不那么严重的警报。 在讨论监控系统时,目前几乎没有通用的术语。即使在 Google内部,不同的团队也在使用不同的术语,以 ...
2245
0
0
姚明
@
2020-12-5
1 ...
251
252
253
254
255
256
257
258
... 2482
/ 2482 页
下一页
欢迎关注“ITIL先锋论坛”微信公众号
微信公众号:
微信在线客服:
ITIL
|
网站地图
粤ICP备11099876号 深圳市艾拓信息科技有限公司版权所有
Powered by
ITIL
© 2001-2025
返回顶部