×
搜索
热搜词
ITIL培训
ITIL认证
ITIL课程
DevOps认证
ITSS培训
新手福利
ITIL4知识库
ITIL认证
干货下载
ITIL沙盘实战
ITIL聚会
专家直播
论坛版块
登录
注册
登录ITIL先锋论坛更精彩
下次自动登录
忘记密码
立即注册
登录
其他帐号登录:
扫描二维码登录本站
只需一步,快速开始
用户组:游客
主题
帖子
威望
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
退出
【 ITIL先锋论坛 】- 版块首页
ITIL理论学习和流程落地实战
开源ITSM工具 - iTop实施开发
ITSS学习实践和审核辅导
DevOps、SRE和AIops学习实践
最新IT服务管理行业招聘
热点推荐
2023ITIL先锋论坛北京Meetup成功举办:ITIL
iTop(开源ITIL软件)—配置管理模块:存储
专家齐聚 沙盘竞赛 惊喜不断! 春暖花开,邂
iTop(开源ITIL软件)—配置管理模块:机箱
iTop(开源ITIL软件)—配置管理模块基础架
iTop(开源ITIL软件)—iTop核心功能:配置
ITIL服务管理中的SLA执行与监督实践
iTop(开源ITIL软件)—iTop核心功能:服务
ITIL先锋论坛
»
论坛交流
›
核心讨论区
›
DevOps、SRE和AIops学习实践
DevOps、SRE和AIops学习实践
收录了996篇文章 · 1人关注
版块操作
关注本版
RSS订阅
发布新帖
最新
最后发表
热门
精华
新窗
来自:
DevOps、SRE和AIops学习实践
预览
Eson
2020-12-5
新窗
什么才能算作是工程工作
工程工作(Engineering)是一种新颖的、本质上需要主观判断的工作。它是符合长期战略的,会对你的服务进行长久性的改善的工作。工程工作通常是有创新 ...
1224
0
0
Eson
@
2020-12-5 23:25
来自:
DevOps、SRE和AIops学习实践
预览
匿名
2020-12-5
新窗
为什么IT运维工作中的琐事越少越好
SRE的一个公开目标是保持每个SRE的工作时间中运维工作(即琐事)的比例低于50%。SRE至少花 50%的时间在工程项目上,以减少未来的琐事或增加服务功能。 ...
1205
0
0
匿名
@
2020-12-5 23:24
来自:
DevOps、SRE和AIops学习实践
预览
ITIL先锋
2020-12-5
新窗
如何减IT运维的琐事(或称苦力)
如果系统正常运转中需要人工干预,应该将此视为一种 Bug。 "正常"的定义会随系统的进步而不断改变。 ...
1795
0
0
ITIL先锋
@
2020-12-5 23:23
来自:
DevOps、SRE和AIops学习实践
预览
匿名
2020-12-5
新窗
控制SLI和SLO实现的手段
SLI 和 SLO 在决策系统运维时也非常有用∶ 1.监控并且度量系统的 SLI。 2.比较 SLI 和 SLO,以决定是否需要执行操作。 3.如果需要执行操作,则要 ...
1448
0
0
匿名
@
2020-12-5 23:22
来自:
DevOps、SRE和AIops学习实践
预览
Alan
2020-12-4
新窗
服务级别目标SLO目标的选择
选择目标SLO 不是一个纯粹的技术活动,因为这里还涉及产品和业务层面的决策,SLI和SLO(甚至 SLA)的选择都应该直接反映该决策。同样的,有时候可能可 ...
1474
0
0
Alan
@
2020-12-4 17:06
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-4
新窗
图片
如何汇总SLO服务质量目标
为了简化和使数据更可用,我们经常需要汇总原始度量数据。汇总过程应该非常小心。 某些指标的汇总看起来是很简单的,例如每秒服务请求的数量,但是 ...
1275
0
0
FYIRH
@
2020-12-4 16:57
来自:
DevOps、SRE和AIops学习实践
预览
萨达
2020-12-3
新窗
SLO服务质量目标的标准化指标
我们建议标准化一些常见的SLI,以避免每次都要重新评估它们。任何一个符合标准定义模板的服务可以不需要再次自己定义 SL1。 ●汇总间隔∶每1分钟汇 ...
1291
0
0
萨达
@
2020-12-3 23:44
来自:
DevOps、SRE和AIops学习实践
预览
姗姗来迟
2020-12-3
新窗
运维人员和最终用户各关心什么
我们不应该将监控系统中的所有指标都定义为 SLI;只有理解用户对系统的真实需求才能真正决定哪些指标是否有用。指标过多会影响对那些真正重要的指标的 ...
1134
0
0
姗姗来迟
@
2020-12-3 23:36
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
SLO与SLA服务级别协议的关系
最后,SLA 是服务质量协议(Agreement)∶指服务与用户之间的一个明确的,或者不明确的协议,描述了在达到或者没有达到SLO之后的后果。这些后果可以是 ...
1407
0
0
FYIRH
@
2020-12-3 16:11
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
如何定义服务质量的目标SLO
SLO是服务质量目标(Objective)∶ 服务的某个SLI的目标值,或者目标范围。SLO的定义是 SLI≤目标值,或者范围下限≤ SLI≤范围上限。例如,对莎士比 ...
1355
0
0
FYIRH
@
2020-12-3 16:04
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
为什么要定义服务质量目标SLO
如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠地运维了。那么,不管是对外服务 ...
1628
0
0
FYIRH
@
2020-12-3 15:26
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
SLO中错误预算的构建过程是怎样的
为了基于客观数据做出决策,两个团队需要共同定义一个基于服务水平目标(SLO)的季度错误预算(参考第4章)。错误预算提供了一个明确的、客观的指标来 ...
1643
0
0
FYIRH
@
2020-12-3 15:15
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
错误预算在监管SLO中起到什么作用
本书的其他章节讨论了紧张局势之所以在产品研发小组和SRE 小组中产生,是因为他们基于不同的指标进行自己的绩效评估。产品研发的绩效是如何很大程度通 ...
1337
0
0
FYIRH
@
2020-12-3 14:24
来自:
DevOps、SRE和AIops学习实践
预览
monicazhang
2020-12-3
新窗
图片
做好了这些,你就是一名稳定的SRE!
前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8年里,我先后在菜鸟、天猫 ...
1593
0
0
monicazhang
@
2020-12-3 11:36
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-3
新窗
一个评估风险容忍度的例子∶前端基础设施
基础设施服务运维的关键战略就是明确划分服务水平,从而使客户在构建系统时能够进行正确的风险和成本权衡。通过明确划定的服务水平,基础设施提供者其 ...
1880
0
0
FYIRH
@
2020-12-3 11:36
来自:
DevOps、SRE和AIops学习实践
预览
monicazhang
2020-12-3
新窗
图片
DevOps 和 SRE之间的不同点到底在哪?
DevOps 和 SRE 似乎是同一枚硬币的两个面。他们都旨在弥合开发团队和运维团队之间的鸿沟,都想要提高软件部署的效率和软件运行的可靠性。 在大 ...
1446
0
0
monicazhang
@
2020-12-3 11:12
来自:
DevOps、SRE和AIops学习实践
预览
monicazhang
2020-12-3
新窗
图片
如何成为最抢手的SRE!
前言SRE是什么?SRE(Site Reliability Engineering)即网站可靠性工程,提及SRE很多人会联想到运维工程师、系统工程师,其实不然,SRE本质上仍然是软 ...
1492
0
0
monicazhang
@
2020-12-3 11:00
来自:
DevOps、SRE和AIops学习实践
预览
monicazhang
2020-12-3
新窗
你想知道SRE同DevOps是如何关联的吗?
虽然站点可靠性工程师site reliability engineer(SRE)角色在近几年变得流行起来,但是很多人 —— 甚至是软件行业里的 —— 还不知道 SRE 是什么或 ...
1256
0
0
monicazhang
@
2020-12-3 10:33
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
如何评价基础设施服务的风险容忍度
构建和运维基础设施组件的要求在许多方面是不同于消费者服务的。一个根本的区别是,基础设施组件有多个客户,而他们通常有很多不同的需求。 Bigtab ...
1378
1
0
東東
@
2020-12-3 08:30
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
核算IT服务故障造成的成本
决定一项服务的合理可用性目标时,成本是很重要的考虑因素。 广告服务就能很好地体现出这种取舍,因为成功与失败直接通过赢利和亏损体现。在为每一 ...
1417
0
0
FYIRH
@
2020-12-2 23:03
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
定义IT系统的可用性目标SLO
对于某个Google服务而言,服务的可用性目标通常取决于它提供的功能,以及这项服务在市场上是如何定位的。下面列出了要考虑的一些问题∶ ● 用户期望 ...
1385
0
0
FYIRH
@
2020-12-2 22:49
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
IT服务的可靠性风险容忍度的评估
如何辨别服务的风险容忍度?在一个正式的环境或安全关键的系统中,服务的风险容忍度通常是直接根据基本产品或服务的定义建立的。在 Google内部,服务风 ...
1478
0
0
FYIRH
@
2020-12-2 22:37
来自:
DevOps、SRE和AIops学习实践
预览
萨达
2020-12-2
新窗
图片
轻松解读SRE 运维体系!
可观测性系统 在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中 ...
1495
0
0
萨达
@
2020-12-2 17:03
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
度量IT服务的稳定性风险
Google 标准做法是通过一个客观的指标来体现一个待优化的系统属性。通过设立这样一个目标,我们可客观地评价目前的系统表现以及追踪一段时间内的改进 ...
1317
0
0
FYIRH
@
2020-12-2 15:55
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-12-2
新窗
如何管理IT系统可靠性风险
你可能认为Google会试图构建一个百分之百可靠的服务。事实证明,超过一定值后,再提高可靠性对于一项服务(和它的用户)来说,结果可能会更差而不是更 ...
1236
0
0
FYIRH
@
2020-12-2 15:46
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
字节跳动(今日头条)SRE面试题目
算法2个单向链表在某个地方相交,问如何求出第一个相交点linuxlinux中消息机制中最快的方式是什么?答:共享内存共享内存是在用户空间还是内核空间如 ...
2427
1
0
東東
@
2020-11-30 17:05
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
IT运维转向远程带来机遇与挑战
P22 重点菜3 转向远程带来机遇与挑战 将新出现的或以前被忽略的挑战转变为战略差异化的机会。 着眼于士气,员工体验,工作/生活平衡以及员工 ...
1806
1
0
東東
@
2020-11-30 17:04
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
Linux之下支持SRE的几种关键技术
什么是 SRE(站点可靠性工程)? 站点可靠性工程(SRE)是 IT 运维的软件工程方案。SRE 团队使用软件作为工具,来管 ...
1414
1
0
東東
@
2020-11-30 17:03
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE谷歌运维解密目录
粗略翻译一下目录:第一部分:介绍 [*]第 1 章:介绍 [*]第 2 章:Google 的生产环境 第二部分:原则 [*]第 3 章:拥抱风险 [*]第 4 章:SLO ...
1524
1
0
東東
@
2020-11-30 17:02
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
哪些监控工具可以支持SRE实践?
在DevOps和SRE流行的今天,在开发可靠性或实施DevOps实践时,企业决策的核心是统计数据。而企业数据信息中最重要的一环就是线上业务的监控 ...
1382
2
0
東東
@
2020-11-30 17:01
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
SRE的基本指导思想
本部分将描述 SRE日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。 本部分的第一章(第3章)是最重要的一章。这 ...
1538
2
0
東東
@
2020-11-30 15:59
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
图片
SRE知识体系全图
SRE知识体系全图
1966
2
0
東東
@
2020-11-30 15:39
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
图片
莎士比亚搜索∶SRE负责的一个示范服务
为了更好地说明一个服务是怎样利用各种基础设施,以及是如何在 Google生产环境中部署的,我们在这里提供一个假想的莎士比亚搜索服务。这个服务的 ...
1459
0
0
FYIRH
@
2020-11-25 22:42
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
SRE的核心工作之一:需求预测和容量规划
需求预测和容量规划简单来说就是保障一个业务有足够的容量和冗余度去服务预测中的未来需求。这里并没有任何特别的概念,但是我们发现行业内有许多团队 ...
2673
0
0
FYIRH
@
2020-11-25 22:14
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
稳定性管理的重点:变更管理
SRE的经验告诉我们,大概 70% 的生产事故由某种部署的变更而触发。变更管理的最佳实践是使用自动化来完成以下几个项目 ∶ ● 采用渐进式发布机制。 ...
1639
0
0
FYIRH
@
2020-11-25 22:04
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
SRE日常工作:应急事件处理
可靠性是 MTTF(平均失败时间)和 MTTR(平均恢复时间)的函数(参见文献)。评价一个团队将系统恢复到正常情况的最有效指标,就是MTTR。 任何需要 ...
1184
0
0
FYIRH
@
2020-11-25 21:51
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
SRE的耳目:监控系统
监控系统是SRE 团队监控服务质量和可用性的一个主要手段。所以,监控系统的设计策略值得着重讨论。最普遍的和传统的报警策略是针对某个特定的情况或者 ...
1271
0
0
FYIRH
@
2020-11-25 21:43
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
在保障服务 SLO 的前提下最大化迭代速度
产品研发部门和SRE 之间可以通过消除组织架构冲突来构建良好的合作关系。在企业中,最主要的矛盾就是迭代创新的速度与产品稳定程度之间的矛盾。正如上 ...
1375
0
0
FYIRH
@
2020-11-25 20:18
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
SRE要确保长期关注研发工作
上文已经讨论过,Google将 SRE 团队的运维工作限制在50%以内。SRE 团队应该将剩余时间花在研发项目上。在实践中,SRE管理人员应该经常度量团队成员的 ...
1394
0
0
FYIRH
@
2020-11-25 20:10
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
我们要选择DevOps 还是 SRE ?
DevOps 这个名词是在2008年年末流行起来的,截止到本书写作时(2016年初),这个单词的具体意义仍在不断改变中。这个名词的核心思想是尽早将 IT 相关 ...
1160
0
0
FYIRH
@
2020-11-25 16:41
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
Google 的解决之道∶ SRE
SRE 这种模型是 Google尝试着从根本上避免产生这种矛盾的结果。SRE 团队通过雇佣软件工程师,创造软件系统来维护系统运行以替代传统模型中的人工操作 ...
1216
0
0
FYIRH
@
2020-11-25 16:32
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
谷歌SRE运维解密系统管理员模式
雇佣系统管理员(sysadmin)运维复杂的计算机系统,是行业内一直以来的普遍做法。这些系统管理员负责将现成的软件组件部署于生产环境中,对外提供某种 ...
1187
0
0
FYIRH
@
2020-11-25 16:23
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
谷歌SRE运维解密序言
软件工程有的时候和养孩子类似∶虽然生育的过程是痛苦和困难的,但是养育孩子成人的过程才是真正需要花费绝大部分精力的地方。但是,传统软件工程专业 ...
1291
0
0
FYIRH
@
2020-11-25 16:04
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
谷歌SRE运维解密前言
如果用一个词语来描述 Google 的历史,那就是不断地"扩大规模"(scaling up)。Google的成长经历,是计算机行业中数一数二的成功故事,标志着整个社会 ...
1272
0
0
FYIRH
@
2020-11-25 15:51
来自:
DevOps、SRE和AIops学习实践
预览
FYIRH
2020-11-25
新窗
谷歌SRE运维解密译者序
当我在 2016年年初听说本书的英文版即将面世时,第一时间就意识到这将是一本不可多得的经典之作。我作为 Google SRE 曾经的一员,看到本书中提到的那 ...
1340
0
0
FYIRH
@
2020-11-25 15:30
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-24
新窗
SRE落地实施的一些看法
对软件进行生命周期的整体性关注,这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。提高系统部署规模、改进可靠性和资源 ...
1139
0
0
admin
@
2020-11-24 19:52
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-24
新窗
图片
2019年SRE全球状态报告中文翻译版正式发布
本报告由长河、傅盛、姚凯、邓晓毅翻译,ITIL先锋论坛专家委员会发布 前言 2019年,Catchpoint连续第二年对SRE(站点可靠性工程师 ...
1385
0
0
admin
@
2020-11-24 11:53
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE如何实施数据处理流水线
读书笔记(SRE:Google运维解密):第25章 数据处理流水线 ...
1085
0
0
admin
@
2020-11-22 16:46
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE如何管理负载均衡
读书笔记(SRE:Google运维解密):第20章 数据中心内部的负载均衡系统 ...
1191
0
0
admin
@
2020-11-22 16:44
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
读书有感,SRE书籍摘录 3
22 处理连锁故障 [*]如果请求没有成功,以指数型延迟重试。 [*]为什么人们总是忘记增加一点点抖动因素呢? [*]连锁故障产生的原因和如何从设计上 ...
938
0
0
admin
@
2020-11-22 16:44
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
读书有感,SRE书籍摘录 2
跟踪故障 [*]提高可靠性的唯一可靠的方法论是建立一个极限,同时不断跟踪改变。 测试可靠性 [*]如果你还没有亲自试过某件东西,那么就 ...
937
0
0
admin
@
2020-11-22 16:43
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
读书有感,SRE书籍摘录 1
[*]SRE是DevOps在google的具体实践。 [*]一件事儿有可能发生就真的很有可能发生。P01是阿波罗8号上面的一个程序,一旦被人按下,就有可能造成数据 ...
1032
0
0
admin
@
2020-11-22 16:42
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE一定要学习开发技能?
SRE 其实是开发,之不过这个开发面对的业务需求是“如何保障公司业务的可靠性”。基于这个目标,DevOps 只是为了对整个环节可控的必要步骤而已,只有 ...
1061
0
0
admin
@
2020-11-22 16:39
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
对于提高系统可靠性来说,SRE到底意味着什么
DevOps和SRE似乎是同一枚硬币的两个面。他们都旨在弥合开发团队和运维团队之间的鸿沟,都想要提高软件部署的效率和软件运行的可靠性。在大多数公司中 ...
927
0
0
admin
@
2020-11-22 16:37
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
在美团点评第21期技术沙龙的分享记录整理而成的SRE分享
SRE(Site Reliability Engineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。美团点 ...
939
0
0
admin
@
2020-11-22 16:36
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
我看SRE在中小型组织的运用
SRE思想 1 规模效应业务越庞大,服务器就越多,服务越多,就越需要拆分成分布式架构 ...
973
0
0
admin
@
2020-11-22 16:33
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE在优云的落地实践案例
王璞 运维环境的新变化 数人云是基于容器的轻量级PaaS平台落地企业客户时,客户很难理解一个平台背后隐含的东西,任何平台及工具都是与方法 ...
971
0
0
admin
@
2020-11-22 16:30
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
众人所指,SRE的优势到底在哪里?
...
1062
0
0
admin
@
2020-11-22 16:25
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE应用到你的IT组织了吗?看看全球应用形势吧
[TechWeb编译]一项新调查发现,多数企业计划在明年将其大多数应用程序迁移到云中。微服务和SRE也越来越受欢迎根据技术和业务培训公司 ...
962
0
0
admin
@
2020-11-22 16:22
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
很长很长,我对运维解密SRE的笔记整理
梁铭图 读《SRE Google运维解密》是我首次比较系统地了解和学习Google内部SRE运作的指导思想、实践以及相关问题,最近又花了一些时间,仔细阅读了 ...
1093
0
0
admin
@
2020-11-22 16:10
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
大家都来学习SRE运维解密吗
这两年微服务和 DevOps 都很火,带着 SRE 也火起来了。如果这3个概念你都没听说过,那么真应该多关注些像大叔这样的 ...
1035
0
0
admin
@
2020-11-22 16:07
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
SRE学习、感想和联想
国庆长假,出门太堵,遂待在魔都,花了三天时间将《Google SRE》中文版翻了一遍,好书一本,不管是开发人员、运维人员还是架构师,都可以读一读,受益 ...
1153
0
0
admin
@
2020-11-22 16:06
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
谷歌SRE的主要工具介绍
作为一个运维老兵,也希望可以找到自己问题的答案,好在一书的上市,全面且细致的介绍了SRE工作,让我可以近距离的了解和思考未来。 ...
1250
0
0
admin
@
2020-11-22 16:04
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
一个SRE的转型道路,YY直播
运维人员是非常勤奋、爱学习的,具有非常广泛的技术视野和技能池。但在技术生态中为何总是处于一种较为弱势的、从属的、被动的地位? 我叫张观石, ...
1052
0
0
admin
@
2020-11-22 16:03
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
建立SLO和消除苦力,SRE与SLA
SRE是什么?它与DevOps有什么关系? 今年早些时候,我们(Liz Fong-Jones 和 Seth Vargo)发布了一组视频试图来回答这些问题并减少社区间的摩擦 ...
1416
0
0
admin
@
2020-11-22 16:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
你如何理解SRE这个新兴职位?
SRE本来也就是DevOps在运维领域的最佳实践,要说开发和运维偏哪个,感觉还是偏运维,这没毛病。 但是SRE和传统运维还是有很大区别的。 ...
940
0
0
admin
@
2020-11-22 15:56
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
稳定性压倒一切-SRE的使命
无明 你是否也对站点可靠性工程师(SRE)这个角色存在很多疑问?本文介绍了 SRE 工程师的职责。 尽管站点可靠性工程 ...
1205
0
0
admin
@
2020-11-22 15:54
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-22
新窗
相比于DevOps,SRE需要哪些技能
最近有一位朋友和我聊职业发展方向问题,聊了不少 DevOps 和 SRE 话题。 我几年前刚接触这两个概念时也常常将之混淆,可惜当时没有人来解答我 ...
1124
0
0
admin
@
2020-11-22 15:51
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
去除谬见:对SRE的误解分析
近几年业界对 SRE 的关注越来越多,但是对于 SRE 的认知确实参差不齐,存在一些误区: 1、SRE 就是运维。只能说 SRE 包含与传统运维相近的因素, ...
1142
0
0
admin
@
2020-11-21 14:14
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE到底需要哪些必要的工具?
写在前面最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披 ...
1066
0
0
admin
@
2020-11-21 14:12
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
神速的蚂蚁SRE团队
2020年初,新冠肺炎疫情爆发。春节后,企业要复产,百姓要复工,政府需尽快保障各项工作有序开展。如何精准防控,统筹疫情期间的各 ...
1059
0
0
admin
@
2020-11-21 14:10
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
支付宝的SRE实践之路
我在蚂蚁金服做SRE 华蒙 " data-time="2020-03-19 11:42:05"> 2019-04-04 ...
1222
0
0
admin
@
2020-11-21 14:08
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
为高效 Ops 和 SRE 团队准备的 10 个开源 k8s 工具
店家小二 2018-12-17 1372浏览量 简介: 如果你正在 Kubernetes 上工作,你的 SRE 和 Ops 团队需要正确的工具来确保Kubernetes集群的高可用和在其 ...
1242
0
0
admin
@
2020-11-21 14:06
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
谷歌视角的DevOps vs SRE
SRE(Site Reliability Engineering)是最早由Google提出,又经由Google发展完善的一个崭新运维理念。如今SRE已成为一个涵盖运维理念、思路、组织架构 ...
1300
0
0
admin
@
2020-11-21 14:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE职位给我们的启示
0、为什么诞生SRE? [*]原因一:企业成本的增长通用户的增长不成线性变化。但是随着系统的复杂度提升,组建越来越多,用户的流量压力 ...
1311
0
0
admin
@
2020-11-21 13:59
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE报告(2019)的主要核心要点
2019 SRE 调查报告:事故处理是主要工作,SRE 压力山大 2019-04-02 15:38 来源:高效开发运维 原标题:2019 SRE 调查报告 ...
1191
0
0
admin
@
2020-11-21 13:56
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
谷歌SRE们如何运行生产环境
《站点可靠性工程——谷歌是如何运行生产系统的》是一个开放的窗口,让大家可以看到谷歌在全世界范围内运行一些大型IT系统的经验和专业技能。这本书描 ...
902
0
0
admin
@
2020-11-21 13:52
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE和微服务架构如何适配
在过去的几年间,我们已经讨论过站点可靠性工程(Site Reliability Engineering,SRE)的角色,尤其这个群体如何从Google这种领域的公司得到发展,进 ...
1147
0
0
admin
@
2020-11-21 13:51
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
SRE的具体工作职责
SRE 是什么,不是什么 SRE,Site Reliability Engineering 的缩写。其中 site 是指 website,可以翻译为网站可靠性工程。这个工 ...
1230
0
0
admin
@
2020-11-21 13:45
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-21
新窗
网站可靠性工程技术与管理(SRE)
分布式系统监控中的数据聚合 《SRE》这本书有两章讲监控分布式系统,分别是第 6 章《Monitoring Distributed Systems》和第 10 章《Practica ...
1061
0
0
admin
@
2020-11-21 13:41
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
中国SRE书友会群讨论话题分享(一)
话题1:Gartner 2019 年「基础设施和运维」十大趋势 1. “I&O变得比以往任何时候都更深入地参与到现代企业前所未有的领域。I&O领导者关 ...
1223
0
0
admin
@
2020-11-20 18:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
中国SRE书友会群讨论话题分享(二)
话题1:您认为的运维的定位/目标是什么? 1. 之前听过一位前辈说,他心目中的运维,是关注于基础设施可用度上,让应用的归应用,研发 ...
1318
0
0
admin
@
2020-11-20 18:00
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
谷歌SRE精髓思想浅析
Google SRE:起源 一、世界上第一个SRE专注于参与阿波罗登月计划的MIT教授Margaret Hamilton 二、Apollos计划中的SRE Apo ...
1482
0
0
admin
@
2020-11-20 16:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
图片
SRE基础知识学习脑图
感谢Liufeng绘制本脑图 谷歌SRE起源与基本概念 谷歌SRE的实践总结 SRE对企业和团队的价值
1250
0
0
admin
@
2020-11-20 15:55
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
SRE Foundation系统可靠性工程认证培训内容介绍
SRE介绍了通过自动化、工作方法和组织重组的混合措施来提高服务可靠性的一系列实践。雅菲奥朗作为国内首家SRE认证培训和考试官方授 ...
2031
0
0
admin
@
2020-11-20 14:52
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
附件
SRE 工作职责金字塔
传统行业运维模式 • 系统管理员 (Sysadmin) • 将现成的组件组装、部署为服务 • 响应事件与更新 • 随着服务规模增长,团 ...
1052
0
0
admin
@
2020-11-20 12:14
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
附件
谷歌运维解密翻译作者讲解SRE
• 生产线管理员 • Ensure user-visible uptime and service quality • Authority over production environment. • 跟网 ...
1015
0
0
admin
@
2020-11-20 12:11
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-20
新窗
图片
SRE基础讲义一览
1211
0
0
admin
@
2020-11-20 10:17
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
为什么我们的客户的体验是这样
P40 重点四:SRE的未来是遥远而光明的 当我们努力关闭今年的报告时,我们将供应作为最后一个数据点,而各公司则重 ...
1019
0
0
admin
@
2020-11-19 18:04
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
您的网站或应用在家中经历了更多或更少的事件吗?
P37重点四:SRE的未来是遥远而光明的您的网站或应用在家中经历了更多或更少的事件吗?“在家”期间的事件更少在“在家”中大致相同“在家”期间发生更 ...
1055
0
0
admin
@
2020-11-19 18:03
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
主动与被动式之间的差异(向被动式净赚2%)
P34 重点四:SRE的未来是遥远而光明的 考虑到要转移到一个完整的,分散的劳动力队伍中,我们希望再看看其他变更因素,以便为决策者提供输入点 ...
1070
0
0
admin
@
2020-11-19 18:02
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
通过观察能力转向预防措施,首先减少事故
P31 重点三:转向远程带来机遇与挑战 在2019年的SRE报告中,重点放在劳力和压力上。我们嘲笑可能会有一些预期的响应: ü 使用自动化减少工作量。 ...
1327
0
0
admin
@
2020-11-19 18:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
使用自动化可以自动解决的问题和事件占百分之几?
P28重点三:转向远程带来机遇与挑战 使用自动化可以自动解决的问题和事件占百分之几?自我修复问题的百分比受访者百分比 45%的人表示监控技术太耗时 ...
1113
0
0
admin
@
2020-11-19 18:01
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
SRE工作占劳动的百分之几?
P25 重点三:转向远程带来机遇与挑战 “我发现每天带我的孩子一起在家里是体验压力最大的部分。 一般而言,保持工作与生活的平衡可能很困难,但 ...
1256
0
0
admin
@
2020-11-19 18:00
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
关键要点2:成本带来了沉重的操作负担
P20 关键要点2:成本带来了沉重的操作负担 一旦SRE工作并且价值被认可,就可以开始对其进行奖励了。为了获得支持,请将对话附加到某些类型的业 ...
1067
0
0
admin
@
2020-11-19 17:57
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
系列内容一览,SRE报告2020 10
P18 关键要点2:成本带来了沉重的操作负担 如果对火没有反应,那么我们可能会认为我们所做的一切都是积极主动的。与其孤立地讨论实现价值的 ...
1189
0
0
admin
@
2020-11-19 17:55
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
二零二零站点可靠性工程报告 9
P16 关键要点2:成本带来了沉重的操作负担 谁在您的组织中执行SRE活动? 我们拥有一支专门的SRE团队,与其他运营/管理团队分开46% DevOps ...
948
0
0
admin
@
2020-11-19 17:49
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
SRE的状态调查报告 8 主要内容
P14 关键要点2:成本带来了沉重的操作负担 如果拥有系统的成本中有90%是在部署之后(即向右转移),那么为什么企业仍然采用主要为ops类型 ...
1007
0
0
admin
@
2020-11-19 17:48
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
SRE发展状况报告之7
P12 关键要点1:存在可观测性组件;可观察性不 服务级别上是否存在运行状况监控,以能够检测到中断或性能或绩效问题(在服务级别上)? ...
1029
0
0
admin
@
2020-11-19 17:46
来自:
DevOps、SRE和AIops学习实践
预览
admin
2020-11-19
新窗
全球SRE状态调查report 6
P10(仅图表,便采用以下格式呈现) 关键要点1:存在可观测性组件;可观察性不 关键 点 1:可观测性组件存在;可观测性不存在 SRE团队在多大程度 ...
1004
0
0
admin
@
2020-11-19 17:46
1
2
3
4
5
6
7
8
9
10
/ 10 页
下一页
快速发帖
还可输入
80
个字符
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以发帖
登录
|
立即注册
本版积分规则
发表帖子
转播给听众
最新100贴
|
论坛版块
|
ITIL先锋论坛
|
粤ICP备11099876号
|
网站地图
Powered by
Discuz!
X3.4
Licensed
© 2001-2017
Comsenz Inc.
返回顶部