×
搜索
热搜词
ITIL培训
ITIL认证
ITIL课程
DevOps认证
ITSS培训
新手福利
ITIL4知识库
ITIL认证
干货下载
ITIL沙盘实战
ITIL聚会
专家直播
论坛版块
登录
注册
登录ITIL先锋论坛更精彩
下次自动登录
忘记密码
立即注册
登录
其他帐号登录:
扫描二维码登录本站
只需一步,快速开始
用户组:游客
主题
帖子
威望
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
退出
【 ITIL先锋论坛 】- 版块首页
ITIL理论学习和流程落地实战
开源ITSM工具 - iTop实施开发
ITSS学习实践和审核辅导
DevOps、SRE和AIops学习实践
最新IT服务管理行业招聘
热点推荐
2023ITIL先锋论坛北京Meetup成功举办:ITIL
iTOP(开源ITIL软件)—iTop安装部署的环境
iTop(开源ITIL软件)——iTop系统与 ITIL思
恭贺长河老师:荣获PeopleCert中国区首位"
iTop(开源ITIL软件)——数据管理模块及管
修改论坛手机版网站名位置
新论坛微信认证的设置
iTop(开源ITIL软件)—服务管理模块
ITIL先锋论坛
»
论坛交流
›
核心讨论区
›
DevOps、SRE和AIops认证和实践
DevOps、SRE和AIops认证和实践
收录了997篇文章 · 1人关注
版块操作
关注本版
RSS订阅
发布新帖
最新
最后发表
热门
精华
新窗
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
DevOps 改变 IT 部门运作方式的8种优势
DevOps 趋势在企业IT中越来越受欢迎,对于选择实施它的企业来说,获益匪浅。 企业 IT 部门试图通过实施 DevOps 来实现技术创新,随着 DevOps 趋 ...
861
0
0
FYIRH
@
2021-12-20 21:16
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
2021 年 8 个值得关注的 DevOps 趋势
1)微服务架构的流行度上升 微服务架构使DevOps仅专注于单个服务,这对于快速交付复杂应用程序是最重要的。DevOps和微服务架构相结合可以节省成本 ...
958
0
0
FYIRH
@
2021-12-20 21:07
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
选型必看:DevOps中的安全测试工具推荐
从策略层面来讲,安全测试工具可以融入 DevOps 工作流之内,并从本质上构成一套 DevSecOps 模型,借此在提高生产效率的同时最大程度降低软件开发成 ...
928
0
0
FYIRH
@
2021-12-20 20:58
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
没有它,你的 DevOps 可能玩不转
善用兵者,役不再籍,粮不三载。取用于国,因粮于敌,故军食可足也。——《孙子兵法》 在古代,带兵作战的将领,不仅要能善于用兵,而且要能保障 ...
650
0
0
FYIRH
@
2021-12-20 20:51
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
DevOps 的7个误解
DevOps 可以为你的团队带来很多好处,但是在开发人员社区中流传着许多 DevOps 误解,为了能够正确理解并接受 DevOps,纠正一些误解很重要。 DevO ...
679
0
0
FYIRH
@
2021-12-20 20:39
来自:
DevOps、SRE和AIops认证和实践
预览
FYIRH
2021-12-20
新窗
图片
DevOps 到底是什么?5分钟了解
DevOps 作为软件开发的哲学已经存在了一段时间。它已经从流行语(软件开发中的新潮事物)演变为各种规模的组织经过实践检验的实践。但是,对于正 ...
639
0
0
FYIRH
@
2021-12-20 20:31
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2021-12-20
新窗
图片
持续交付到底有什么价值?
“持续交付”定义为“一套软件工程方法论和许许多多的最佳实践的集合”。持续集成、持续交付和持续部署的关系通常会把软件研发工作拆解,拆分成不同模 ...
647
0
0
匿名
@
2021-12-20 20:28
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2021-12-20
新窗
图片
华为质量流程IT总裁陶景文:任何不涉及流程重构的数字化转型,都是在装样子 | IDCF
本文为华为董事、质量与流程IT总裁陶景文的演讲,从多个层面和角度分享了华为的数字化转型实践。 在疫情和中美的冲突双重压力下,让我们在高速发展 ...
1046
0
0
匿名
@
2021-12-20 20:19
来自:
DevOps、SRE和AIops认证和实践
预览
蓝蓝
2021-12-19
新窗
图片
Jenkins 创始人谈DevOps与持续交付
Jenkins创始人Kohsuke Kawaguchi(KK)于2004年开发了 Jenkins 项目的前身(Hudson),一开始就是为了解决他自己的关于自动化的需求。他自己也没想到1 ...
1503
0
0
蓝蓝
@
2021-12-19 16:25
来自:
DevOps、SRE和AIops认证和实践
预览
loonger
2021-11-3
新窗
图片
陈飞老师《DevOps溯源》21年11月3日晚八点直播!艾拓先锋专家微课堂第426期!
陈飞《DevOps溯源》 第426期专家微课堂分享2021年11月3日(周三)20:00~21:00 以史为鉴,可以知兴替。从DevOps产生的时代和技术背景这个角 ...
939
0
0
loonger
@
2021-11-3 16:28
来自:
DevOps、SRE和AIops认证和实践
预览
萨达
2021-5-14
新窗
图片
关于DevOps CI/CD Pipeline,看这篇就够了
提到DevOps,很多人就想到了CI/CD Pipeline,甚至很多个人或者企业认为完成了CI/CD Pipeline就等于实现了DevOps,虽然这种观点有失偏颇,但是从侧面 ...
1797
0
0
萨达
@
2021-5-14 15:34
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2021-5-14
新窗
云原生应用的测试指南
译者注:这是国外一篇介绍如何测试云原生应用的文章,云原生应用通常是基于微服务架构风格的分布式应用程序,传统的测试方法和技术已不能满足产品 ...
956
0
0
匿名
@
2021-5-14 15:15
来自:
DevOps、SRE和AIops认证和实践
预览
未来之星
2021-5-14
新窗
图片
关于容器镜像安全,你做对了吗?
容器在近些年变得炙手可热,提到容器就不能不提到镜像,如果说容器是云计算时代的核心内容之一,那么镜像就是容器这个核心的灵魂。所以镜像的安全也 ...
1209
0
0
未来之星
@
2021-5-14 15:09
来自:
DevOps、SRE和AIops认证和实践
预览
Hoop
2021-5-14
新窗
图片
高效接口测试的策略、原则、结构与实践技巧
编者按:在所有的开发测试中,接口测试是必不可少的一项。有效且覆盖完整的接口测试,不仅能保障新功能的开发质量,还能让开发在修改功能逻辑的时候有 ...
1221
0
0
Hoop
@
2021-5-14 14:24
来自:
DevOps、SRE和AIops认证和实践
预览
忘我之境
2021-5-14
新窗
如何搭建一个拖垮公司的技术架构?
架构师不仅拿钱多,还受到程序员的崇拜、妹子的仰慕。他们走路带风、出场自带BGM,吹啊吹,我的骄傲放纵。唯一的缺点,就是费头发。架构师虽好 ...
911
0
0
忘我之境
@
2021-5-14 12:26
来自:
DevOps、SRE和AIops认证和实践
预览
麦迪逊
2021-4-19
新窗
图片
DataOps、MLOps 和 AIOps,你要的是哪个Ops?
如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops? 两年前,由于我领导的运维团队效率低下,我“赢得”了耻辱的勋章。 ...
1146
0
0
麦迪逊
@
2021-4-19 13:22
来自:
DevOps、SRE和AIops认证和实践
预览
xiaowei
2021-4-19
新窗
图片
麦肯锡报告:一般企业数字化转型失败率为80%
企业数字化转型失败率高达80%,很大的原因就和认知有关。数字化转型的关键不是数字化技术和设备,而是组织变革使之具有敏捷性和适应性。 麦肯锡报告 ...
1867
0
0
xiaowei
@
2021-4-19 12:55
来自:
DevOps、SRE和AIops认证和实践
预览
xiaowei
2021-4-19
新窗
敏捷 vs. 精益:它们之间的区别与联系
虽然你经常听说精益(Lean)和敏捷(Agile),但对敏捷和精益之间的关系是不是也经常感到困惑? 虽然这两种方法经常一起使用,但它们是两种非常不同的 ...
1176
0
0
xiaowei
@
2021-4-19 12:37
来自:
DevOps、SRE和AIops认证和实践
预览
姗姗来迟
2021-4-8
新窗
图片
一文看懂持续部署按需发布!DevOps部署和发布方法大全
大纲一、前言二、什么是部署与发布三、什么是持续部署四、持续部署实践 [*]蓝绿部署 [*]滚动部署 [*]黑启动 五、按需发布实践 [*]金丝雀发布 [* ...
1956
0
0
姗姗来迟
@
2021-4-8 17:09
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2021-4-7
新窗
图片
通过组织转型打造高效研发团队的五个维度
一、组织架构是基础 如果现存的组织架构与转型目标不符,组织架构的调整是所有转型工作的第一步。即使只是转型试点,组织架构转型暂时不在全 ...
1385
0
0
匿名
@
2021-4-7 15:10
来自:
DevOps、SRE和AIops认证和实践
预览
Alan
2021-4-7
新窗
图片
微服务与 DevOps实践:技术架构与组织架构
一、概述 首先,我们来看看微服务的定义:微服务是一个界限明确、高度封装、松耦合、可以独立部署和独立扩展的服务应用组件。如图所示。微服务架构 ...
1530
0
0
Alan
@
2021-4-7 14:47
来自:
DevOps、SRE和AIops认证和实践
预览
banana
2021-4-2
新窗
图片
如何进行有效的TDD实践
一、TDD已死? 最近几年“TDD 已死”的声音不断出现,特别是 David Heinemeier Hansson 那篇文章——《TDD is dead. Long live testing. (DHH)》 ...
1145
0
0
banana
@
2021-4-2 12:27
来自:
DevOps、SRE和AIops认证和实践
预览
Hoop
2021-4-2
新窗
图片
四种常见研发模式及其优缺点对比
一、瀑布模型 1.1 模型介绍 1970年温斯顿-罗伊斯提出。将软件生存周期的各项活动规定为按固定顺序而连接的若干阶段工作,形如瀑布流水,最终 ...
1424
0
0
Hoop
@
2021-4-2 11:37
来自:
DevOps、SRE和AIops认证和实践
预览
汗青
2021-3-31
新窗
图片
我对 SRE 的理解
前 言 在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离 ...
1169
0
0
汗青
@
2021-3-31 12:22
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2021-3-31
新窗
图片
组织提升转型中的度量
一、度量是什么 度量是对工作的过程和产出进行数据定义、收集、和分析的持续性量化过程。建立一个度量体系包括选取度量指标、确定指标的度量标 ...
1019
0
0
匿名
@
2021-3-31 11:52
来自:
DevOps、SRE和AIops认证和实践
预览
蓉ZXM
2021-3-30
新窗
图片
十分钟了解规模化敏捷LeSS
前 言 LeSS的第一次学习是在2019年1月份,当时的感觉挺烧脑,对SystemThinking第一次接触,很多东西似懂非懂,学得并不是很扎实。幸运的是 ...
1463
0
0
蓉ZXM
@
2021-3-30 16:05
来自:
DevOps、SRE和AIops认证和实践
预览
蓉ZXM
2021-3-30
新窗
图片
斯坦福教授:成长型思维的养成,只需要换个说法,思维是可以训练的!
斯坦福研究表明,拥有成长型思维的人做事不易放弃,更能从过程中享受到乐趣,更容易寻求帮助,复原力更强,也就是更加坚毅。他们会更在意自己从一件事 ...
1109
0
0
蓉ZXM
@
2021-3-30 14:51
来自:
DevOps、SRE和AIops认证和实践
预览
august
2021-3-30
新窗
图片
2021 年 DevOps 的八大趋势
本文先看看别人的预测,最后我也凭借自己在 DevOps 领域这几年的经验和认知,大胆预测DevOps 在2021年的发展与变化。 别人的预测 本文翻 ...
1136
0
0
august
@
2021-3-30 14:11
来自:
DevOps、SRE和AIops认证和实践
预览
YYQQ
2021-3-5
新窗
DevOps敏捷8大领域60+常见问题解答(上篇)
“DevOps的价值是又快又好地交付软件”——《凤凰项目》的作者Gene Kim和《持续交付》的作者JezHumble 当前数字化转型的形势下,软件行业面临着巨大 ...
1306
0
0
YYQQ
@
2021-3-5 15:16
来自:
DevOps、SRE和AIops认证和实践
预览
Alan
2020-12-18
新窗
图片
为什么DevOps和SRE领域很难有足够多优秀的工程师?
Reddit 上一位网友有这样的困惑: 显然,在任何领域都没有足够优秀的工程师,但是,为什么 DevOps / SRE 人才特别难找? 这个问题引发了大家的讨论 ...
2119
0
0
Alan
@
2020-12-18 16:27
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-18
新窗
图片
你知道谁会是世界上第一个SRE吗?
前言: [*]谁是世界上第一个SRE? [*]第一个SRE是在哪一年认定的?(说不定让你大吃一惊) [*]第一个SRE据说,是位女性? 一、首先我们来了解一 ...
2173
0
0
monicazhang
@
2020-12-18 16:22
来自:
DevOps、SRE和AIops认证和实践
预览
Eson
2020-12-18
新窗
图片
大型电商网站是如何做SRE?
今天的分享包含四部分:第一,电商网站业务特征对运维的挑战。 第二,SRE 的日常。 第三,速度VS稳定性。 第四,稳定性和技术流程相关。 一 ...
2250
0
0
Eson
@
2020-12-18 16:06
来自:
DevOps、SRE和AIops认证和实践
预览
汗青
2020-12-18
新窗
我做系统管理员,你到谷歌做SRE-运维界最远的距离
运维界最远的距离,不是上线到宕机,而是我还在做系统管理员,你却到谷歌做了SRE。偷得半日闲,今天就作为一名资深系统管理员老司机来谈谈为什么SRE那 ...
1511
0
0
汗青
@
2020-12-18 15:46
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-18
新窗
图片
需要做到哪些才能成为一支优秀的SRE团队
新的 SRE 已经招到了,接下来怎么办?已经招聘到了新的 SRE 雇员,接下来我们必须要在工作中培训他们。在工作初期的 教育与技术培训上投入足够的力量 ...
1826
0
0
monicazhang
@
2020-12-18 13:58
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-17
新窗
图片
云原生背景下运维如何自救和升级?
前言随着公司自研上云战略如火如荼地进行,IEG-增值服务部作为较早一批响应的团队,截止目前自研上云已完成1/3的流量切换,日PV超百亿。切云的服务大 ...
2372
0
0
monicazhang
@
2020-12-17 11:09
来自:
DevOps、SRE和AIops认证和实践
预览
loonger
2020-12-14
新窗
Google SRE方法给运维带来了新机遇
运维部门要保障产品业务稳定性,开发部门要想随时随地快速上线新功能,而线上的故障往往是由新的变更导致的— ...
1303
0
0
loonger
@
2020-12-14 17:23
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-14
新窗
图片
2019 SRE 调查报告显示压力山大的是:事故处理是主要工作
2019 年 1 月,网站监测服务公司 Catchpoint 通过邮件列表和社交媒体进行了一项 SRE 调查。来自不同行业的 188 名 SRE 参与了这项调查,回答了如何管 ...
1862
0
0
monicazhang
@
2020-12-14 12:19
来自:
DevOps、SRE和AIops认证和实践
预览
未来之星
2020-12-14
新窗
SRE边成长边思考的问题
工作中的思考其实我个人挺懒的,虽然在JDJR这两年不论是在技术还是思路上我都学到很多东西,而且在别人说到相关的东西也立马能够心领神会(原谅前面有 ...
1374
0
0
未来之星
@
2020-12-14 12:01
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-14
新窗
图片
从SRE与运维的思考中我们得出了4个总结
运维部门要保障产品业务稳定性,开发部门要想随时随地快速上线新功能,而线上的故障往往是由新的变更导致的——不管是新发布了版本,还是修改配置,或 ...
1342
0
0
匿名
@
2020-12-14 11:56
来自:
DevOps、SRE和AIops认证和实践
预览
salala
2020-12-14
新窗
SRE team的第一课
本文将与大家分享一些新加入SRE团队时应该考虑的问题。无论你是刚加入一个SRE团队的新人,亦或是公司的第一位SRE(Ops/Techops/DevOps)。笔者也曾经 ...
1262
0
0
salala
@
2020-12-14 11:44
来自:
DevOps、SRE和AIops认证和实践
预览
太阳
2020-12-14
新窗
VMware 产品中你分析出哪些SRE的概念
经过SRE Foundation 课程的学习,我发现如果要精读他的思想两天时间是远远不够的,有同事和我说,"SRE的出现其实是运维与研发两个团队的权利斗争,在Googl ...
1276
0
0
太阳
@
2020-12-14 11:29
来自:
DevOps、SRE和AIops认证和实践
预览
太阳
2020-12-14
新窗
图片
在 SRE 和事件响应中的如何应用可观测性解决方案
为何要实现服务可靠性 在当今的数字时代,软件服务可谓现代商业的核心之所在。只需看一下您智能手机上的应用。购物、理财、在线视频、游戏、阅读、聊 ...
1736
0
0
太阳
@
2020-12-14 11:26
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-14
新窗
图片
SRE文化小册子
SRE最近已成为许多公司间一个热门讨论的话题。什么是SRE?谁是SRE?我们如何实现?对于这个话题我当然也有自己的一些观点。但是大部分观点都有一 ...
1552
0
0
匿名
@
2020-12-14 11:08
来自:
DevOps、SRE和AIops认证和实践
预览
一同进步
2020-12-14
新窗
图片
SRE学习小心得
SRE团队通常有一套对项目的部署和维护的标准,在接手一个项目的维护工作之前,会用这个标准对项目进行评审,看是否适合由SRE来接手,项目是否需要做一 ...
1558
0
0
一同进步
@
2020-12-14 11:04
来自:
DevOps、SRE和AIops认证和实践
预览
我行我素
2020-12-14
新窗
图片
Google SRE 如何做监控解密
今天,结合《SRE Google运维解密》,尝试提炼出所有关于监控系统设计的精髓,希望能捕捉到对现有系统有建设性的改进意见。 脑图整理的很详细,若图 ...
1533
0
0
我行我素
@
2020-12-14 11:01
来自:
DevOps、SRE和AIops认证和实践
预览
陈真
2020-12-14
新窗
读《SRE:Google运维解密》之后,我想到了什么
引言最近看了《SRE:Google运维解密》这本书,讲的是Google的天才们如何通过软件工程方法改变运维方式,保障超大型分布式系统的可靠性的。而这群人就是 ...
1780
0
0
陈真
@
2020-12-14 10:53
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-14
新窗
图片
在保障数据完整性方面,SRE都做了些什么
就像我们假设Google的底层系统经常出问题那样,SRE同样假设任何一个数据保护机制都可能在最不适合的时间出现问题。在所依赖的软件系统不停改变的情况 ...
1453
0
0
monicazhang
@
2020-12-14 10:49
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-14
新窗
看到这份技能清单,你就知道成为SRE工程师多不容易了
好长的技能清单!这个列表并非详尽无遗,只是列举了技术基础、必须知道的技能和一些随机的想法。可以用它们作为一个清单来评估你自己或其他人,或者为 ...
1472
0
0
monicazhang
@
2020-12-14 10:43
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-14
新窗
Google SRE如何将四大核心思想应用到行业中
在深入讨论Google SRE的文化和实践时,我们很自然地会联想到其他行业是如何对待 可靠性这个问题的。借着编纂本书这个机会,我有幸和许多 Google 工程 ...
1281
0
0
匿名
@
2020-12-14 10:37
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-14
新窗
图片
需要做哪些才能从SRE的角度去加监控
背景 今天来讨论一下监控应该如何添加,添加哪些,怎么添加。大家可能看到很多分享。大概分为三类,第一讲述自己的监控指标很多的,动辄几万指标就 ...
1246
0
0
monicazhang
@
2020-12-14 10:33
来自:
DevOps、SRE和AIops认证和实践
预览
xiaowei
2020-12-11
新窗
SRE怎样让运维如此高规格
引言SRE是Site Reliability Engineer的简称,从名字可以看出Google的SRE不只是做Operation方面的工作,更多是保障整个Google服务的稳定性。SRE不接触 ...
1212
0
0
xiaowei
@
2020-12-11 11:46
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-11
新窗
SRE基础入门方法和团队组织方式
在 Google,站点可靠性工程(SRE)是我们不断定义可靠性目标,衡量这些目标,并根据需要努力改善我们的服务的做法。我们最近指导您浏览了 SRE 工作手 ...
1384
0
0
monicazhang
@
2020-12-11 11:42
来自:
DevOps、SRE和AIops认证和实践
预览
太帅
2020-12-11
新窗
图片
遥不可及的SRE
“ 组织采用SRE方式占比最少,但是希望实施SRE的意愿却最高,无论CXO层、管理层还是团队,都表现出了极高的兴趣。SRE究竟具有什么特质,让大家一边向 ...
1335
0
0
太帅
@
2020-12-11 11:37
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-11
新窗
图片
云端的SRE的发展和实践有哪些?
SRE(Site Reliability Engineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。 美团 ...
1674
0
0
monicazhang
@
2020-12-11 11:13
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-11
新窗
图片
传统运维究竟如何转型SRE?
对运维的三个思考 传统运维窘境 我们运维一般是这样的:把软硬件资源按计划准备好,按需求安装起来,让业务快速上线,让服务器上进程和和业务正常, ...
1573
0
0
monicazhang
@
2020-12-11 11:03
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-11
新窗
一文解读SRE工程师到底是做什么的?
你是否也对站点可靠性工程师(SRE)这个角色存在很多疑问?本文介绍了 SRE 工程师的职责。 尽管站点可靠性工程已经存在了一段时间,但也只是最近才在 ...
1309
0
0
monicazhang
@
2020-12-11 10:55
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-10
新窗
图片
是SRE,你就会做过这101件事!
001.安装1个Linux系统 002.安装或使用过两种Linux Server版本系统 002.安装或使用过两种Linux Server版本系统003.安装好系 ...
1777
0
0
monicazhang
@
2020-12-10 14:08
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-10
新窗
SRE应该具备的能力和素质
作为SRE来说应该具备哪些能力和素质呢。大家可能听过很多,比如责任心、敬畏心等等,很多都是非常虚幻的东西。从我经验和角度来最应该具备能力有哪些 ...
1429
0
0
monicazhang
@
2020-12-10 13:50
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-10
新窗
图片
浙江移动SRE转型实例给我们哪些启发
一、背景:我们是网络运维工程师 我们维护的设备:厂家定制,专有软硬件的通信设备。 我们眼中的世界:路由、协议、网元、信令、局数据… 我 ...
2020
0
0
monicazhang
@
2020-12-10 13:43
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-10
新窗
图片
在SRE的位置上如何看待推荐和搜索
背景 今天来讨论一下搜索和推荐系统直接的关系。 搜索的第一反应是啥:百度。搜索要解决的事情是快速找到用户想要的东西,重点是快速,准确。往 ...
1346
0
0
monicazhang
@
2020-12-10 12:10
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-9
新窗
图片
小米SRE每天都在干啥了?
本文主要介绍了小米SRE的日常工作及遇到的各方面问题和处理方法,值得借鉴。1、日常巡检发现新扩容的一台Web转发服务器负载异常。比原来的稍高但仍 ...
1529
0
0
monicazhang
@
2020-12-9 11:16
来自:
DevOps、SRE和AIops认证和实践
预览
麦迪逊
2020-12-9
新窗
图片
在容器时代下DevOps与SRE是如何发展与变化的
前 言 90年代末期和21世纪早期,市场主要以传统C/S架构为主,而且流行胖客户端,对于服务器端的压力较小,运维对于企业的价值并不是很高,也往往 ...
1530
0
0
麦迪逊
@
2020-12-9 11:02
来自:
DevOps、SRE和AIops认证和实践
预览
xiaowei
2020-12-9
新窗
图片
从故障管理到SRE体系建设的14个问题!
>>>>Q&A Q1:请问DevOps与SRE是什么关系? A:看来大家对DevOps vs SRE的问题还是比较热衷的,在很多场合下都会听到这样的问题。从我的理解来看,两 ...
1549
0
0
xiaowei
@
2020-12-9 10:56
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-9
新窗
图片
与大家分享的SRE精华部分
SRE首先是一套方法论,它从传统运维中与稳定性相关的工作内容提炼出来进行升华,构建了SRE的方法论体系。冗余和容灾、容量规划、系统自动保护、失败预 ...
1675
0
0
monicazhang
@
2020-12-9 10:48
来自:
DevOps、SRE和AIops认证和实践
预览
monicazhang
2020-12-9
新窗
图片
作为一个搞运维的,你必须了解 SRE !
0、为什么诞生 SRE? [*]原因一:企业成本的增长同用户的增长不成线性变化。但是随着系统的复杂度提升,组建越来越多,用户的流量压力也越来越大,相 ...
1577
0
0
monicazhang
@
2020-12-9 10:37
来自:
DevOps、SRE和AIops认证和实践
预览
陈真
2020-12-5
新窗
图片
火
舒缓疼痛∶将自动化应用到集群上线中
十年前,集群基础设施 SRE 团队似乎每隔几个月都要雇用新人。事实上,大约与我们新集群上线的频率相同。因为在新集群中启动新的服务能够让新员工接触 ...
1371
1
0
東東
@
2020-12-7 10:49
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-6
新窗
图片
火
按照时间戳和值的序列存放的标签与向量
正如图10-2的示范数据所示,time-series 是按照时间戳和值的序列存放的,我们称之为向量(vector)。就像线性代数中的向量一样,这些向量是一个存放在 ...
1281
1
0
東東
@
2020-12-7 10:49
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-6
新窗
图片
分布式系统的监控指标的收集
首先,Borgmon实例的配置文件中配置了需要收集的目标列表,目标位置可以使用各种地址解析服务支持的格式。这个目标列表通常是动态变化的,所以一套服 ...
1433
0
0
匿名
@
2020-12-6 23:33
来自:
DevOps、SRE和AIops认证和实践
预览
further
2020-12-6
新窗
如何在应用软件做好监控埋点
/varz这个HTTP接口只是用文本方式每行一个地列出应用中所暴露的全部监控变量值,格式是空格分隔的键值对。随后,又增加了一种 Map 格式,允许应用程序 ...
1220
0
0
further
@
2020-12-6 23:30
来自:
DevOps、SRE和AIops认证和实践
预览
我行我素
2020-12-6
新窗
基于时间序列数据进行有效报警内容介绍
让查询来得更猛烈些吧,让寻呼机永远保持沉默!—— SRE 谚语 监控,处于整个生产环境需求金字塔模型的最底层。监控是运营一个可靠的稳定服务不│可 ...
1522
0
0
我行我素
@
2020-12-6 23:26
来自:
DevOps、SRE和AIops认证和实践
预览
it168
2020-12-6
新窗
图片
谷歌SRE有哪些落地的实践
简单来说,SRE的职责是运维一个服务。该服务由一些相关的系统组件组成,为最终用户提供服务(可以是内部用户或外部用户)。SRE 的终极责任是确保该服 ...
1387
0
0
it168
@
2020-12-6 23:23
来自:
DevOps、SRE和AIops认证和实践
预览
Hoop
2020-12-6
新窗
最小 API和软件系统模块化的建议
法国诗人 Antoine de Saint Exupery 曾写道,"不是在不能添加更多的时候,而是没有什么可以去掉的时候,才能达到完美。"(参见文献【Sai39】)这个 ...
1468
0
0
Hoop
@
2020-12-6 23:16
来自:
DevOps、SRE和AIops认证和实践
预览
书法家
2020-12-6
新窗
我绝对不放弃我的代码和"负代码行"作为一个指标
因为工程师也是人,他们经常对于自己编写的代码形成一种情感依附,这些冲突在大规模清理源代码树的时候并不少见。一些人可能会提出抗议,"如果我们 ...
1064
0
0
书法家
@
2020-12-6 23:16
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-6
新窗
如何让复杂IT系统简单化
可靠性只有靠对最大程度的简化不断追求而得到。—C.A.R. Hoare,Turing Award lecture 软件系统本质上是动态的和不稳定的。只有真空中的软件系 ...
1209
0
0
匿名
@
2020-12-6 23:14
来自:
DevOps、SRE和AIops认证和实践
预览
汗青
2020-12-6
新窗
如何向谷歌学习更好地发布工程
当采用合适的工具、合理的自动化方式,以及合理的政策时,开发团队和SRE 都无须担心如何发布软件。发布过程可以像按一个按钮那么简单。 大部分公司 ...
1165
0
0
汗青
@
2020-12-6 23:13
来自:
DevOps、SRE和AIops认证和实践
预览
salala
2020-12-6
新窗
SRE发布工程师如何做好配置管理
配置管理是发布工程师与SRE 紧密合作的一个区域。虽然初看起来,配置管理可能很简单,但是这其实是不稳定性的一个重要来源。因此、我们的发布流程和系 ...
1378
0
0
salala
@
2020-12-6 00:03
来自:
DevOps、SRE和AIops认证和实践
预览
loonger
2020-12-6
新窗
图片
谷歌SRE发布工程的Rapid 系统
图 8-1展示了Rapid系统中的主要组件。Rapid是用Bhueprin文件配置的。Blueprint文件是一种利用Google内部配置语言写成的,用来定义构建目标和测试目标 ...
1951
0
0
loonger
@
2020-12-6 00:01
来自:
DevOps、SRE和AIops认证和实践
预览
banana
2020-12-5
新窗
发布工程的基本思想之三(测试、打包、部署)
分支所有的代码都默认提交到主分支上(mainline)。然而,大部分的项目都不会直接从主分支上进行直接发布。我们会基于主分支的某一个版本创建新分支, ...
1263
0
0
banana
@
2020-12-5 23:59
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-5
新窗
谷歌SRE发布工程哲学第二部分
强调策略和流程 多层安全和访问控制机制可以确保在发布过程中只有指定的人才能执行指定的操作。我们主要关注的操作有如下几项∶ ● 批准源代码改 ...
1197
0
0
匿名
@
2020-12-5 23:58
来自:
DevOps、SRE和AIops认证和实践
预览
Alan
2020-12-5
新窗
发布工程的基本思想(SRE谷歌)
发布工程师的日常工作是由下列4 个主要的工程与服务哲学指导的。 自服务模型为了应对大规模扩张,每个团队必须能够自给自足。发布工程师开发工具, ...
1070
0
0
Alan
@
2020-12-5 23:57
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-5
新窗
谷歌SRE的发布工程介绍
发布工程(Release Engineering)是软件工程内部一个较新、发展较快的学科。简单来说,这个学科专注于构建和交付软件(参见文献【McN14a】)。发布工 ...
1216
0
0
匿名
@
2020-12-5 23:56
来自:
DevOps、SRE和AIops认证和实践
预览
姗姗来迟
2020-12-5
新窗
对大型分布式系统运维的建议
读过本章的案例之后,你肯定会觉得在达到 Google的规模之前不需要进行任何自动化。这是不正确的,有以下两个原因∶自动化提供的不仅仅是对时间的节省 ...
1342
0
0
姗姗来迟
@
2020-12-5 23:55
来自:
DevOps、SRE和AIops认证和实践
预览
沙拉
2020-12-5
新窗
可靠性是大型分布式系统最基本的功能
当然,为了有效地进行故障调试,自我检查中所依赖的内部运作细节也应该暴露给管理整体系统的操作员。在非计算机领域中对自动化影响的类似讨论——例如 ...
1229
0
0
沙拉
@
2020-12-5 23:54
来自:
DevOps、SRE和AIops认证和实践
预览
汗青
2020-12-5
新窗
Borg(谷歌内部的k8s)∶仓库规模计算机的诞生
理解我们对自动化的态度的演变,以及何时何地部署自动化是最佳的另一种方式,就是考虑我们的集群管理系统发展的历史。正如前文"MySQL On Borg"体现了 ...
1381
0
0
汗青
@
2020-12-5 23:53
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-5
新窗
谷歌SRE以服务为导向的集群上线流程
在下一次迭代中,Admin 服务器成为服务团队的工作流程的一部分,这包括作为机器管理的Admin 服务器(安装包和重新启动服务器),以及集群级别的 Admin ...
1110
0
0
匿名
@
2020-12-5 23:51
来自:
DevOps、SRE和AIops认证和实践
预览
姗姗来迟
2020-12-5
新窗
自动化程序的不同体现在哪三个方面
自动化程序的不同体现在三个方面∶ ● 能力,即准确性。 ● 延迟,开始执行后,执行所有步骤需要多久。 ● 相关性,自动化所涵盖的实际流程比例。 ...
1169
0
0
姗姗来迟
@
2020-12-5 23:50
来自:
DevOps、SRE和AIops认证和实践
预览
忘我之境
2020-12-5
新窗
图片
如何幂等地解决不一致情况
"一周内上线"是一个很恐怖的任务。我们目前有十几个团队编写出的几万行的shell脚本。虽然我们能够快速分析任何一个集群的问题所在,但是修复它意味着 ...
1383
0
0
忘我之境
@
2020-12-5 23:49
来自:
DevOps、SRE和AIops认证和实践
预览
ITIL先锋
2020-12-5
新窗
让自己摆脱琐事∶自动化所有的东西
很长一段时间以来,Google的广告产品将数据存储于一个MySQL 数据库中。因为广告数据显然需要很高的可靠性,一个SRE 团队负责管理那些基础设施。从2005 ...
1377
0
0
ITIL先锋
@
2020-12-5 23:44
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-5
新窗
谷歌SRE自动化分类的层次结构
虽然所有这些自动化步骤都是有价值的,同时自动化平台本身也是很有价值的。在一个理想的世界里,我们不需要任何平台之外的自动化进程。事实上,构建一 ...
1222
0
0
匿名
@
2020-12-5 23:42
来自:
DevOps、SRE和AIops认证和实践
预览
mingming
2020-12-5
新窗
谷歌SRE自动化的应用案例
在运维行业中,自动化这个术语一般用来指代通过编写代码来解决各种各样的问题。尽管写这些代码的动机以及最终产生的解决方案本身往往区别很大。更广泛 ...
1402
0
0
mingming
@
2020-12-5 23:40
来自:
DevOps、SRE和AIops认证和实践
预览
Hoop
2020-12-5
新窗
自动化对谷歌SRE意味着什么价值
所有上文提到的这种益处和弊端对 SRE来说也同样适用,Google更倾向于自动化。我们对于自动化偏爱部分来自于Google特有的业务挑战∶Google的产品和服务 ...
1121
0
0
Hoop
@
2020-12-5 23:40
来自:
DevOps、SRE和AIops认证和实践
预览
august
2020-12-5
新窗
谷歌自动化系统的演进过程介绍
"黑科技"之外,就只剩自动化和机械化了。—Federico Garcia Lorca(1898-1936),西班牙诗人和剧作家 对于SRE而言,自动化是一种力量倍增器,但不是 ...
1286
0
0
august
@
2020-12-5 23:39
来自:
DevOps、SRE和AIops认证和实践
预览
汗青
2020-12-5
新窗
分布式监控系统的警报过多的案例
Google内部的基础设施通常提供某个SLO(参见第4章),并且伴随有相应的SLO监控。很多年以前,Bigtable SLO是基于某个假想的客户端的平均性能得出的。 ...
1272
0
0
汗青
@
2020-12-5 23:38
来自:
DevOps、SRE和AIops认证和实践
预览
萨达
2020-12-5
新窗
监控系统的长期维护应注意哪些事项
本章描述的理念整合起来就成为Google SRE广泛接受和遵循的监控与警报设计哲学。虽然这个设计哲学有一定理想性,但是书写和评审某个新警报时可以依赖的 ...
1215
0
0
萨达
@
2020-12-5 23:36
来自:
DevOps、SRE和AIops认证和实践
预览
我行我素
2020-12-5
新窗
度量分布式系统监控的指标时采用怎样合适的精度
构建监控系统时,很多人都倾向于采用某种量化指标的平均值∶延迟平均值,节点的平均CPU使用率,数据库容量的平均值等。后两个例子中存在的问题是很明 ...
1342
0
0
我行我素
@
2020-12-5 23:35
来自:
DevOps、SRE和AIops认证和实践
预览
蓝蓝
2020-12-5
新窗
分布式系统应该监控哪4 个黄金指标
监控系统的4个黄金指标分别是延迟、流量、错误和饱和度(saturation)。如果我们只能监控用户可见系统的 4个指标,那么就应该监控这 4个。 延迟服务 ...
1697
0
0
蓝蓝
@
2020-12-5 23:34
来自:
DevOps、SRE和AIops认证和实践
预览
匿名
2020-12-5
新窗
图片
监控系统应该解决两个什么问题
监控系统应该解决两个问题∶什么东西出故障了,以及为什么出故障。 "什么东西出故障了"即为现象(symptom)∶"为什么"则代表了原因(可能只是中间原 ...
1343
0
0
匿名
@
2020-12-5 23:33
来自:
DevOps、SRE和AIops认证和实践
预览
Wendy
实名认证
2020-12-5
新窗
为什么要对监控系统设置合理预期
监控一个复杂的应用程序本身就是一项复杂的工程项目。即使在具有大量现成的基础设施的情况下,标记、收集、显示,以及报警这些工作,通常需要10~12个 ...
1114
0
0
Wendy
@
2020-12-5 23:31
来自:
DevOps、SRE和AIops认证和实践
预览
太帅
2020-12-5
新窗
为什么要对分布式系统进行监控
监控一个系统有多个原因,包括如下几项。 分析长期趋势数据库目前的数据量,以及增长速度。又例如每日活跃用户的数量增长的速度。 跨时间范围的 ...
1115
0
0
太帅
@
2020-12-5 23:30
来自:
DevOps、SRE和AIops认证和实践
预览
姚明
2020-12-5
新窗
如何做好分布式系统的监控
Google的SRE团队在构建监控系统和报警系统方面遵循一些核心思想和最佳实践。本章在决定何时需要人工干预(发出紧急警报)的问题上提供了一些指导意见 ...
1188
0
0
姚明
@
2020-12-5 23:28
1
2
3
4
5
6
7
8
9
10
/ 10 页
下一页
快速发帖
还可输入
80
个字符
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以发帖
登录
|
立即注册
本版积分规则
发表帖子
转播给听众
手机版
|
小黑屋
|
最新100贴
|
论坛版块
|
ITIL先锋论坛
|
粤ICP备11099876号
|
网站地图
Powered by
Discuz!
X3.4
Licensed
© 2001-2017
Comsenz Inc.
返回顶部