这份文档是一本关于如何构建和维持一个站点可靠性工程(SRE)职能部门的书籍,名为《企业 SRE 路线图》(Enterprise Roadmap to SRE),由 James Brookbank 和 Steve McGhee 撰写。这本书由O’Reilly Media, Inc.在 2022 年出版,旨在帮助大型和复杂的组织(即企业)采用SRE。
下面是对本白皮书的简要概述。
前言
SRE 的实施与挑战
Google 的两本 O’Reilly 书籍——《站点可靠性工程》和《站点可靠性工作手册》——展示了为什么承诺整个服务生命周期可以使组织成功地构建、部署、监控和维护软件系统。前者由 Betsy Beyer、Chris Jones、Niall Richard Murphy 和 Jennifer Petoff 编辑,后者由 Betsy Beyer、Niall Richard Murphy、David K. Rensin、Kent Kawahara 和 Stephen Thorne 编辑。
本报告旨在在这些书籍的基础上,深入探讨在大型复杂组织(即企业)中采用 SRE 的挑战。尽管 SRE 在过去几年中非常流行,但我们从许多企业获得的反馈表明,SRE 的热情与实际采用之间存在差距。
我们认为这是一个需要弥合的重要差距,因为可靠性正日益成为企业的重要区分点。云采用和 COVID-19 大流行引发的技术变革速度和规模,通常需要不同的技术来应对增加的复杂性。
如果您参与生产系统的可靠性,或者依赖其可靠性,并且需要了解更多关于 SRE 采用的信息,这些主题将引起您的兴趣。这包括执行和领导角色,也包括个体贡献者(如云架构师、站点可靠性工程师 [SRE]、平台开发人员等)。无论您的角色是什么,如果您设计、实施或维护技术系统,这里都有适合您的内容。
第1章:企业 SRE 入门 介绍如何将 SRE 引入现有企业,建议首先评估现有环境,设定期望,并确保在评估 SRE 及其在组织内可能的工作方式时,朝着正确的方向迈出合理的步伐。
第2章:为什么要采用 SRE 提高可靠性? 讨论了为什么企业希望建立 SRE 团队或追求可靠性,以及他们希望实现的结果。作者指出,可靠性是产品最需要具备的特性,因为如果产品不可用了,那么它的任何特性都无法被利用到。
第3章:SRE 原则 在讨论具体实践之前,作者强调了原则的重要性。SRE 的原则包括 拥抱风险、服务质量目标(SLOs)、消除琐事(Toil)、分布式系统的监控等。
第4章:SRE 实践 一旦建立了 SRE 团队并对原则有了一定了解,就可以在组织中,开始实施一套 SRE 实践。团队的实践取决于成员能做什么、他们知道什么、他们拥有什么工具,以及他们对所有这些的舒适度。
第5章:积极培育成功 讨论了如何确保 SRE 在组织中成功的实施,包括采取小规模行动、建立和保持可持续的快乐团队、承认 SRE 是一个动态的角色,并随着时间的推移而发展。
第6章:不仅Google可以,企业亦可行 作者与三位不同行业的 SRE 领导者进行了交谈,他们在过去几年中以各种形式采用了 SRE ,分享了他们独特的故事,包括采用 SRE 的工作方式、他们可能会采取的不同方法,以及对 SRE 在他们的行业或组织中有效运作的洞察。
结论 作者希望本白皮书能帮助企业采用 SRE,并为每个人带来更可靠的技术体验。他们认为,通过明确定义 SRE 原则,将这些原则映射到实践和能力上,并优先发展和培养团队内部的这些能力,可以提高成功的机会。
关于作者 James Brookbank 是 Google 的云解决方案架构师,专注于为 Google 客户解决复杂的技术问题并提供专业的架构指导。Steve McGhee 是可靠性倡导者,帮助团队了解如何构建和运营世界级的可靠服务。在担任此职位之前,他曾任职 Google 的 SRE 超过10年,学习如何扩展全球系统。
Feature picture ❤️ Anete Lusina: https://www.pexels.com/photo/miniature-toy-car-on-top-of-monopoly-board-game-4792380/