Dynatrace 出品 2023 年 SRE 状态报告

本文来源 Dynatrace：《State of SRE in 2023》

站点可靠性工程（SRE）在组织中变得越来越重要，因为它们希望跟上快速数字化转型的步伐。现在比以往的任何时候，客户更期望高质量、可靠的数字服务，提供无缝的用户体验。SRE 确保了整个数字环境的可靠性和一致性，为组织提供了框架，使其能够持续为客户交付这些理想的体验。

Dynatrace 产品营销总监 Saif Gunja 主持了 2023 年 SRE 状态网络研讨会。参加研讨会的专家成员包括 Kyndryl 的 Danne Aguiar、Red Hat 的 Hilliary Lipsig 和 SquaredUp 的 Stephen Townshend。他们讨论了最佳实践、新兴趋势、建立服务质量目标（SLO）的有效思维方式等。主持人和小组成员共同分享了他们的见解，探讨了组织如何增强其 SRE 努力。

有效的站点可靠性工程需要企业范围的转型

如果没有对 SRE 实践的统一理解，部门之间很快会形成孤岛。缺乏协作会导致观测数据的分散，使团队在交付价值时几乎没有信息可依赖。没有成熟的 SRE 应用实践，生产力会因此受到影响。

接受 SRE 的文化转变是打破这些孤岛的关键。研讨会专家成员强调了：整个组织向 SRE 采用的文化转变的必要性。他们还强调了高层支持对于文化转变的重要性。Townshend 说：“没有高层支持，你会遇到瓶颈，由于优先事项的竞争，你根本无法取得任何 SRE 的进展。”

Gunja 表示同意。他说：“如果这不是一种文化变革，如果不是自上而下的变革，那么很可能会失败。即使是自上而下的变革，仍然会有很多障碍需要克服。”

Lipsig 从另一个角度看到了这种现象。在她的组织中，自上而下的 SRE 采用显著改善了孤岛的文化。她说：“我看到很多以前不存在或者有些紧张的关系在过去 12 个月里有了很大的改善。”显然，高层的支持简化了各团队对 SRE 的理解，增加了组织内的协作和教育。

然而，尽管这种转型对于实现业务目标是必要的，许多高层管理人员仍然犹豫是否采用 SRE 实践。这往往是由于缺乏对 SRE 在实现关键绩效目标（服务质量目标，SLO）中的作用的理解。

为克服这一障碍，研讨会专家成员建议：工程师通过业务数据向高层管理人员传达 SRE 的价值。在收集这些指标后，工程师可以展示：在企业内大范围的应用 SRE 实践，如何有助于减少琐事、员工倦怠（各种卷）、运营费用和未达标的服务质量目标（SLO）数量。

服务质量目标（SLO）应聚焦，并由高阶业务目标驱动

在创建 SLO 以度量 SRE 成功时，重要的是要考虑这些目标将如何为组织带来益处。有时，工程团队可能会专注于技术细节，而忽视了整体业务目标。团队应确保即使是最小的 SLO ，也能使之与业务增长相关。

然而，想要理解技术 SLO 如何影响业务结果，其实并不总是那么直观。例如，减少平均修复时间（MTTR）对收入的影响有多大？要回答这些问题，跨职能合作对于组织的成功至关重要。不同技能团队之间的沟通可以帮助澄清 SLO 与业务结果之间的联系。

需要注意的是，创建以业务为中心的 SLO 并不意味着仅关注高阶目标。实际上，研讨会专家成员强调了创建更小的 SLO 以更好地度量进展的重要性。通过识别小的胜利，团队可以避免被实现更大目标的压力所压垮。这些小的胜利，如实施无责根本原因分析过程，可以采取多种形式，不一定涉及数字指标。

对于构建以业务为中心的 SLO 的组织，Aguiar 提出了一些建议。他说：“如果你的公司有服务质量协议（SLA），就从那里开始。你可以用这个由 SLA 设置的特定 SLO 进行实践，然后再定义其他的。”

Lipsig 也提供了一些建议。她说：“选择一项衡量客户在使用你的产品时是否成功的指标，然后研究如何度量它。” 以业务为中心的 SLO 是由客户成功驱动的：当客户成功时，业务也会成功。因此，仔细考虑客户需求是创建有效 SLO 的关键。

客户同理心是优化站点可靠性工程（SRE）实践的关键

软件工程往往是一门缺乏人情味的学科。SRE 通常不直接面对客户，因此容易误解客户的痛点。这种缺乏了解会导致缓慢的故障解决时间和无效的方案。此外，客户可能会因组织内协作不佳而感到沮丧，导致客户留存率下降。

在 SRE 中，跨部门合作对于建立客户关系至关重要。研讨会专家成员鼓励工程师与客户成功团队协作，以更好地了解客户的情况，并满足关键需求。Lipsig 分享道：“我与我们的客户成功工程师建立了非常好的合作关系。” 但她也强调了内部合作的重要性：“与客户建立信任并不是我一个人可以完成的。”

了解客户需求有助于在组织与客户之间建立信任，从而让客户更愿意接受 SRE 团队的建议，这也赋予工程师更多的主动权。

小组成员还强调了在处理客户互动时“软技能”的重要性。尊重和耐心地与客户沟通是建立信任的关键。他们还指出，这种做法不仅适用于客户，也适用于组织内部的同事。

生成式 AI 与站点可靠性工程的未来

“AI 在应用性能管理（APM）领域并不新鲜，”Aguiar 提醒道。最近在生成式 AI 方面的突破可能为各种组织中的 SRE 团队提供优势。例如，生成式 AI 具有提供更直观的数据查询方法的潜力。通过其自然语言处理能力，这样的能力使得在不使用格式化查询语言的情况下，获取数据分析洞见。成为可能。减少了数据访问的障碍和孤立。

生成式 AI 还可以通过允许用户提出有关架构和数字环境的具体问题来优化根本原因分析。快速、可靠的答案获取，促进了团队之间的快速学习。这将减少平均修复时间（MTTR）并提高生产力。

研讨会专家成员推测，AI 将通过高效执行任务改善 SRE 团队的生活质量。Aguiar 预测，生成式 AI 的一个关键功能是基于过去的经验创建操作手册（Playbook）。这将有可能在很大程度上消除手动干预和冗长的流程，以解决常规发生的事故。然而，Lipsig 提醒小组成员，SRE 在各个组织中的表现有所不同。她说：“我们会看到很多不同类型的影响，而不是生成式 AI 带来的一个确定性的影响。”

生成式 AI 是 SRE 团队可以独特应用于其实践中的一种有前途的新手段。它可以实现更高的效率，但它并不能完全替代某些现有的可靠性措施。

成功的站点可靠性工程重在预防而非被动响应

意外的系统中断、服务器过载和其他不可预见的事件，不仅会严重影响 SRE 的生产力，还会对组织的盈利能力造成潜在的灾难性影响。这些问题可能导致大量计划外的工作，使 SRE 处于被动状态，效率和进展受到阻碍。在这种被动模式下进行根本原因分析，通常时间漫长且代价昂贵，使 SRE 资源紧张。为了改变这种情况，SRE 团队必须启动计划内的工作，开始采取主动的防范措施。

主动 SRE 模型的一个关键组成部分是实施端到端监控，包括不直接由 SRE 团队管理的系统。通过保持对客户和供应商系统的强大可观测性，团队可以在软件问题扩散之前识别出潜在问题。强大的黑盒监控、负载均衡分析和定期系统检查，都是有效的主动措施，可以显著提高生产力和预防事故。

随着组织在数据收集和存储上投入大量资源，SRE 团队更有动力从被动工作模式转变。宝贵的数据在被动模式下未被充分利用，仅用于应急响应而非预防。组织应通过创建强调预防的工作流程，充分发挥数据驱动见解的潜力，而不是仅仅依赖于应急处理。

“我们开始在服务质量指标（SLI）违反时响应警报，以便始终保持我们的服务质量目标（SLO），”Lipsig 说道，谈到 Red Hat 的 SRE 如何处理事故时。“我们从不会超出我们的错误预算。” 一旦团队开始主动使用数据，“他们可以用这些数据做有意义的工作，而不仅仅是用于应急响应。”

提升协作是达成 SLO 的关键

在当今的技术环境中，对于云原生架构下的软件工程方法存在显著争论。无论是 SRE、DevOps 还是平台工程，研讨会专家成员都认为部门分类远不如实际工作重要。团队应专注于有效和高效地达成 SLO，而不是纠结于职位头衔。要打破 DevOps、SRE 和平台工程是对立的思维定式，是缓解孤岛效应和确保 SLO 满足的关键一步。

“SRE 是关于设计、构建和大规模运营可靠服务，” Townshend 说道。“只要我在做这些事情，我认为我就是成功的。”

❤️ Photo by Pavel Danilyuk from Pexels: https://www.pexels.com/photo/a-person-using-a-laptop-outside-at-night-9143840/