概述
- 课程名称:《精通可观测性:系统运维实践的跃迁》
- 交付形式:线上或线下
- 时长:2天
探索可观测性工程的理念和实战,打破传统,挑战未知。适合运维、DevOps、产品与项目管理者,聚焦可观测性的核心理论与实践。洞悉独特的软件工程方法,深入结构化事件与链路追踪,掌握OpenTelemetry探针标准。从调试到管理层决策,全方位提升。领悟SLO与告警处理的实际应用,推动团队协作与文化建设。通过参考案例与成熟度模型,助力未来发展。勇攀高峰,塑造全新视角。
课程对象
- 运维工程师、运维经理、DevOps工程师
- 想成为SRE/DevOps工程师的人员
- 产品经理、项目经理、运维交付经理
- 已经有ITIL/DevOps或敏捷相关认证的人员
课程目标
- 基础理论与实践: 掌握可观测性的核心理论,将其应用于实际的软件系统调试与优化。
- 监控数据与调试: 学习如何利用监控数据进行高效调试,提升系统故障排查的能力。
- 技术工具应用: 使用结构化事件和链路追踪等工具,深入了解OpenTelemetry探针标准。
- 大规模可观测性管理: 分析投资回报率,制定有效的数据存储策略,优化采样方法降低成本。
- 团队可观测性实践: 推广可观测性实践,促进团队内外的协作,建立可观测性联盟。
- SLO与告警处理: 利用SLO提高系统可靠性,并处理基于SLO的告警,提升预测和响应能力。
- 可观测性文化与合作: 培养可观测性文化,通过商业案例了解投资回报,创建可观测性联盟,应用成熟度模型指导未来发展。
课程大纲
第一天
模块 1: 可观测性概述
- 可观测性的学术定义
- 软件系统中的可观测性应用
- 软件可观测性错误描述
模块 2: 可观测性与调试实践
- 监控数据与调试的关系
- 可观测性实现更好调试的方法
- Parse公司转型实践经验
- 可观测性与DevOps、SRE、云原生的关联
模块 3: 结构化事件与链路追踪
- 结构化事件在调试中的应用
- 链路追踪的重要性与实践
模块 4: 使用 OpenTelemetry 的探针
- 探针的简介与作用
- 开源探针标准及其使用示例
第二天
模块 5: 通过事件分析实现可观测性
- 从现有数据出发的调试
- 第一性原理调试
- AIOps的误导性承诺
模块 6: SLO 与告警处理
- 使用SLO提高可靠性
- 处理基于SLO的告警
- 可观测性与软件供应链的关系
模块 7: 大规模可观测性的实践与管理
- 可观测性投资回报率分析
- 高效数据存储策略
- 精准且经济的采样方法
- 遥测管理流水线的建立与挑战
模块 8: 传播可观测性文化
- 可观测性的商业案例
- 创造可观测性联盟与商业智能工具结合
- 可观测性成熟度模型与未来趋势预测
课程收获
- 深化可观测性理解: 学员将深入理解可观测性的核心概念与实践,解决在复杂软件系统中的调试与排查难题,提升系统稳定性。
- 提升技术应用水平: 通过掌握结构化事件、链路追踪和OpenTelemetry探针等技术工具,学员能够更高效地应用于实际场景,优化软件质量与性能。
- 优化管理决策: 学员将能够分析可观测性的投资回报率,制定高效的数据存储策略,为大规模系统的管理决策提供数据支持,降低运维成本。
- 促进团队协作与文化建设: 学员通过推广可观测性实践,促进团队内外的协作,建立可观测性联盟,推动团队在系统优化方面取得更大的成就。
- 提高预测与响应能力: 学员将能够利用SLO提高系统可靠性,处理基于SLO的告警,提升对系统行为的预测和响应能力,减少潜在的系统宕机风险。