Martin Liu

Martin Liu

Senior Developer Relations/Advocate, Founder of DevOps China, DevOps Institute Ambassador

战斗机飞行员如何进行事故管理(译文)

高风险、极度压力、失败的后果惨重:战斗机飞行员和事故管理比你想象的更加相似

Martin Liu

1 分钟

流程设计

你的事故管理与战斗机飞行员的有什么共同点?经验丰富的战斗机飞行员,Transposit 的 Anthony “AB " Bourke 说,他最近在DevOps企业峰会的快乐时光上做了这个演讲。

教练观点:incident management 在目前的所有出版物中,甚至大部分翻译软件中,都被翻译为 “事件管理”。在 IT 行业中,这个词汇的首次出现大约是在 20 年前,从 ITIL 引入运维管理的时候,从第一波 ITIL 在国内传播布道的时候,它就一直被翻译为 “事件管理”,“事件” 其实是一个没有好坏之分,好恶差异的中性词,不带有严重后果的含义。但是如果你在美剧中,在美国 NBC 新闻频道仔细的听;incident 往往和某人遭遇交通事故受伤亡相关;和就在今天美国科罗拉多的一个商场里发生的 10 人死亡的枪击案件相关。大部分企业的 ITIL/ITSM 软件中事件管理流程里所管理的其实都是 Event Management,而不是事故。希望本文能引起大家的注意。本文中将其翻译为“事故管理”,事故应该是 Incident 这个单词在 IT 服务管理这个语境里应该有的,精确的含义。

本文出处:https://www.transposit.com/blog/fighter-pilots-and-incident-management/

想象一下。在你所从事的工作中,你是最棒的,你被招募为蓝天上的飞翔天使。“所以,现在我们希望你驾驶着你的喷气式飞机,在很低的高度上高速飞过大量的人群,并发出巨大的噪音。然后我们要做编队飞行,你和你领导机翼间隙只有18英寸。还有一件事我得提一下,有一半的时间里,我们希望你们是倒立的,倒过来的;所以就像你的IT业务服务遭受了灾难一般,后果非常严重”

他说的没错。事实上,作为一名值守的工程师,在新冠疫情期间,应付的是应用系统发生的各种状况,值守工程师承受的压力比以往任何时候都大,有多少时候会有 “倒飞"的感觉?这可能是一种令人头晕目眩的体验。而失败的后果往往很严重,同时大家对 “完美任务 “的期望也从未如此的高。

在事故管理的坚实基础上,我们可以从战斗机飞行员那里学到什么?能否帮助我们运行和保障业务关键任务服务的安全?

如实汇报不可打折

虽然我们认为:飞行员所完成的史诗般的飞行,是他们工作中最重要的部分,但伯克强调,其实汇报与任务本身同等重要。

每次任务结束后,无一例外的,战斗机飞行员在汇报上所花费的时间,几乎是他们飞行时间的两倍。事实上:“无论我们认为自己已经有多好了,无论我们的计划有多优秀,无论我们的技术有多完美,无论我们的人员素质多么无敌,其实战斗机飞行员并没有执行过所谓的完美任务。” 我们的大部分学习,并不是发生在任务或事故本身,而是发生在事后,是在我们恢复之后,在和同事讨论的过程中,用清醒的头脑看待所发生的事情。

我们能,也应该将这种纪律性带入自己的事故管理实践中。“不要将这种汇报的概念,看作是只能在军队中发挥作用的东西,” 伯克说。“想一想,你是如何提高你在给予和接受反馈方面的标准的。” 你不仅会加速新员工的成长体验,而且你还会发现,你团队中经验丰富的人也能够突破他们自己的玻璃天花板,同时避免他们无法提升,无法适应不可避免的变化。

透明度是汇报的关键

跟我们一起飞上一段旅程吧!假设你就是一名中级军官,你刚刚和一群军官一起执行训练任务归来,还有一名二星将军还在回家的路上。当你汇报任务时,你在视频中观察到,将军现在已经在目标之外的100英里了,而且他应该在离开目标50英里的时候,就将“主臂”置于保险状态,可是他现在的"主臂 “开关放了在手臂的位置上(这意味着武器仍然是发射就绪状态)。你会指出这个将军的操作失误么–他可是负责着你的涨薪、晋升和降级?

当伯克提出这个问题时,我们中的许多人都觉得,对一个权威人物,指出他们犯了一个错误的想法是非常恐怖的。但随后,他介绍了闭口不言的潜在后果。你们中队所驾驶的F16战机的载弹量是2000磅,它可以每分钟发射6000发子弹。在你返航接近基地时,错误的按下一个按钮,可能就是一个致命的错误,这会将自己部队的基地给摧毁掉。有了这些补充说明后,答案就很明显了。透明度不能是可有可无的。

汇报的做法会让团队在下一次任务(或事故)来临时变得更强大,适应性更强。但汇报成功的奥秘并不神秘,但往往却求之不得:完全透明。

在汇报过程中,官衔等级应该被抛弃,自我要放在一边。“当汇报室的门关上时,一些神奇的事情就会发生,“伯克说。“军衔铭牌从我们的胸前脱落了,我们举行的汇报并没有等级制度,唯一的目的就是学习和改善。” 伯克敦促队友成为 “自己最大的敌人”,暴露自己的错误,并承诺今后要做出改变。队友们不是将责任推给他人,而是从同伴那里获得信心。

创造这种环境需要领导层有意识地付出努力,为各种等级的队友提供一个安全的空间,让他们坦诚相待。“我们的IT领导者必须找到一种方法,来创造这样的环境,让他们的员工能够给他们提供所需的诚实、实时的反馈,以帮助他们做出正确的决策,使他们领先于威胁,领先于竞争者,领先于不可避免的变化。”

通过事后回顾总结提升事故管理

接受伯克的说法:“汇报是世界上最强大的工具,组织中人员的经验可以得到加速度成长,帮助你团队中的每个人都成为奇才,并推动产生更好的成果。” 如果我们真正想实践持续改进,事后总结应该是一致的、彻底的、广泛分享的。

  • 第一步是确保你的团队在每一个事件发生后都要进行事后分析。
  • 其次,事后总结需要检查事故解决过程中实际发生的细节,而不仅仅是产生问题的原因。在一个安全的环境中,团队成员会很自在地分享他们可以做得更好的地方,并确定需要改进的地方。
  • 最后,还要在整个组织内分享学习成果,这样经验就不会被忽略,否则就无法积累组织的知识。你永远也不知道,谁可能需要在下一次事故中实施这些经验,这些学习将帮助他们更好地准备起来,应对各种状况。

我们的任务可能在飞行高度上有所不同,但在原则上非常相似。承受极端的压力。高风险。以及永无止境的学习空间。借鉴战斗机飞行员的实战经验,我们可以成为自己组织中的特立独行者,将我们的流程提升到新的高度。透明度、诚实,以及对学习和改进的承诺,将会使我们的事故管理飞速发展。

最新文章

分类

关于

This Blog is sharing DevOps and SRE ariticles. I am a Senior Developer Relations/Advocate at Elastic, Founder of DevOps China since 2017, Microsift MVP since 2021, DevOps Institute Ambassador.