3.5. 紧急事故管理

3.5.1. 紧急事故流程管理要素

3.5.1.1. 职责分离

  • 事故总控: 掌握事故概要信息,负责组建事故处理团队,按需分配任务给团队成员。

  • 事务处理团队:负责指挥团队具体执行合适的事务来解决问题,在一次事故中,唯一能够对系统做修改的团队。

  • 发言人: 本次事故处理团队的公众发言人,负责维护目前的文档,保证正确性和信息的及时性。

  • 规划负责人: 为事务处理团队提供支持,同时记录特殊操作。

3.5.1.2. 控制中心

可以考虑设立一个作战室,将需要处理的问题全部成员挪到该地办公,其他的同学可以通过其他工具接入进来。

3.5.1.3. 实时事故状态文档

事故总控负责人其中一个职责就是维护一个实时事故文档,能多人同时编辑。

3.5.1.4. 明确公开的职责交接

交接需要得到对方的明确ack . 从现在开始,你来负责事故总控,请确认, 我确认。

3.5.2. 一次流程管理良好的事故

3.5.3. 什么时候对外宣布事故

满足几个条件任何一个就需要宣布事故了

  • 是否需要引入第二个团队来帮助处理问题?

  • 这次事故是否影响了最终用户?

  • 在集中分析一小时后,这个问题是否依然没有得到解决?

3.5.4. 最佳实践

  • 划分优先级: 止损优先,保留现场

  • 事前准备: 流程

  • 信任: 充分相信每个事故处理人,让他们自主行动。

  • 反思: 控制情绪,有压力应该寻求更多帮助。

  • 考虑替代方案: 周期性审视目前状态,是否执行更重要更紧急的事情。

  • 练习: 不断练习,习惯成自然。

  • 换位思考: 鼓励每个团队成员熟悉流程中的每个角色。