2.2. 事故响应

2.2.1. Google事故管理

2.2.1.1. 事故指挥系统

事故响应框架都有三个公共目标,简称3C

  • 协调 Coordinate : 协调好响应工作

  • 沟通 Comunicate: 内部沟通外部沟通

  • 控制 Control: 保持对事故响应工作的掌控

2.2.1.2. 事故响应中的主要角色

  • 事故总负责人: 负责通盘的事故响应工作。

  • 发言人: 定期向事故响应团队和相关各方发布信息,并回答他们关于事故的疑问。

  • 业务负责人: 使用合适的运维工具来缓解或者解决事故。

2.2.2. 把最佳实践付诸实施

2.2.2.1. 事故响应培训

强烈建议对负责响应事故的人员进行培训。这样在真正紧急情况下,冷静正确处理故障。

理论 + 实际案例 + 具体操作

2.2.2.2. 前期准备

  • 确定好沟通渠道

  • 及时通告情况发展

  • 准备联系人名单

  • 建立事故标准

2.2.2.3. 演习

在日常培训中,介绍事故响应的理论后,演习可以确保团队不会忘记事故响应技能。