2.2. 事故响应
2.2.1. Google事故管理
2.2.1.1. 事故指挥系统
事故响应框架都有三个公共目标,简称3C
协调 Coordinate : 协调好响应工作
沟通 Comunicate: 内部沟通外部沟通
控制 Control: 保持对事故响应工作的掌控
2.2.1.2. 事故响应中的主要角色
事故总负责人: 负责通盘的事故响应工作。
发言人: 定期向事故响应团队和相关各方发布信息,并回答他们关于事故的疑问。
业务负责人: 使用合适的运维工具来缓解或者解决事故。
2.2.2. 把最佳实践付诸实施
2.2.2.1. 事故响应培训
强烈建议对负责响应事故的人员进行培训。这样在真正紧急情况下,冷静正确处理故障。
理论 + 实际案例 + 具体操作
2.2.2.2. 前期准备
确定好沟通渠道
及时通告情况发展
准备联系人名单
建立事故标准
2.2.2.3. 演习
在日常培训中,介绍事故响应的理论后,演习可以确保团队不会忘记事故响应技能。