3.4. 紧急事件响应

3.4.1. 当系统出现问题怎么办

不要慌,按照灾难应急流程处理。

3.4.2. 测试导致的紧急事故

大型测试一定要先测试回滚机制。可控测试如果异常立即停止该项测试,进行回滚。

3.4.3. 变更部署带来的紧急事故

3.4.4. 流程导致的严重事故

3.4.5. 所有问题都有解决方案

系统不但会出问题,还会以没有人想到的方式出问题。 如果你找不到解决办法,那就在更大范围内寻求帮助。 事后 一定要留出一些时间写事后报告。

3.4.6. 向过去学习

没有什么比过去的事故记录更好的学习资料了,历史就是学习其他人曾经犯的错误, 在记录过程中要诚实,一定要事无巨细。