3.4. 紧急事件响应
3.4.1. 当系统出现问题怎么办
不要慌,按照灾难应急流程处理。
3.4.2. 测试导致的紧急事故
大型测试一定要先测试回滚机制。可控测试如果异常立即停止该项测试,进行回滚。
3.4.3. 变更部署带来的紧急事故
3.4.4. 流程导致的严重事故
3.4.5. 所有问题都有解决方案
系统不但会出问题,还会以没有人想到的方式出问题。 如果你找不到解决办法,那就在更大范围内寻求帮助。 事后 一定要留出一些时间写事后报告。
3.4.6. 向过去学习
没有什么比过去的事故记录更好的学习资料了,历史就是学习其他人曾经犯的错误, 在记录过程中要诚实,一定要事无巨细。