3.6. 事后总结

3.6.1. google的事后总结哲学

事后总结的主要目的是为了保证该事故被记录下来,理清所有的根源。 确保所有有效的措施使得未来重现的几率和影响得到降低, 甚至避免重现。

团队必须书写一份事后总结,书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。

总结条件

  • 用户可见的宕机时间或者服务质量降低程度达到一定标准。

  • 任何类型的数据丢失

  • on-call工程师需要人工接入的事故

  • 问题解决耗时超过一定限制的。

  • 监控问题(人工发现的,非系统)

对事不对人,避免指责,提供建设性意见 。

3.6.2. 协作和知识共享

需要以下功能

  • 实时协作

  • 开放的评论系统

  • 邮件通知

正式的事后总结过程还包括正式的评审和发布过程。

评审包括如下几项

  • 关键的灾难数据是否已经都采集并保存起来了?

  • 本次的事故影响评估是否完整?

  • 造成事故的根源问题是否足够深入?

  • 文档中记录的任务优先级是否合理,能否及时解决根源问题。

  • 这次事故处理的过程是否共享给其他的相关部门?

3.6.3. 建立事后总结文化

建立事后总结文化需要不断培育和加强,示例如下。

  • 本月最佳事后总结

  • google+ 事后总结小组

  • 事后总结阅读部

  • 命运之轮