3.6. 事后总结
3.6.1. google的事后总结哲学
事后总结的主要目的是为了保证该事故被记录下来,理清所有的根源。 确保所有有效的措施使得未来重现的几率和影响得到降低, 甚至避免重现。
团队必须书写一份事后总结,书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。
总结条件
用户可见的宕机时间或者服务质量降低程度达到一定标准。
任何类型的数据丢失
on-call工程师需要人工接入的事故
问题解决耗时超过一定限制的。
监控问题(人工发现的,非系统)
对事不对人,避免指责,提供建设性意见 。
3.6.2. 协作和知识共享
需要以下功能
实时协作
开放的评论系统
邮件通知
正式的事后总结过程还包括正式的评审和发布过程。
评审包括如下几项
关键的灾难数据是否已经都采集并保存起来了?
本次的事故影响评估是否完整?
造成事故的根源问题是否足够深入?
文档中记录的任务优先级是否合理,能否及时解决根源问题。
这次事故处理的过程是否共享给其他的相关部门?
3.6.3. 建立事后总结文化
建立事后总结文化需要不断培育和加强,示例如下。
本月最佳事后总结
google+ 事后总结小组
事后总结阅读部
命运之轮